عطل Cloudflare الثاني خلال شهر يهز الإنترنت ويسقط مواقع عالمية

عمرك تخيلت إن تعديل صغير في كود شركة عالمية ممكن يعطل ربع الإنترنت؟ هذا بالضبط ما حصل في العطل الأخير لشركة Cloudflare.

ما هو العطل الذي حدث في Cloudflare؟

شهدت Cloudflare عطلًا تقنيًا كبيرًا للمرة الثانية خلال أقل من شهر، وتسبب هذا العطل في سقوط مواقع ضخمة مثل LinkedIn وZoom وCanva وShopify، وظهور رسالة HTTP 500 Internal Server Error لملايين المستخدمين.

خلفية ما حدث داخل Cloudflare

القصة بدأت عندما كان مهندسو Cloudflare يعملون على إصلاح ثغرة أمنية خطيرة في React Server Components، وهي الثغرة المعروفة باسم CVE-2025-55182. التحديث كان جزءًا من إعداد عالمي على مستوى الـ global config، وهو شيء ينتشر في آلاف السيرفرات خلال ثوانٍ.

لكن داخل أحد مكونات الـ Proxy وبالتحديد نسخة قديمة تُسمى FL1، كان هناك Bug قديم خامل لم يظهر من قبل. التحديث فعّل هذا الخطأ فجأة، وأدى إلى محاولة الكود استخدام Object بدون قيمة، مما تسبب في Runtime Error.

كيف تسبب الخطأ في إسقاط 28% من الترافيك؟

عندما وقع الخطأ داخل الـ Proxy، بدأ كل طلب HTTP يمر من خلال Firewall ينتهي برسالة 500 Internal Server Error. وبما أن Cloudflare تمثل جزءًا ضخمًا من بنية الإنترنت، توقف ما يقارب 28% من الترافيك العالمي للحظات.

كيف تعامل فريق Cloudflare مع المشكلة؟

اكتشف الفريق ارتفاعًا غير طبيعي في معدلات الأخطاء.
تعقبوا المشكلة إلى التعديل الأخير في الـ global config.
أجروا Rollback سريع للتحديث.
عادت الخدمة تدريجيًا خلال 25 دقيقة فقط.

أمثلة واقعية لتأثير الانقطاع

متاجر Shopify توقفت عن معالجة الطلبات.
اجتماعات Zoom انقطعت فجأة.
مستخدمو Canva لم يتمكنوا من تحميل المشاريع.
توقف تسجيل الدخول إلى LinkedIn لدى ملايين المستخدمين.

لماذا يحدث هذا النوع من الأعطال في شركات ضخمة؟

لأن الأنظمة المعقدة تعتمد غالبًا على آلاف الخدمات والترميزات المتشابكة. في هذه الحالة، خطأ بسيط في Object غير مُهيأ تسبب في شلل مؤقت لمواقع عالمية. هذه من طبيعة بنية الإنترنت الحديثة: أي خطأ صغير قد ينتشر ككرة ثلج.

نصائح عملية لتقليل المخاطر في الأنظمة الكبيرة

استخدام بيئة staging مع محاكاة حقيقية للإنتاج قبل نشر أي تحديث.
تفعيل أنظمة مراقبة متقدمة لرصد التغييرات الغير طبيعية.
تقليل الاعتماد على إصدارات Legacy إلا للضرورة.
استخدام Feature Flags للتراجع السريع عند حدوث مشكلة.

الخلاصة

عطل Cloudflare الأخير يوضح أن حتى أقوى الشركات وأكثرها تقدمًا يمكن أن تقع في أخطاء كارثية تمامًا مثل أي فريق آخر. ولكن الفارق الحقيقي هو سرعة اكتشاف المشكلة والتصرف فورًا.

رأي شخصي

من وجهة نظري، هذه المواقف ليست دليل ضعف، بالعكس… هي تذكير مهم أن تطوير البرمجيات "مش خط مستقيم"، وأن حتى عمالقة الإنترنت يواجهون Bugs سخيفة لكنها قاتلة. شاركني رأيك: هل ترى أن اعتماد العالم على Cloudflare أصبح خطرًا لازم يتعالج، ولا هو جزء طبيعي من تطور الإنترنت؟

المشاكل والأخطاء واردة. بس المبرمج الشاطر فقط هو اللي بيقدر بسرعة يكتشف المشكلة فين ويتعامل معاها. كل المبرمجين ممكن يغلطوا؟ اه ممكن. كل المبرمجين بيقدروا يتعاملوا مع الغلطات دي بسرعة ويحلوها؟ لا مش كلهم.