في شهر مايو ، شهدنا ثلاث حوادث أسفرت عن تدهور الأداء عبر خدمات GitHub.

1 مايو 22:09 UTC (تدوم ساعة واحدة و 4 دقائق)

في 1 مايو ، 2025 ، من 22:09 UTC إلى 23:13 UTC ، تم تدهور خدمة المشكلات ولم يتمكن المستخدمون من تحميل المرفقات. تم تحديد السبب الجذري ليكون ميزة جديدة أضافت رأسًا مخصصًا إلى جميع طلبات HTTP من جانب العميل ، مما تسبب في أخطاء الكورس عند تحميل المرفقات إلى مزودنا. نحن نقدر أن ~ 130k مستخدمين تأثروا بالحادث لمدة 45 دقيقة تقريبًا.

قمنا بتخفيف الحادث من خلال التراجع عن علامة الميزة التي أضافت الرأس الجديد في 22:56 UTC. من أجل منع حدوث ذلك مرة أخرى ، نضيف مقاييس جديدة لمراقبة وضمان التأثير الآمن للتغييرات على طلبات العميل. لقد نشرنا منذ ذلك الحين نسخة معززة من الميزة بناءً على تعلم من هذا الحادث الذي يعمل بشكل جيد في الإنتاج.

28 مايو 09:45 UTC (دام 5 ساعات)

في 28 مايو ، 2025 ، من حوالي الساعة 09:45 UTC إلى 14:45 UTC ، شهدت إجراءات GitHub تأخير الوظائف في سير العمل في إعادة الشراء العامة باستخدام المتسابقين المستضافين من Ubuntu-24. كان هذا ناتجًا عن سوء التكوين في سلوك التخزين المؤقت للخلف بعد تجاوز الفشل ، مما أدى إلى تكرار مهام عمل تقلل من السعة الإجمالية في تجمعات العداء المستضافة. تم تأخير حوالي 19.7 ٪ من وظائف العداء في Ubuntu-24 على Repos العامة. لم يتأثر المتسابقون المستضيفون الآخرون والعدائين الذين يستضيفونهم ذاتيًا وسير عمل ريبو الخاص.

بحلول 12:45 UTC ، تم إصلاح مشكلة التكوين من خلال تحديثات إلى ذاكرة التخزين المؤقت للواجهة الخلفية. تم توسيع نطاق التجمعات أيضًا إلى العمل بسرعة أكبر من خلال تراكم الوظائف في قائمة الانتظار حتى تم تخفيف تأثير الانتظار بالكامل في الساعة 14:45 بالتوقيت العالمي. نحن نحسن مرونة الفشل والتحقق من الصحة لتقليل احتمال حدوث مشكلات مماثلة في المستقبل.

30 مايو 08:10 UTC (مدتها 7 ساعات و 50 دقيقة)

في 30 مايو ، 2025 ، بين 08:10 UTC و 16:00 UTC ، شهدت خدمة تكامل Microsoft Teams Github انقطاعًا كاملاً للخدمة.

خلال هذه الفترة ، لم يتمكن التكامل من معالجة طلبات المستخدم أو تقديم الإخطارات ، مما أدى إلى معدل خطأ بنسبة 100 ٪ في جميع الوظائف ، باستثناء معاينات الارتباط. كان سبب هذا الانقطاع بسبب مشكلة مصادقة مع مزود المصادقة في اتجاه مجرى النهر.

على الرغم من أن المراقبة المناسبة كانت في مكانها ، فإن عتبات التنبيه لم تكن حساسة بما فيه الكفاية لإثارة استجابة في الوقت المناسب ، مما أدى إلى تأخير في اكتشاف الحوادث والمشاركة. بمجرد الانخراط ، عمل فريقنا عن كثب مع مزود المصب لتشخيص وحل فشل المصادقة. ومع ذلك ، ساهمت أوقات الاستجابة لفترة طويلة من المتوقع من المزود في المدة الممتدة من انقطاع التيار الكهربائي.

لقد تخفيفنا عن الحادث من خلال العمل مع مزودنا لاستعادة وظائف الخدمة وتعمل على الانتقال إلى أساليب مصادقة أكثر دواما لتقليل خطر حدوث مشكلات مماثلة في المستقبل.


من فضلك اتبع صفحة الحالة للحصول على التحديثات في الوقت الفعلي حول تغييرات الحالة والتلقيمات بعد الحدود. لمعرفة المزيد حول ما نعمل عليه ، تحقق من Github الهندسة مدونة.

كتبه

جاكوب أوليكسي

Source link


اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *