في يونيو ، شهدنا ثلاثة حوادث أسفرت عن تدهور الأداء عبر خدمات جيثب.

5 يونيو 17:47 UTC (تدوم ساعة واحدة و 33 دقيقة)

في 5 يونيو ، 2025 ، بين 17:47 UTC و 19:20 UTC ، تم تدهور خدمة الإجراءات ، مما أدى إلى تشغيل التأخير وفشل الوظائف المتقطعة. خلال هذه الفترة ، تأخرت 47.2 ٪ من الركض من 14 دقيقة في المتوسط ، وفشل 21.0 ٪ من الأشواط. التأثير الممتد إلى ما وراء الإجراءات نفسها ؛ تم إلغاء 60 ٪ من جلسات وكيل ترميز Copilot ، وفشلت جميع مواقع الصفحات التي تستخدم البناء القائم على الفروع (على الرغم من أن الصفحات التي تظل غير متأثرة). كانت المشكلة ناتجة عن ارتفاع في الحمل بين خدمات الإجراءات الداخلية التي تكشف تكوين سوء التكوين تسببت في خلط الطلبات في المسار الحرج للتشغيل. لقد قمنا بتخفيف الحادث من خلال تصحيح تكوين الخدمة لمنع الاختناق وقمنا بتحديث عملية النشر الخاصة بنا لضمان الحفاظ على التكوين الصحيح للمضي قدمًا.

12 يونيو 17:55 UTC (تدوم 3 ساعات و 12 دقيقة)

في 12 يونيو ، 2025 ، بين 17:55 UTC و 21:07 UTC ، تم تدهور خدمة Github Copilot وذات متوفر لنماذج الجوزاء وتقليل توفر نماذج Claude. عانى المستخدمون من معدلات خطأ مرتفعة بشكل كبير لاستكمال الدردشة ، وأوقات الاستجابة البطيئة ، ومهلات ، وانقطاع وظائف الدردشة عبر VS Code ، و JetBrains IDES ، و Github Copilot Chat. كان هذا بسبب انقطاع التي تؤثر على أحد مقدمي الخدمات النموذجية.

لقد تخفيفنا عن الحادث من خلال تعطيل نقاط النهاية المتأثرة مؤقتًا لتقليل تأثير المستخدم.

نحن نعمل على تحديث كتب اللعب في الحوادث لانقطاع مزود البنية التحتية وتحسين أنظمة مراقبة وتنبيهنا لتقليل وقتنا لاكتشاف وتخفيف القضايا مثل هذه القضايا في المستقبل.

17 يونيو 19:32 بالتوقيت العالمي (يدوم 31 دقيقة)

في 17 يونيو ، 2025 ، بين 19:32 UTC و 20:03 UTC ، تسبب نشر سياسة التوجيه الداخلي لمجموعة فرعية من أجهزة الشبكة في مشكلات قابلية الوصول لمجموعات عناوين شبكة معينة داخل مراكز البيانات الخاصة بنا. شهدت المستخدمون المصادق عليهم من Github.com واجهة المستخدم معدلات خطأ 3-4 ٪ طوال مدة الحادث. شهدت المتصلين المصادقة من API معدلات الخطأ بنسبة 40 ٪. شهدت طلبات غير مصادقة لاتصالات واجهة برمجة التطبيقات و API معدلات خطأ بنسبة 100 ٪ تقريبًا. شهدت الإجراءات 2.5 ٪ من الأشواط التي يتم تأخيرها لمدة 8 دقائق و 3 ٪ من الفشل الفشل. تطلب تخزين الملفات الكبيرة (LFS) أخطاء 1 ٪. في الساعة 19:54 بالتوقيت العالمي ، تم ترحيل النشر ، وتم استعادة توفر الشبكة للأنظمة المتأثرة. في 20:03 بالتوقيت العالمي ، قمنا استعادة العمليات العادية بالكامل. لمنع مشكلات مماثلة ، نقوم بتوسيع عملية التحقق من الصحة لتغيير تغييرات سياسة التوجيه.


من فضلك اتبع صفحة الحالة للحصول على التحديثات في الوقت الفعلي حول تغييرات الحالة والتلقيمات بعد الحدود. لمعرفة المزيد حول ما نعمل عليه ، تحقق من Github الهندسة مدونة.

كتبه

ناتالي جيفارا

جاكوب أوليكسي

Source link


اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *