
Cloudflare, 12 Eylül 2025’te gösterge tablosunu ve API’lerini bir saatten fazla kullanılamaz hale getiren önemli kesintileri açıklayan ayrıntılı bir ölüm sonrası yayınladı.
Şirket, olayı gösterge tablosunda bir hizmet güncellemesiyle birlikte kritik bir dahili sistemde bir Cascade hatası oluşturan bir yazılım hatasına kadar takip etti.
Olay, Cloudflare panosunun yeni bir versiyonunun piyasaya sürülmesiyle başladı. Şirketin raporuna göre, bu güncelleme React kodunda, Dahili Kiracı Hizmet API’sına tekrar tekrar, aşırı çağrılar yapmasına neden olan bir hata içeriyordu. Bu hizmet, API isteği yetkilendirilmesinden sorumlu bir temel bileşendir.
Hata, her durum değişikliğinde API çağrısını tetikleyecek şekilde yapılandırılmış bir USEFFECT kancasında bulundu ve tek bir gösterge tablosu oluşturma sırasında bir istek döngüsüne yol açtı. Bu davranış, Kiracı Hizmet API’sının kendisine bir güncellemenin konuşlandırılmasıyla çakıştı.
Ortaya çıkan “gürleyen sürü”, Buggy gösterge panosundan gelen isteklerin yeni konuşlandırılan hizmeti boğarak başarısız olmasına ve uygunsuz bir şekilde iyileşmesine neden oldu.
Kiracı hizmetinin API isteklerine izin vermesi gerektiğinden, başarısızlığı 17:57 UTC’den başlayarak Cloudflare kontrol panelinin ve API’lerinin çoğunun yaygın bir kesintisine yol açtı.
Olay yanıtı ve iyileşme
Cloudflare’nin mühendislik ekipleri ilk olarak kiracı hizmetindeki artan yükü fark etti ve baskıyı azaltmaya ve kaynak eklemeye çalışarak yanıt verdi.
Geçici bir küresel oran sınırlayıcı kuralı uyguladılar ve verimi artırmak için hizmete sunulan Kubernetes POD sayısını artırdılar. Bu eylemler kısmi API kullanılabilirliğinin geri kazanılmasına yardımcı olurken, gösterge paneli aşağı kaldı.
Hizmeti 18:58 UTC’de düzeltmek için hizmeti düzeltmeye yönelik bir girişim, API kullanılabilirliği üzerinde ikinci bir kısa etkiye neden oldu. Bu değişiklik hızla geri döndü ve tam hizmet 19:12 UTC tarafından geri yüklendi.
Daha da önemlisi, Cloudflare, kesintinin konfigürasyon ve yönetimi işleyen kontrol düzlemiyle sınırlı olduğunu belirtti. Müşteri trafiğini işleyen veri düzlemi, katı ayrılık nedeniyle etkilenmedi, yani son kullanıcı hizmetleri çevrimiçi kaldı.
Olaydan sonra, Cloudflare bir nüksü önlemek için birkaç önlem vermiştir. Şirket, kiracı hizmetini, hataları algıladığı takdirde otomatik olarak geri alan bir dağıtım aracı olan Argo Sunumlarına taşımaya öncelik vermeyi planlıyor.
“Göz kazıcı sürü” sorununu azaltmak için, gösterge paneli API yeniden deneme mantığına randomize gecikmeler içerecek şekilde güncelleniyor. Kiracı hizmetinin kendisi önemli ölçüde daha fazla kaynak tahsis edilmiştir ve proaktif uyarılar sağlamak için kapasite izlemesi geliştirilecektir.
Bu hikayeyi ilginç bul! Daha fazla anında güncellemeler almak için bizi Google News, LinkedIn ve X’te takip edin.