Cloudflare, 12 Eylül 2025’te kiracı hizmet API’sını, birden fazla API ve Cloudflare kontrol panelini etkileyen önemli bir kesinti yaşadı.
Şirket, olayın öncelikle aşırı API çağrılarına neden olan ve kritik altyapı bileşenlerine neden olan bir React programlama hatası tarafından tetiklendiğini doğruladı.
Teknik kök neden tanımlandı
Kesinti, Cloudflare’nin gösterge panelindeki bir React Usereffect kancasını içeren bir kodlama hatasından kaynaklandı. Mühendisler yanlışlıkla kancanın bağımlılık dizisine sorunlu bir nesne içeriyordu, bu da React’in nesneyi durum veya pervane değişiklikleri sırasında “her zaman yeni” olarak ele almasına neden oldu.
Bu, USEFFect Hook’un, amaçlandığı gibi sadece bir kez çalışmak yerine tek gösterge tablosu oluşturma sırasında tekrar tekrar yürütülmesine neden oldu.
Hata, kiracı hizmet API’sına bir hizmet güncellemesi ile çakıştı ve hizmeti bunaltan ve uygun iyileşmeyi önleyen mükemmel bir fırtına yarattı.

Her gösterge tablosu etkileşimi, gereksiz çok sayıda API çağrısını tetikledi ve arka uç sistemlerindeki yükü kapasite sınırlarının ötesinde katlanarak artırdı.
Kiracı hizmeti aşırı yüklendiğinde, etkiler Cloudflare’nin altyapısı boyunca dalgalandı çünkü hizmet API istek yetkisi mantığının kritik bir parçasını oluşturdu.
İşlevsel kiracı hizmet işlemleri olmadan, sistem yetkilendirme taleplerini düzgün değerlendiremedi ve API çağrılarının birden fazla hizmette 5xx durum kodlarını döndürmesine neden oldu.
Outage zaman çizelgesi, olayın kiracı API hizmetinin yeni sürüm dağıtımları sırasında bunalmış olduğunda 17: 57 UTC’de başladığını gösteriyor.
Ana kaynaklar 18:17 UTC’de tahsis edildikten sonra API kullanılabilirliği kısa bir süre% 98’e ulaşmasına rağmen, gösterge tablosu kullanılabilirliği önemli ölçüde düştü.
Cloudflare’nin olay müdahale ekibi başlangıçta yükü azaltmaya ve kiracı hizmeti için mevcut kaynakların artırılmasına odaklandı.
Küresel bir oran sınırı uyguladılar ve Golang tabanlı hizmeti çalıştıran Kubernetes Pod sayısını artırdılar. Ancak, bu önlemlerin tam hizmet restorasyonu için yetersiz olduğu kanıtlanmıştır.
Mühendisler hatalı kod yollarını kaldırmaya çalıştığında ve yeni bir kiracı hizmet sürümü yayınladığında 18:58 UTC’de kritik bir hata meydana geldi.
Bu değişiklik durumu kötüleştirdi ve sorunlu değişiklikler 19:12 UTC’de geri dönene kadar artan API etkisine neden oldu ve nihayet gösterge tablosu kullanılabilirliğini%100’e geri yükledi.
Cloudflare, benzer olayları önlemek için çeşitli iyileştirme alanı belirlemiştir. Şirket, otomatik dağıtım izleme ve geri alma yetenekleri için ARGO sunumlarına geçişe öncelik veriyor, bu da ikinci kesintinin süresini sınırlayacak.
Ek önlemler, hizmetler iyileştiğinde gürlemeyi önlemek için gösterge paneli dengelemelerinde rastgele gecikmelerin uygulanması, kiracı hizmet kapasitesi tahsisini büyük ölçüde artırma ve kapasite sınırlarına ulaşılmadan önce proaktif uyarı için izleme sistemlerinin geliştirilmesi yer alır.
Şirket ayrıca, yeniden deneme istekleri ve yeni talepler arasında ayrım yapmak için meta veriler ekleyerek API çağrısı görünürlüğünü artırarak gelecekte benzer döngü tabanlı sorunların daha hızlı tanımlanmasını sağlıyor.
Bu hikayeyi ilginç bul! Daha fazla güncelleme almak için bizi LinkedIn ve X’te takip edin.