
Salı günü, Cloudflare son 6 yılın en kötü kesintisini yaşadı ve veritabanı erişim kontrollerinde yapılan bir değişikliğin Küresel Ağında kademeli bir arızayı tetiklemesinin ardından birçok web sitesine ve çevrimiçi platforma erişimi neredeyse 6 saat boyunca engelledi.
Şirketin Küresel Ağı, 120’den fazla ülkede sunuculardan ve veri merkezlerinden oluşan dağıtılmış bir altyapıdır; içerik dağıtımı, güvenlik ve performans optimizasyon hizmetleri sağlar ve Cloudflare’i dünya çapındaki tüm büyük İSS’ler, bulut sağlayıcılar ve kuruluşlar da dahil olmak üzere 13.000’den fazla ağa bağlar.
Şirketin CEO’su Matthew Prince, kesintinin hafifletilmesinin ardından yayınlanan bir otopside, hizmet kesintilerinin bir siber saldırıdan kaynaklanmadığını söyledi.
Prince, “Sorunun doğrudan veya dolaylı olarak bir siber saldırı veya herhangi bir kötü niyetli faaliyetten kaynaklanmadığını, bunun yerine veritabanı sistemlerimizden birinin izinlerinde yapılan ve veritabanının Bot Yönetim sistemimiz tarafından kullanılan bir “özellik dosyasına” birden fazla giriş çıkarmasına neden olan bir değişiklik tarafından tetiklendiğini” söyledi.
Kesinti, rutin bir veritabanı izin güncellemesinin Cloudflare’in Bot Yönetim sisteminin yinelenen girişler içeren büyük boyutlu bir yapılandırma dosyası oluşturmasına neden olmasıyla 11:28 UTC’de başladı. Yerleşik boyut sınırlarını aşan dosya, trafiği Cloudflare ağı üzerinden yönlendirirken yazılımın çökmesine neden oldu.
Bu veritabanı sorgusu, izin değişikliklerinden sonra yinelenen sütun meta verilerini döndürdü ve özellik dosyasını yaklaşık 60 özellikten 200’ün üzerine çıkararak sistemin sınırsız bellek tüketimini önlemek için tasarlanan sabit kodlu 200 özellik sınırını aştı.

Her beş dakikada bir, hangi küme düğümlerinin güncellendiğine bağlı olarak doğru veya hatalı yapılandırma dosyaları üreten bir sorgu, ağın çalışma ve arıza durumları arasında dalgalanmasına neden oluyor.
Ayrıca, büyük boyutlu dosya ağ makineleri arasında yayıldığında, Bot Yönetimi modülünün Rust kodu, bir sistem paniğini ve 5xx hatalarını tetikleyerek trafik işlemeyi yöneten çekirdek proxy sistemini çökertti.
Cloudflare mühendislerinin temel nedeni belirleyip sorunlu dosyayı daha önceki bir sürümle değiştirmesinin ardından çekirdek trafiği 14:30 UTC itibarıyla normale döndü. Tüm sistemler 17:06 UTC’ye kadar tamamen çalışır durumdaydı. Kesinti, Cloudflare’in temel CDN’sini ve güvenlik hizmetlerini, Turnstile’yi, Workers KV’yi, kontrol paneli erişimini, e-posta güvenliğini ve erişim kimlik doğrulamasını etkiledi.
Prince, “Müşterilerimiz ve genel olarak İnternet üzerindeki etkiden dolayı üzgünüz. Cloudflare’in İnternet ekosistemindeki önemi göz önüne alındığında, sistemlerimizden herhangi birinde herhangi bir kesinti kabul edilemez” diye ekledi.
“Bugün, Cloudflare’de 2019’dan bu yana yaşanan en kötü kesintiydi. Kontrol panelimizi kullanılamaz hale getiren kesintiler yaşadık. Bunlardan bazıları, yeni özelliklerin belirli bir süre boyunca kullanılamamasına neden oldu. Ancak son 6+ yılda, çekirdek trafiğin çoğunluğunun ağımız üzerinden akışının durmasına neden olan başka bir kesinti yaşamadık.”
Cloudflare, Haziran ayında, Sıfır Güven WARP bağlantı sorunlarına ve birden fazla bölgede Erişim kimlik doğrulama hatalarına neden olan ve ayrıca Google Cloud altyapısını etkileyen büyük bir kesintiyi daha azalttı.
Ekim ayında Amazon, Amazon Web Services (AWS) bulut bilgi işlem platformunu kullanan milyonlarca web sitesine bağlantıyı kesintiye uğratan büyük bir DNS arızasının tetiklediği kesintiyi de ele aldı.
İster eski anahtarları temizliyor ister yapay zeka tarafından oluşturulan kod için korkuluklar kuruyor olun, bu kılavuz ekibinizin en başından itibaren güvenli bir şekilde geliştirme yapmasına yardımcı olur.
Hile sayfasını alın ve sır yönetimindeki tahminleri ortadan kaldırın.