İnternet güvenliği devi Cloudflare, 14 Kasım 2024’te log toplama hizmetinde yaşanan bir hata nedeniyle müşterilere 3,5 saatlik süre içinde gönderilen tüm logların %55’ini kaybettiğini duyurdu.
Cloudflare, müşterilere sitelerindeki trafiği izlemelerine ve bu trafiği belirli kriterlere göre filtrelemelerine olanak tanıyan kapsamlı bir günlük kaydı hizmeti sunmaktadır.
Bu günlükler, müşterilerin güvenlik olaylarını, sorun gidermeyi, DDoS saldırılarını, trafik düzenlerini izlemek ve araştırmak veya site optimizasyonları gerçekleştirmek için ana bilgisayarlarına giden trafiği analiz etmelerine olanak tanır.
Bu günlükleri harici araçlar kullanarak analiz etmek isteyen müşteriler için Cloudflare, çeşitli uç noktalarından günlükleri toplayan ve bunları Amazon S3, Elastic, Microsoft Azure, Splunk, Google Cloud Storage gibi harici depolama hizmetlerine aktaran bir “logpush” hizmeti sunmaktadır. , vesaire.
Cloudflare günde 50 trilyondan fazla müşteri olay günlüğünü işlediğinden ve bunların yaklaşık 4,5 trilyonu müşterilere gönderildiğinden, bu günlükler çok büyük ölçekte oluşturulmaktadır.
Bir dizi güvenli arıza
Cloudflare, logpush hizmetindeki bir hatanın 14 Kasım’da müşteri günlüklerinin 3,5 saat boyunca kaybolmasına neden olduğunu söyledi.
“14 Kasım 2024’te Cloudflare, kullanan müşterilerin çoğunu etkileyen bir olay yaşadı. Cloudflare Günlükleri” diye açıklıyor Cloudflare.
“Bu hizmetlerin etkilendiği yaklaşık 3,5 saat boyunca normalde müşterilerimize gönderdiğimiz günlüklerin yaklaşık %55’i gönderilmedi ve kayboldu.”
Olay, Cloudflare’in olay günlüklerini şirketin ağından alt sistemlere iletmekten sorumlu olan günlük kaydı hattındaki önemli bir bileşen olan Logfwdr’deki bir yanlış yapılandırmadan kaynaklandı.
Spesifik olarak, bir yapılandırma güncellemesi, sisteme yanlışlıkla günlükleri iletilecek şekilde yapılandırılmış hiçbir müşteri olmadığını söyleyen ve dolayısıyla günlüklerin atıldığı ‘boş yapılandırma’ veren bir hata ortaya çıkardı.
Logfwdr, veri kaybını önlemek için ‘boş’ veya geçersiz yapılandırma durumunda tüm günlükleri varsayılan olarak ileten bir arıza güvenliği ile tasarlanmıştır.
Ancak bu arıza korumalı sistem, günlükleri tüm müşterilere iletmeye çalışırken işlenen günlük hacminde büyük bir artışa neden oldu.
Alt sistemler bunları gerçek zamanlı olarak işleyemediğinde günlükleri geçici olarak tutan ve tedarik edilen kapasitesinden 40 kat daha fazla günlük işlemesi için çağrılan dağıtılmış bir ara belleğe alma sistemi olan Buftee’yi alt etti.
Buftee, kaynak sınırları ve azaltma gibi kendi arabellek aşırı yük koruma önlemlerine sahiptir, ancak bunlar, uygunsuz yapılandırma ve önceki testlerin yapılmaması nedeniyle başarısız olmuştur.
Sonuç olarak, Logfwdr’daki yanlış yapılandırmanın ardından yalnızca beş dakika içinde Buftee kapandı ve tamamen yeniden başlatılması gerekti, bu da kurtarma işlemini daha da geciktirdi ve daha fazla günlük kaybına neden oldu.
Daha güçlü önlemler
Olaya yanıt olarak Cloudflare, gelecekte meydana gelebilecek olayları önlemek için çeşitli önlemler uygulamaya koydu.
Bu, günlük iletme yapılandırmalarında anormallikler tespit edildiğinde ekipleri hemen bilgilendirmek için özel bir yanlış yapılandırma algılama ve uyarı sisteminin kullanıma sunulmasını içerir.
Üstelik Cloudflare, günlük hacimlerindeki ani artışların tüm sistem kesintilerine neden olmasını önlemek için artık Buftee’yi doğru şekilde yapılandırdığını söylüyor.
Son olarak şirket, veri hacimlerindeki beklenmedik artışları simüle eden aşırı yük testlerini rutin olarak gerçekleştirmeyi ve arıza güvenliği mekanizmalarının tüm adımlarının bu olayları ele alacak kadar sağlam olmasını sağlamayı planlıyor.