Crowdstrike, 8,5 milyon Windows ana bilgisayarını ve dünyanın büyük bir kısmını durma noktasına getiren sorunla ilgili ön olay sonrası raporunu (PIR) yayınladı. Ön raporlarının tamamı CrowdStrike web sitesinde mevcuttur (burada: https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/) ancak raporu inceledikten ve etkilenen müşteri tabanımızda gözlemlediklerimizi göz önünde bulundurduktan sonraki ilk düşünceler şunlardır.
Bu kadar geniş bir ölçekte ve markayı etkileyen bir olayla, CrowdStrike için kurtarma her zaman şeffaflığa dayanacaktı. Hiçbir yazılım şirketi %100 hatasız olmayacak, bu gerçek değil ve sorunlar, kesintiler ve güvenlik açıkları ortaya çıkacaktır. Ancak bir yazılım organizasyonunu iki şeye göre değerlendirebiliriz; sorunların sıklığını sınırlamak için geliştirme ve test süreçlerinin ne kadar sağlam olduğu ve bir olay meydana geldiğinde buna nasıl yanıt verdikleri.
CrowdStrike’a uygulanan inceleme, BT yığınındaki konumlarından kaynaklanmaktadır. Bir uç nokta güvenlik platformu ve özellikle bir Uç Nokta Algılama ve Yanıt (EDR) çözümü olarak, Windows işletim sisteminin alt düzey iç kısımlarına erişime izin veren çekirdek sürücüleri aracılığıyla çekirdek modunda çalışır. Çekirdek modunda çalışmak, bir EDR’ye sistem süreçlerine ve etkinliğine görünürlük kazandırmak için büyük bir güç verir ve kötü amaçlı eylemleri önleme ve harekete geçme yeteneği sağlar. Ancak, Spiderman’de olduğu gibi, büyük güçle birlikte büyük bir sorumluluk da gelir. Çekirdek sürücüleri tamamen sağlam ve kararlı olacak şekilde geliştirilmelidir. Bir çalışma zamanı sorununun zarif bir şekilde başarısız olabileceği ve yalnızca o uygulamayı etkileyebileceği kullanıcı modunun aksine, bir çekirdek sürücüsünün başarısızlığı Mavi Ekran Ölümü (BSOD) ile sonuçlanan bir istisna türüne yol açacaktır.
Ön raporun en sonunda CrowdStrike, soruşturmalarını tam olarak tamamladıktan sonra gelecekte bir kök neden analizi (RCA) sözü verdi. Tam bir kök ve dal RCA sözüne rağmen, ön raporda oldukça fazla ayrıntı var. İhtiyacımız olan şeffaflık geliyor gibi görünüyor. CrowdStrike’ın zorluklar karşısında nasıl tepki verdiğine bakarsak, makul derecede iyi bir iş çıkardıklarını görürüz. Ellerini kaldırdılar, hatalı Kanal Dosyasını makul derecede hızlı bir şekilde geri aldılar, genel olarak müşteriler ve ortaklarla düzenli olarak ve sıklıkla güncellemelerle iletişim kurdular, düzeltmeler ve kurtarma adımları sağladılar ve şimdi bu güveni yeniden inşa etmek için gereken şeffaflığın bir kısmını görüyoruz.
Raporda ne yazıyor?
Tam RCA mevcut olduğunda bu son noktayı tam olarak test edebiliriz çünkü ön rapor hala cevaplanmamış sorular ve rahatsız edici şüpheler bırakıyor. Peki, ön rapor ne diyor? CrowdStrike raporunda güvenlik içerik yapılandırma güncelleme mimarisini, ne olduğunu ve bu bileşenlerin nasıl bir etki yarattığını ayrıntılı olarak açıklıyor.
CrowdStrike’ın PIR’de belirtildiği gibi güvenlik içeriği yapılandırma mimarisi, iki bileşen parçaya ayrılmıştır; Sensör İçeriği ve Hızlı Tepki İçeriği. İlki yalnızca son kullanıcılar tarafından Sensör Güncelleme Politikası ayarları aracılığıyla tamamen kontrol edilebilen CrowdStrike Falcon aracı güncellemeleriyle birlikte gönderilir ve Sensör İçeriği güncellemelerinin bir parçası olarak tanıtılan veya güncellenen çok çeşitli güvenlik yetenekleri sağlar. Bu, tehdit algılama mühendislerinin tehdit içeriğini tanımlamasına olanak tanıyan yeni Şablon Türlerini içerir. Öte yandan Hızlı Tepki İçeriği, Falcon aracısına mevcut ve ortaya çıkan tehditleri nasıl tespit edeceğini öğretmek için Sensör İçeriği güncellemelerinde bulunan yetenekleri ve Şablon Türlerini kullanan güvenlik tanımları ve IOC’lerdir. Bunlar, mevcut olduğunda ve Sensör Güncelleme Politikalarından bağımsız olarak CrowdStrike tarafından müşterilere küresel olarak iletilir.
19 Temmuz’da yaşananlar açısından CrowdStrike, ön raporun bir parçası olarak küresel kesintiye yol açan olaylar dizisini özetledi. İlk olarak, 28 Şubat 2024’te yayınlanan bir Sensör İçeriği Güncellemesinin (Falcon agent v7.11) parçası olarak, Adlandırılmış Boruları kötüye kullanan yeni saldırı tekniklerini tespit etmek için yeni bir IPC Şablon Türü tanıtıldı. Sensör İçeriği sürümleri, birim testi, entegrasyon testi, performans testi ve stres testi yoluyla titizlikle test edilir ve ardından genel olarak kullanıma sunulmadan önce dahili olarak ve erken benimseyenlerle daha fazla test edilir. Bu, bu güncelleme ve yeni IPC Şablon Türü için geçerliydi; stres testi 5 Mart 2024’te tamamlandı ve üretime başarılı dağıtımlar 8 ve 24 Nisan 2024’te tamamlandı.
Sorun, Hızlı Yanıt İçeriğini oluşturan IPC Şablon Örneklerinin testine baktığımızda ortaya çıkıyor. Ön raporda bulunan bilgilere göre, bunların yalnızca yayınlanmadan önce içerik üzerinde doğrulama kontrolleri gerçekleştiren bir İçerik Doğrulayıcı aracı tarafından test edildiği anlaşılıyor. Ne yazık ki, bu örnekte, bu araçtaki bir hata geçersiz içeriğin onaylanmasına izin verdi ve önceki sürümlerin stres testine ve başarısına olan güvenle birlikte, bozuk dosyanın tüm çevrimiçi Falcon aracılarına gönderilmesiyle sonuçlandı.
Yani Hızlı Tepki İçeriği söz konusu olduğunda test sürecinde açıkça bir eksiklik vardı ve muhtemelen bunun hiçbir zaman bir sorun olarak değerlendirilmemesi veya bununla ilgili bir sorunun etkisinin hiçbir zaman tam olarak değerlendirilmemesi nedeniyle. Bu ve Sensör İçerik Güncellemeleri üzerinde gerçekleştirilen yoğun test düzeyi. Diğer sorun ise dağıtım stratejisiydi. Küresel olarak dağıtım, sorunun çok daha etkili olması ve hata tanımlandıktan sonra geri alma ve kurtarmanın çok daha zor olması anlamına geliyordu.
Ders alındı. CrowdStrike bunun tekrar yaşanmamasını sağlamak için adımlar atıyor:
Yazılım Dayanıklılığı ve Test
• Aşağıdaki gibi test türlerini kullanarak Hızlı Yanıt İçeriği testini iyileştirin:
- Yerel geliştirici testi
- İçerik güncelleme ve geri alma testi
- Stres testi, bulanıklaştırma ve hata enjeksiyonu
- Stabilite testi
- İçerik arayüzü testi
•Hızlı Yanıt İçeriği için İçerik Doğrulayıcısına ek doğrulama kontrolleri ekleyin. Bu tür sorunlu içeriklerin gelecekte dağıtılmasını önlemek için yeni bir kontrol devam ediyor.
• İçerik Yorumlayıcısında mevcut hata işlemeyi geliştirin.
Hızlı Yanıt İçerik Dağıtımı
• Hızlı Yanıt İçeriği için, güncellemelerin sensör tabanının daha büyük bölümlerine kademeli olarak dağıtıldığı, kanarya dağıtımıyla başlanan kademeli bir dağıtım stratejisi uygulayın.
•Hızlı Müdahale İçeriği dağıtımı sırasında geri bildirim toplayarak hem sensör hem de sistem performansı için izlemeyi iyileştirin ve aşamalı bir dağıtımı yönlendirin.
•Müşterilere, bu güncellemelerin ne zaman ve nerede dağıtılacağına dair ayrıntılı seçim olanağı sağlayarak Hızlı Yanıt İçeriği güncellemelerinin dağıtımı üzerinde daha fazla kontrol sağlayın.
•Müşterilerin abone olabileceği sürüm notları aracılığıyla içerik güncelleme ayrıntılarını sağlayın.
Hala cevaplanması gereken bazı sorular var ve eminim ki tam RCA yayınlandığında ortaya çıkacaktır. Temel sorulardan biri İçerik Doğrulayıcının geçersiz dosyayı nasıl kaçırdığı değil, o dosyanın ilk başta nasıl geçersiz hale geldiğidir?
Bu olayın sonuna yaklaştığımızda, buna ve CrowdStrike’ın bunu ele alış biçimine, zorluklar karşısında iyiliğin nasıl görünebileceğine dair bir örnek olarak bakacağımızın açık olduğunu düşünüyorum. Şeffaf davrandılar, hemen acil çözümü uyguladılar ve bunun tekrar olmasını önlemek için uzun vadeli çözümü belirlediler ve iyileşmek için müşteriler ve ortaklarla aktif olarak etkileşime girdiler. Sektör genelinde öğrenilecek ve uygulanacak değerli dersler var.
Reklam