Güvenlik Operasyonları
Dikkat Çekenler: Kalite Güvencesi, İşletme Dayanıklılığı, Tek Arıza Noktaları
Mathew J. Schwartz (euroinfosec) •
19 Temmuz 2024
İşletmelerin BT sistemleri üzerinde ne ölçüde çalıştığı konusunda şüphe duyan biri, CrowdStrike’ın Falcon siber güvenlik yazılımındaki küçük bir yazılım hatasının küresel bir bozulmaya neden olmasından daha uzağa bakmasına gerek yok. Bazıları bunun sadece bu yılın en büyük BT bozulması değil, tarihin en büyüğü olabileceğini söylüyor.
Ayrıca bakınız: İsteğe Bağlı | Google Cloud için Prisma Cloud’un İş Değeri
Uzmanlar, olayın, belirli bir güvenlik yazılımı markasını kullanıp kullanmadıklarına bakılmaksızın tüm işletmelerin, beklenmedik BT kesintilerinin her an yaşanabileceği için sağlam bir iş güvenilirliği ve olay yanıtlama yeteneklerine sahip olmaları gerektiğini hatırlattığını söylüyor (bkz: Windows PC’lerde Meydana Gelen Toplu Kesinti Bankaları ve Havayollarını Etkiledi).
Halka açık CrowdStrike’ın, yatırımcılar, düzenleyiciler ve müşterilerden değişim yönetimi ve test uygulamaları konusunda zorlu sorularla karşılaşması bekleniyor. Ayrıca, yazılım satıcıları, tekil hata noktaları ve işletim sistemlerinin kötü davranan yazılımlara karşı daha iyi savunmalara ihtiyaç duyup duymadığı konusunda daha geniş kapsamlı sorular da sorulacak.
Birçok Windows PC’nin “mavi ölüm ekranı” göstermesine ve durdurulamaz bir döngüde yeniden başlatılmasına yol açan bu yazılım hatasının etkisine bir bakın. Ortaya çıkan kesintiler hastane prosedürlerinin, uçakların ve trenlerin iptal edilmesine; müşterilerin bankacılık uygulamalarına erişememesine veya bazı mağazalarda kredi kartlarıyla şahsen ödeme yapamamasına; büyük medya kuruluşlarının canlı haber yayınlamasının durdurulmasına; ve çok daha fazlasına yol açtı.
Avustralyalı siber güvenlik ve veri ihlali uzmanı Troy Hunt, sosyal platform X’e yaptığı bir paylaşımda, “Bunu söylemek için çok erken olduğunu düşünmüyorum: Bu, tarihin en büyük BT kesintisi olacak,” dedi. “Bu, temelde Y2K ile ilgili hepimizin endişelendiği şeydi, ancak bu sefer gerçekten oldu.”
Yine de kazalar olur ve Wall Street analistleri bu olayın CrowdStrike’ın itibarı veya hisse senedi değeri üzerinde uzun vadede çok az veya hiç etkisi olmayacağını beklediklerini söyledi. CrowdStrike hissesi öğle saatlerinde 31,47 dolar veya %9 düşüşle 311,58 dolara geriledi.
CrowdStrike CEO’su George Kurtz, özür dilemek için Cuma sabahı NBC News’e çıktı. “Çok üzgünüz,” dedi ve kesintinin şirketin otomatik yazılım güncellemeleri aracılığıyla bazı müşterilere iletilen koddaki bir kusurdan kaynaklandığını söyledi. “Bu güncellemede bir yazılım hatası vardı ve Microsoft işletim sisteminde bir soruna neden oldu.”
Kurtz, Information Security Media Group’a yaptığı açıklamada, “Bugün bir güvenlik veya siber olay yaşanmadı,” dedi. “Müşterilerimiz tamamen korunuyor. Durumun ciddiyetini anlıyoruz ve yaşanan rahatsızlık ve kesintiden dolayı çok üzgünüz. Sistemlerin yedeklenmesini ve müşterilerinin güvendiği hizmetleri sunabilmelerini sağlamak için etkilenen tüm müşterilerle birlikte çalışıyoruz.”
CrowdStrike, hatayı düzelttiğini ve düzeltmeyi otomatik yazılım güncellemeleri aracılığıyla dağıtmaya başladığını söyledi ve yöneticiler bunun etkilenen bazı bilgisayarları, sunucuları ve sanal sunucuları düzelttiğini söylüyor. Satıcı ayrıca tüm müşterilerini destek portalını yakından takip etmeye ve şirket temsilcileriyle iletişim kurmaya çağırdı.
Yine de, birden fazla BT yöneticisi, yeniden başlatma döngüsünde takılı kalan fiziksel sistemleri manuel olarak düzeltmek zorunda kaldıklarını bildirdi. Sonuç olarak, CrowdStrike veya belki Microsoft sorunu düzeltmenin daha otomatik yollarını sunmadığı sürece, etkilenen tüm sistemleri düzeltmek önemli miktarda zaman alabilir.
Çok sayıda BT yöneticisi hafta sonu çalışmak için takvimlerini temizlediklerini söylüyor. Birçoğu, yeniden başlatma döngüsünde sıkışan herhangi bir bilgisayarı manuel olarak kurtarmak için yerinde olmak zorunda kalacaklarını öngörüyor ve triyaj günlük işlerin bir parçası olmaya devam ediyor. Dublin merkezli BH Consulting’in başında bulunan siber güvenlik danışmanı Brian Honan, “Kuruluşların işleri için en kritik olan sistemleri öncelik sırasına göre önceliklendirmeleri ve kurtarmaları gerekecek” dedi.
BT ekiplerinin sınıflandırılması da gerekebilir. “Etkilenen birçok kuruluş mümkün olan en kısa sürede ‘her zamanki gibi işlerine’ dönmek isterken, BT personeli, özellikle siber olayların zihinsel ve fiziksel etkileri sıklıkla göz ardı edildiğinden, müdahalenin hemen ardından desteğe ihtiyaç duyacaktır,” dedi İngiliz savunma ve güvenlik düşünce kuruluşu Royal United Services Institute’ta araştırma görevlisi olan Pia Hüsch.
Önemli Güvenlik Özelliği: Çarpışma Reddi
Kötü bir yazılım güncellemesinin sistemlerin çökmesine ve ardından sonsuz bir döngüde yeniden başlatılmasına yol açması ilk kez olmuyor. Sıkça sorulan sorulardan biri şudur: Bir satıcı daha sonra ne yapar?
İçerik dağıtım ağı devi Akamai, her müşterinin trafiğinin nasıl ele alınması gerektiğini belirten kötü bir meta veri güncellemesinin bir güncellemede dağıtıldığı 20 yıl önce bu sorunla karşı karşıya kalmıştı. O zamanlar Akamai’nin CISO’su olan ve bu görevi 25 yıl boyunca sürdüren Andy Ellis, kötü güncellemeyle karşılaşan sunucuların çökme – diğer adıyla yuvarlanma – yaşadığını, çöküp yeniden başlatıldığını, kötü güncellemeyle tekrar karşılaştığını ve çökmeye ve yeniden başlatılmaya devam ettiğini söyledi.
“En azından hızlı geri dönüşler yaptık ve olay çok hızlı bir şekilde temizlendi. Ancak güvenlik analizi yaparken, bunun daha iyi bir azaltma istediğimiz bir tehlike olduğunu gördük, bu yüzden çökme reddini benimsedik,” dedi şu anda siber güvenlik girişim sermayesi şirketi YL Ventures’ta faaliyet gösteren ortak olan Ellis, X’e yazdığı bir yazıda.
Akamai’nin çökmeyi engelleme yaklaşımı, yazılımının bir güncelleme almasını ve bunu geçici bir klasöre koymasını, güncellemenin çalıştığından emin olmak için test etmesini ve yalnızca çalışırsa onu geçici klasörden çıkarıp kalıcı konumuna taşımasını içeriyordu.
“Eğer her şey yolunda gitmezse? Uygulama çökerdi ve yeniden başlatıldığında zehirli güncellemeyi asla fark etmezdi. Otomatik olarak geri dönmüştü ve bu arada sadece tek bir çökme yaşamıştı,” dedi Ellis.
Bu yaklaşım her türlü otomatik yazılım güncelleme sorununu çözmeyecektir ve bir uygulamanın çökmesine neden olabilecek diğer sorunlar nedeniyle kodlaması karmaşık olabilir. “Ancak dinamik olarak güncellenebilir bir yazılım yazıyorsanız, çökme reddi dahil etmeniz gereken birçok güvenlik uygulamasından biridir,” dedi.
Sevco Security CEO’su JJ Guy, CrowdStrike’ın ne yapması gerektiğine bakmanın ötesinde, kesintinin işletim sistemi düzeyindeki korumaların bu tür yazılımların Windows sistemlerini sonsuz bir çökme ve yeniden başlatma döngüsüne hapsetmesini engellemediğini de gösterdiğini söyledi.
“Bu, Microsoft Windows işletim sistemindeki zayıf dayanıklılığın sonucudur,” dedi LinkedIn’e yaptığı bir gönderide. “Önyüklemede tekrarlanan hatalara neden olan herhangi bir yazılım otomatik olarak yeniden yüklenmemelidir. Tekrarlanan, sistemsel hatalara neden olan şey işletim sisteminin davranışı olduğunda, CrowdStrike’ı tek bir hata için çarmıha germeyi bırakmalıyız.”
Dayanıklılık Soruları
Perşembe günü başlayan ve Cuma günü zirveye ulaştığı görülen CrowdStrike hatasının neden olduğu kesintiler, herhangi bir BT kesintisinin işletmeler, ortaklar ve müşteriler üzerinde yaratabileceği etkinin bir hatırlatıcısıdır. Hangi yazılım veya hizmeti kullandığına bakılmaksızın her işletmenin içinde sağlam bir dayanıklılık planlamasına ihtiyaç duyulduğunun işaretidir.
İrlanda’nın ilk bilgisayar acil durum müdahale ekibini kuran Honan, “Kuruluşların siber risklere sadece BT riskleri olarak değil, iş riskleri olarak bakmaları ve bunları buna göre yönetmeyi planlamaları gerekiyor” dedi. “Özellikle, kuruluşların yalnızca kendi sistemleri için değil, aynı zamanda tedarik zincirlerinde güvendikleri hizmetler ve sistemler için de sağlam siber dayanıklılık ve iş sürekliliği planları tasarlamaları, uygulamaları ve düzenli olarak test etmeleri gerekiyor.”
Uzmanlar, kuruluşların karşılaştıkları en büyük tehditlerle başa çıkmak için tasarlanmış iş dayanıklılığı planları geliştirmelerini öneriyor. Bunlar arasında fidye yazılımı saldırıları, çalışan hataları veya doğal afetler nedeniyle beklenmeyen BT kesintileri de olabilir. Daha da önemlisi, bu planları uygulamak çünkü etkili olmaları için, bir kuruluşun birçok farklı bölümünü -sadece BT’yi değil- içermeleri ve yukarıdan aşağıya bir yetkiye sahip olmaları gerekir (bkz: Olay Yanıtı: Fidye Yazılımı Çağında En İyi Uygulamalar).
Düzenleyici Uyumluluk Denetimi
Bu, siber güvenlik konusunda bilgili yönetim kurulları için yeni bir haber olmamalı. AB’de hem Ağ ve Bilgi Güvenliği Direktifi 2 veya NIS2 hem de Dijital Operasyonel Dayanıklılık Yasası veya DORA, düzenlenen kuruluşların “kendi kuruluşları içinde ve aynı derecede önemli olarak tedarik zincirleri içinde siber riski yönetmek için uygun adımları” atmasını gerektirir, diyor Honan.
Siber güvenlik ekiplerinin yalnızca sistemleri savunmak değil, bir saldırı, bir çalışan hatası veya bir satıcıdan gelen kötü bir yazılım güncellemesi gibi bir olay olması durumunda sistemlerin tekrar çalışır duruma getirilmesine yardımcı olmak açısından da önemli bir rolü vardır.
Bu hafta sonu, BT ekipleri etkilenen sistemleri geri yüklemek için gece geç saatlere kadar çalışacak. Bundan sonra, CIO’ların ve CISO’ların CrowdStrike kesintilerinden hangi derslerin çıkarılması gerektiğini sormasını bekleyin.
Cyjax’ın CISO’su Ian Thornton-Trump, “Size şunu söyleyebilirim: Eğer ‘kötü tedarikçi güncellemesi’ bir olay müdahale kılavuzunun parçası değilse, pazartesi günü olmalı” dedi.