CIO’lar BT Kesintisine Nasıl Tepki Verdi?


İş Sürekliliği Yönetimi / Felaket Kurtarma, Uç Nokta Güvenliği, Yönetişim ve Risk Yönetimi

CIO’lar Küresel CrowdStrike Kesintisinin Ardından Dayanıklılık Stratejileri Öneriyor

Rahul Neel Mani (@rneelmani) , Brian Pereira (inanç_dijital) •
22 Temmuz 2024

Yanıt ve Çözüm: BT Kesintisine CIO'lar Nasıl Tepki Verdi?
Resim: Shutterstock

Geçtiğimiz Perşembe günü hatalı bir CrowdStrike Falcon sensör güncellemesi, 8,5 milyon Windows PC’nin çökmesine ve tekrar tekrar yeniden başlatılmasına neden oldu ve meşhur “ölümün mavi ekranı”nı gösterdi. Tartışmasız şimdiye kadarki en büyük küresel kesinti, işletmeleri, havaalanlarını ve devlet kurumlarını sekteye uğrattı. Ancak birçok BT yöneticisi, bozulmuş verileri düzenlenmiş kurtarma yoluyla geri yüklemeye yardımcı olabilecek kapsamlı veri dayanıklılığı stratejilerine yatırım yaparak bu sonuçların hafifletilebileceğine inanıyor.

Ayrıca bakınız: Forrester Raporu: Dell PowerProtect Siber Kurtarmanın Toplam Ekonomik Etkisi™

Tedarik zinciri risk dayanıklılığı şirketi Interos tarafından yapılan bir değerlendirmeye göre, kesinti 674.620 doğrudan müşteri ilişkisini ve 49 milyondan fazlasını dolaylı olarak etkiledi. Etkilenen kuruluşların %41’i ile ABD en çok kesintiye uğrayan ülke olsa da, Avrupa ve Asya’daki büyük limanlar ve hava kargo merkezleri de etkilendi. Rapora göre, etkilenen kuruluşların %27,68’ini İngiltere, Almanya, İtalya, Fransa, İspanya ve Hollanda oluşturdu.

“Bu CrowdStrike’ın dışında kimsenin hatası değil,” dedi GigaOm’un COO’su Howard Holton bir blog yazısında. “Etkilenen herkese yardım etmeye kararlı olsalar da, hepsi etkilenen 24.000 müşterileri var, bu yüzden her birine ihtiyaç duydukları ilgiyi gösteremiyorlar. Bu kesintiden dolayı bu şirketlere milyarlarca dolarlık zarar veriliyor.”

Windows sistemlerini korumak için CrowdStrike’ın Falcon yazılımı çekirdeğe kurulur [kernel] İşletim sisteminin. Bu tür sıkı entegrasyon, güncellemeler düzgün bir şekilde test edilmediğinde büyük sorunlara neden olabilir.

“Bu tür olaylar siber güvenlik sektöründe nadir değildir, ancak bu olay özellikle zararlıdır çünkü bir siber güvenlik ihlali değil, bir QA ve test sorunundan kaynaklanmaktadır,” dedi Holton. “Falcon ile işletim sistemi arasındaki sıkı entegrasyon, hasarı çok daha yaygın hale getirdi ve kurtarma sürecini çok daha zahmetli hale getirdi.”

CrowdStrike, Fortune 500 şirketlerinin yaklaşık %60’ını ve Fortune 1.000 şirketlerinin yarısından fazlasını müşterileri arasında saymaktadır. En iyi 10 finansal hizmetler firmasından sekizi ve eşit sayıda önde gelen teknoloji şirketi hizmetlerini kullanmaktadır. Ayrıca sağlık sektöründeki en iyi 10 şirketin altısına ve üretim sektöründeki en iyi 10 şirketin yedisine hizmet vermektedir.

Sorun uzaktan veya otomatik olarak düzeltilemediği için (her sistemin Güvenli Mod’da manuel olarak başlatılması ve hatalı CrowdStrike dosyasının silinmesi gerekiyor) çözüm hemen sağlanmıyor, ancak BT yöneticileri Microsoft ve CrowdStrike’ın daha hızlı bir geri yükleme sağlayacağını umuyor.

Yanıt ve Çözüm

Hindistan’ın en büyük medya holdingi olan Bennett, Coleman & Co. Ltd., beyin fırtınası için bir teknoloji ekibi kurdu ve sorunu tespit etti. CIO Rajeev Batra, “Hasar önemliydi ve otomatik bir rotası yoktu” dedi.

“Neredeyse aynı anda, CrowdStrike bize bunu hızlı bir şekilde hayata geçirmemiz için güven veren bir geçici çözüm yolu detaylandırdı,” dedi. “Editörler Hindistan genelinde haber merkezlerinde çalışmalarına devam ederken sonunda sistemleri zamanında geri aldık.”

Bu arada Microsoft ve CrowdStrike’ın, sistem yöneticilerine yönelik düzeltici bilgiler sağlayan bloglarındaki güncellemeler aracılığıyla müşterilere ulaştığı görülüyor.

Microsoft blog yazısında, kurumsal ve işletim sistemi güvenliği başkan yardımcısı David Weston, düzeltme planını ayrıntılı olarak açıkladı: “CrowdStrike, Microsoft’un Azure altyapısının CrowdStrike’ın hatalı güncellemesi için bir düzeltmeyi hızlandırmasına yardımcı olacak ölçeklenebilir bir çözüm geliştirmemize yardımcı oldu. Ayrıca en etkili yaklaşımlar üzerinde iş birliği yapmak için hem AWS hem de GCP ile çalıştık.”

Ancak zaman daraldığında, küresel CIO’ların ikili bir sorumluluk üstlenmesi gerektiğini söyledi Batra. Yönetime ve hissedarlara hızlı çözüm konusunda güvence vermeleri ve işletmeye verilen zararı en aza indirmeleri ve ekipleriyle yakın bir şekilde çalışarak, onları birkaç “anında alınan kararda” yönlendirerek çalışmaları gerekir.

Sahneleme ve Test

Üretimde otomatik güncellemelerin aceleyle, test etmeden etkinleştirilmesi, feci sonuçlara yol açabilir. Ağ yöneticileri genellikle yeni güncellemeleri ağlarındaki tüm sistemlere dağıtmadan önce korumalı ortamlarda test eder.

DataNoble’ın CIO’su Tiaan van Zyl, özellikle yazılım bu kadar büyük ölçekte dağıtıldığında, sandbox ortamlarında test yapmanın “bir şeyleri kaçırma” olasılığının her zaman bulunduğunu söyledi. “Gerçek dünya, test yaparken kör noktalar bırakan çok sayıda değişkene sahip,” dedi.

“CrowdStrike’ın iyi QA uygulamalarının eksikliği çok üzücü. Bunu kamuoyuna açıklamadan önce test sırasında yakalamaları gerekirdi. 2008’den beri her Windows işletim sistemini etkilemiş olması affedilemez” dedi Holton.

Stackpane’in kurucusu ve CEO’su Sarbjeet Johal, güncellemeleri test etmek için bir sahneleme süreci önerdi. “Microsoft, güncellemeleri sahaya nasıl gönderdikleri konusunda süreçlerini araştırmalı – sahneleme alanında bazı doğrulamalar yapılmalı,” dedi. “Bu, küresel toplum için dijital sistemlere olan bağımlılığı konusunda bir uyarı niteliğinde.”

Olay Müdahalesi ve İş Sürekliliği Planı

Olay müdahale ekipleri ve planları, felaket kurtarma ve planlama stratejisinin – iş sürekliliği planı veya BCP – bir parçası olarak derhal etkinleştirilir. Ekipler, olayın temel nedenini bulmak için yoğun bir sınıflandırma yapar ve ardından yönetim için ayrıntılı raporlar hazırlar. Bu raporlar, aynı olay tekrarlanırsa etkiyi ve riski azaltmak için mevcut olay müdahale planını/BCP’yi güncellemek için kullanılır.

“Sözleşmelerinizin tazminat talep etmenize izin verdiğinden emin olun, çünkü bu tür durumlarda başvurulacak tek yol bu olabilir,” dedi Holton. Kuruluşlara kurtarma planlarını geliştirerek ve test ederek benzer sorunlara hazırlanmalarını ve bunları önlemelerini tavsiye etti. “Benzer saldırı vektörlerinden kaçınmak için yedekleme ve kurtarma için tamamen farklı bir güvenlik araçları seti kullanmayı düşünün. Yedekleme ve kurtarma altyapısını kritik bir işlev olarak ele alın ve mümkün olduğunca güçlendirin,” dedi.

Rubrik’in küresel CIO’su Ajay Sabhlok, kesintinin “insan bağımlılığı olan ve hava geçirmez DevOps süreçlerine rağmen üretime hata sızmasına yol açabilecek yazılım kalite kontrol uygulamaları hakkında acı bir hatırlatma” olduğunu söyledi.

“Etkilenen şirketlerin BT yöneticileri, düzenlenmiş kurtarma yoluyla bozulmuş verileri geri yüklemeye yardımcı olabilecek kapsamlı veri dayanıklılığına yatırım yaparak bu olaydan kaynaklanan yaygın hasarı önleyebilirdi,” dedi. “Veri dayanıklılığı, tüm verileri korumak ve fidye yazılımı, veri bozulması ve doğal afetler gibi çeşitli felaketlerden kurtarmak için güvenilir bir yoldur.”

Dersler öğrenildi

Bu olay, BT yöneticilerine kapsamlı veri dayanıklılığı ve felaket kurtarma planları sağlamaları konusunda kritik bir hatırlatma görevi gördü.

Öncelikle, bir güvenlik çözümü için tek bir tedarikçiye bağımlı olmak riskli bir önermedir. Linde’nin küresel CIO’su Sandeep Sen, şirketin tesis ve ofis ağları için iki ayrı EDR çözümü kullandığı için bu olayın etkisini azaltabildiğini söyledi.

“Kuruluşlar, örneğin sunucular ve kullanıcılar arasında ofis ağı içindeki EDR çözümlerini ayırma ihtiyacını bile gözden geçirebilir,” dedi. Kuruluşlara “tedarikçiyi değil, mimariyi yeniden düşünmelerini” tavsiye etti.

ABP CTO’su Subhamoy Chakraborti, bu tür olaylar sırasında işlevsel ekipler arasında yakın koordinasyona ihtiyaç olduğunu vurguladı. “Sakin olun ve hem kullanıcıları hem de üst düzey yönetimi bilgilendirin. Ekiplerinizle yakın bir şekilde çalışın ve böyle bir durumda başkalarının ne yaptığını bulmak için teknoloji topluluğuyla koordine olun,” dedi.

Gammon Engineers and Contractors’da BT genel müdürü olan Krishnan Kutty C, DR mimarisinin birden fazla geri dönüşü içerecek şekilde yeniden tasarlanmasını önerdi. Bu her zaman maliyet açısından etkili olmayabilir, ancak uygulamanın iş açısından kritikliği tarafından yönlendirilebilir.

“Mümkün olan yerlerde, yama stratejisi yeniden tanımlanabilir ve en son yama numarası, yayınlanır yayınlanmaz en son yama numarasına kadar uygulanmak yerine, bir eksiğiyle uygulanabilir,” dedi. “Güvenlik yamaları bunun bir istisnasıdır çünkü sıfırıncı gün saldırılarını önlemek için en son yamanın yayınlanır yayınlanmaz güncellenmesi gerekir.”





Source link