Teknoloji yöneticileri, Temmuz ayında hatalı bir CrowdStrike güvenlik güncellemesinin neden olduğu küresel maliyetli sistem kesintileri dalgasının ardından BT operasyonel dayanıklılıklarını yeniden değerlendirdiler. Cockroach Labs ve Wakefield Research tarafından Ağustos ve Eylül aylarında 1000 üst düzey bulut mimarı ve mühendislik yöneticisinin katıldığı bir ankete göre çoğu kişi bulduklarından memnun değildi.
Ankete katılan 10 kişiden 9’undan fazlası, kuruluşlarındaki BT sistemlerini maliyetli hizmet kesintilerine karşı savunmasız bırakan operasyonel zayıflıkların farkında olduklarını söyledi. Neredeyse yarısı dayanıklılığı artırmak için yeterince çaba göstermediklerini kabul etti.
Ankete katılan her şirket geçtiğimiz yıl kesintilerden dolayı gelir kaybı bildirdi.
Cockroach Labs CEO’su Spencer Kimball, CIO Dive’a “BT kesintileri çok yaygın” dedi. “Ancak CrowdStrike sorunu o kadar bariz ve önlenebilirdi ki insanlar, kritik güvenlik açıkları söz konusu olduğunda kör noktalara sahip olduklarını fark ettiler.”
CrowdStrike etkinliği yöneticileri şaşırttı. İki saatten kısa bir süre yayında olmasına rağmen güncelleme milyonlarca Windows tabanlı sistemi çökertti, teknoloji ekipleri yanıt vermek için çabalarken büyük havayollarının operasyonları neredeyse durma noktasına geldi ve dünya çapında bankacılık fonksiyonları kesintiye uğradı.
CrowdStrike’ın kıtalar ve sektörler genelindeki geniş erişimi, kesintinin yıkıcı etkisini artırdı. Havaalanı monitörlerindeki hata mesajlarına bakan mahsur kalan yolcuların görüntüleri maliyeti artırdı.
Kimball, “İşleri gerçekten büyüttüğünüzde, ters gidebilecek her şey %100 ters gider” dedi. “Bir şeyi uygun ölçekte çalıştırıp makinelerin, güç sistemlerinin ve ağ ekipmanlarının arızalanmasına hazırlıklı olamazsınız; bazen bir kazıcının kazara fiber optik kabloyu kesmesi işleri çökertir.”
Stres testleri
BT sorunları endemik ve kalıcıdır. Raporda, şirketlerin yılda ortalama 86 kesinti yaşadığı ve yarısından fazlasının haftalık hizmet kesintileri bildirdiği ortaya çıktı. Ortalama iyileşme süresi 196 dakika veya üç saatten fazlaydı.
Kimball, “Bu, çağrı cihazlarına sahip olan ve ölüm sonrası işlemleri yapmak zorunda olan mühendisler için çok fazla üretkenlik kaybı ve çok fazla stres anlamına geliyor” dedi.
Coğrafi olarak dağınık bir operasyon için zorluklar çok çeşitlidir.
United Airlines, 19 Temmuz Cuma sabahın erken saatlerinde meydana gelen CrowdStrike kesintisini takip eden günlerde 26.000’den fazla Windows cihazını yeniden başlatmak için yüzlerce havaalanı noktasına ekipler gönderdi. hafta sonu, CIO Jason Birnbaum CIO Dive’a söyledi.
United’ın yaklaşık 1.500 uçuş iptaline yol açan ancak dört gün içinde operasyonları yeniden başlatmayı başaran tepkisi alışılmadık bir durum değil.
Hamamböceği Laboratuvarları, 10 şirketten 9’undan fazlasının plansız kesintileri gidermek için gerekli işleri bir kenara bırakmak zorunda kaldığını tespit etti. Ankete katılanların üçte ikisi, kesintiler nedeniyle günlük BT bakımı ve idari görevlerin önceliğini kaybettiklerini bildirdi; bu uygulama, gelecekte kesintiler meydana geldiğinde daha büyük sorunlara ve artan maliyetlere yol açabilecek bir uygulamadır.
Kesintileri önlemeye yönelik stratejik planlamaya yönelik fon eksikliği, zar atmak anlamına gelir ve BT ekiplerini zayıf bir duruma sokar. Kimball, sistemleri çalışır durumda tutamazlarsa işlerin tehlikeye girebileceğini söyledi.
Katılımcıların üçte birinden fazlası bütçe kısıtlamalarının hazırlık girişimlerini engellediğini söyledi ve 5 kişiden 4’ü önemli bir kesinti veya kesinti olayının işlerini tehlikeye atacağı yönündeki endişelerini dile getirdi.
Mali yansımalar
Kesinti maliyetleri, olayın kapsamına ve ciddiyetine ve kuruluşun hazırlıklılığına bağlı olarak değişir. Cockroach Labs tarafından araştırılan şirketler, sınırlı bir olay için 10.000 ABD Doları ile daha büyük kesintiler için 1 milyon ABD Doları arasında değişen kayıplar bildirdi.
New Relic tarafından CrowdStrike etkinliğinden birkaç ay önce 1.700 teknoloji uzmanının katılımıyla gerçekleştirilen benzer bir anket, kesintilerin saat başına 1,9 milyon dolara kadar mal olabileceğini ortaya çıkardı.
Aynı olay aynı sektörde bile farklı etkiler yaratabilir.
Temmuz olayını takip eden günlerde en çok etkilenen yerli havayolu şirketlerinden biri olan Delta Air Lines, CrowdStrike fiyat etiketini 500 milyon dolar olarak belirledi. Havayolu bu tutarı mahkemeler aracılığıyla CrowdStrike’dan geri almaya çalışıyor. CrowdStrike geçen ay karşı dava açarak sorumluluğu Delta’ya yükledi.
Buna karşılık United, Temmuz kesintisinden kaynaklanan belirli bir kayıp bildirmedi. Şirketin CFO’su Mike Leskinen Ekim ayı kazanç açıklamasında, hava durumu ve diğer beklenmedik olayların havacılık sektöründe yeterince yaygın olduğunu ve şirketin üç aylık rehberliğinde operasyonel aksaklıkları dikkate aldığını söyledi.
United Airlines CEO’su Scott Kirby, şirketin “mazeret yok” felsefesini detaylandırdı. Kazanç çağrısı sırasında “Pazartesi sabah 9’da klimalı bir ofise gelip, kontrolünüz dışındaki bir olayın ne kadara mal olacağını hesaplamak kolaydır” dedi. “Mazeret yok mantranız varsa ve insanların bu rakamları hesaplamasına bile izin vermezseniz, bu insanları yenilik bulmaya zorlar.”
Cockroach Labs’a göre çoğu şirket büyük bir kesintinin etkilerini karşılamaya hazır değil. Ankete katılanların yalnızca beşte biri kuruluşlarının bu tür etkinliklere tamamen hazır olduğunu ve yalnızca üçte birinin tam bir yanıt planına sahip olduğunu söyledi.
Kimball, “En iyi şirketler, BT uygulamalarının ve dayanıklılıklarının sürekli ve gerçekten kararlı bir şekilde gelişmesi konusunda uzun vadeli bir görüşe sahiptir” dedi.