Telstra, 1 Mart'taki Üç Sıfır kesintisini kısmen, tıbbi destek cihazları ağına giriş yaparken beklenmedik bir şekilde başarısız olan yazılıma bağladı.
90 dakikalık kesinti sırasında çağrıların acil servislere manuel olarak aktarılması gerekti; 148 aktarım başarısız oldu ve Viktorya döneminden bir adam kalp krizinden öldü.
Kesintiyle ilgili olay sonrası raporunda CEO Vicki Brady, Telstra'nın yedekleme süreçlerinin kesinti sırasında neden başarısız olduğunu da açıkladı: Telstra, sekiz acil durum hizmeti için yanlış alternatif numarayı kaydetmişti.
Brady, alternatif numaraların “ikincil bir veritabanında” saklandığını ve manuel çağrı aktarımı için kullanıldığını açıkladı.
Yanlış numaralar “ekibimizin çağrıyı ilgili acil servis operatörüne manuel olarak aktarmasını engelledi.”
Kesintinin teknik tetikleyicisi, mevcut ancak önceden bilinmeyen bir yazılım hatasını tetikleyen beklenmeyen bir veritabanı kesintisinin birleşimiydi.
Bu durum, tıbbi uyarı cihazlarından “yüksek miktarda kayıt talebi” geldiğinde sabah saat 3.30'da ortaya çıktı.
Brady, bu trafiğin tek başına sorun yaratmaya yetmediğini ancak “veritabanı bağlantılarının maksimum sınıra ulaşmasıyla sonuçlanan diğer sistem etkinlikleriyle” örtüştüğünü açıkladı.
Bu gerçekleştiğinde, arayan hat tanımlama (CLI) sisteminin kurtarılmasını engelleyen “mevcut ancak daha önce tespit edilemeyen bir yazılım hatasını tetikledi”.
Son olarak Telstra, başarısız çağrı aktarımları için acil durum hizmetleriyle e-posta yoluyla iletişime geçmeye karar verdiğinde bir iletişim kesintisi yaşandı.
Telstra ekibine Triple Zero Victoria için güncellenmiş bir e-posta adresi verildi, bunu sistemine yanlış girdi ve bunun düzeltilmesi 13 dakika sürdü.
Brady, iletişim numarası ve e-posta hataları nedeniyle özür diliyor: “Acil servis operatörleri için doğru iletişim numaralarına sahip olmamız çok basit ve doğru yapmamız gereken bir şey” dedi.
“Bu durumda geri dönüş olarak e-postaya güvenmek ideal olmaktan uzaktır ve tamamen kabul edilemez bir gecikmeye neden olmuştur. Ekip, manuel aktarım yedeklememiz başarısız olduğunda bunu son çare olarak uygulamaya koydu.”
Yıkama
Brady, önceki güncellemesinden bu yana Telstra'nın CLI'nin başarısız olmasına neden olan sorunu tespit ettiğini ve yeniden ürettiğini söyledi; şu anda yazılım hatasına yönelik bir düzeltmeyi test ediyor.
Bunun Nisan ayına kadar konuşlandırılması bekleniyor.
Ayrıca tıbbi uyarı cihazlarını yöneten kuruluşlarla da çalışılıyor, böylece kayıt yalnızca cihazın acil arama yapması gerektiğinde gönderiliyor.
Taşıyıcı ayrıca, “her türlü sorunu olabildiğince hızlı bir şekilde tanımlayıp yanıt verebilmemizi sağlamak için” hem “Üç Sıfır için uçtan uca yaklaşımını” hem de hizmete yönelik “izleme ve alarm verme” özelliklerini gözden geçirdi.