Azure kapatıldığında Microsoft’un Avustralya veri merkezi kampüsünde üç personeli vardı – Bulut – Depolama


Geçtiğimiz hafta, bir elektrik kesintisi soğutma tesisini iki veri salonu için çevrimdışı duruma getirdiğinde ve depolama donanımının bazı kısımlarını pişirdiğinde Microsoft’un veri merkezi kampüsünde “yetersiz” personel seviyesi vardı.

Azure kapatıldığında Microsoft'un Avustralya veri merkezi kampüsünde üç personeli vardı


Şirket, Bank of Queensland ve Jetstar gibi büyük kurumsal müşterilerin hizmetlerini tamamen kaybettiği büyük ölçekli arıza için bir ön olay sonrası raporu (PIR) yayınladı.

PIR, bazı kuruluşların neden hizmetlerini tamamen kaybettiklerine ışık tutuyor: Verilerin ve tüm kopyalarının çevrimdışı olması durumunda pek çok depolama düğümü sorunsuz bir şekilde kapatıldı veya bileşenleri yakıldı.

Buna ek olarak, depolama düğümleri nihayet kurtarıldıktan sonra, 250.000’den fazla veritabanını barındıran bir “kiracı halkası”, müşteriler üzerinde eşit olmayan bir etkiye rağmen başarısız oldu.

Soğutucular çevrimdışı

Microsoft, etkilenen iki veri salonunun soğutma kapasitesinin “beşi çalışır durumda ve iki soğutucu (N+2) olmak üzere yedi soğutucudan oluştuğunu” söyledi.

Bir güç düşüşü, yani voltaj düşüşü, çalışan beş soğutucunun arızalanmasına neden oldu. Ayrıca yedek birimlerden yalnızca biri çalışıyordu.

Microsoft, saha personelinin “soğutucuları tekrar devreye sokmak için belgelenmiş acil durum operasyonel prosedürlerimizi (EOP) uyguladığını ancak başarılı olmadıklarını” söyledi.

Şirket, bölgede yeterli sayıda personelin bulunmaması ve acil durum prosedürlerinin sorunun boyutuna cevap vermemesi nedeniyle olayın boyutuna kapılmış gibi görünüyordu.

Şirket, “Veri merkezi kampüsünün büyüklüğünden dolayı, ekibin gece personeli soğutma gruplarını zamanında yeniden başlatmak için yetersizdi” dedi.

“Temel sorunlar daha iyi anlaşılıncaya ve uygun hafifletmeler uygulanıncaya kadar ekip sayısını geçici olarak üçten yediye çıkardık.”

Microsoft, EOP’si hakkında şunları söyledi: “Soğutucuların yeniden başlatılmasına yönelik EOP’nin, bu kadar önemli bir patlama yarıçapına sahip bir olay için uygulanması yavaştır.”

“Mevcut otomasyonu çeşitli voltaj düşüşü olay türlerine karşı daha dayanıklı olacak şekilde iyileştirmenin yollarını araştırıyoruz.”

Belgelenen prosedürleri yürütmek için yeterli personel olmasa da, soğutucuların kendisinde sorunlar olduğundan daha fazla personelin olması aynı sonuca daha hızlı ulaşılmasını sağlayabilirdi.

Ön araştırmalar, soğutma grubunun “ilgili pompaların soğutma gruplarından çalışma sinyali almaması nedeniyle” otomatik olarak yeniden başlamadığını gösterdi.

Microsoft, “Bu önemlidir, çünkü soğutma ünitelerinin başarılı bir şekilde yeniden başlatılmasının ayrılmaz bir parçasıdır” dedi.

“Soğutucuların neden ilgili pompaya çalıştırma komutu vermediğini araştırmak için OEM satıcımızla ortaklık kuruyoruz.”

Microsoft, “soğutulmuş su döngüsü sıcaklığı eşiği aştığı için” arızalı soğutucuların manuel olarak yeniden başlatılamayacağını söyledi.

Artan sıcaklıklar ve altyapıdan gelen termal uyarılar nedeniyle Microsoft’un sunucuları kapatmaktan başka seçeneği yoktu.

“Bu, soğutulmuş su döngüsü sıcaklığının gerekli eşiğin altına düşmesine başarıyla izin verdi ve soğutma kapasitesinin geri kazanılmasını sağladı” dedi.

Depolama, SQL veritabanı kurtarma

Yine de her şey sorunsuz bir şekilde düzelmedi.

Olay, beşi “standart”, ikisi “premium” olmak üzere yedi depolama kiracısını etkiledi.

Microsoft, bazı depolama donanımlarının “veri salonu sıcaklıklarından zarar gördüğünü” söyledi.

Depolama düğümleri çevrimdışı olduğundan sorun giderme için tanılama kullanılamadı.

Microsoft, “Sonuç olarak, sahadaki veri merkezi ekibimizin bileşenleri manuel olarak kaldırması ve hangi belirli bileşenin/bileşenlerin her bir düğümün önyüklemesini engellediğini belirlemek için bunları tek tek yeniden yerleştirmesi gerekti” dedi.

“Başarılı veri kurtarma ve etkilenen düğümleri geri yüklemek için çeşitli bileşenlerin değiştirilmesi gerekiyordu.

“Verilerin tamamen kurtarılması için bazı orijinal/hatalı bileşenlerin ayrı ayrı sunuculara geçici olarak yeniden kurulması gerekiyordu.”

Kod olarak altyapı otomasyonu da başarısız oldu, “eski istekleri hatalı bir şekilde onayladı ve bazı sağlıklı düğümleri sağlıksız olarak işaretledi, bu da depolama kurtarma çabalarını yavaşlattı.”

Microsoft, 250.000’den fazla SQL veritabanını barındıran kiracı halkasının başarısızlığının iyileşmeyi daha da yavaşlattığını söyledi.

“Veritabanlarını bozulmuş halkanın dışına taşımaya çalıştığımızda, SQL, kaynak halkadayken veritabanlarını taşımak için oluşturulmuş iyi test edilmiş araçlara sahip değildi. [a] şirket, kötüleşen sağlık senaryosu dedi.

“Kısa sürede bu, etkiyi hafifletmenin önündeki en büyük engel haline geldi.”

Nihai PIR’ın birkaç hafta içinde tamamlanması bekleniyor.



Source link