Birleşik Krallık’ta devam eden bir sıcak hava dalgası, şirketlerin veri merkezlerinde soğutma sistemlerinin arızalanmasının ardından Google Cloud ve Oracle Cloud kesintilerine yol açtı.
Geçen hafta, Birleşik Krallık, bölge genelinde boğucu sıcaklıklara neden olan ve devam eden rekor kıran bir sıcak hava dalgasına maruz kaldı.
Ancak bugün, sıcaklıkların rekor kıran 40,2 santigrat dereceye (104.4 Fahrenheit) ulaşmasıyla birlikte, Google ve Oracle tarafından bulut altyapılarını barındırmak için kullanılan veri merkezlerindeki soğutma sistemleri arızalanmaya başladı.
Donanım bileşenlerinde kalıcı hasarı önlemek ve böylece uzun süreli bir kesinti oluşturmak için hem Google hem de Oracle, ekipmanı kapattı ve bu da bulut hizmetlerinde kesintilere yol açtı.
Oracle, bugün yaklaşık 11:30 EST’de bir soğutma arızası bildirerek, “kritik olmayan donanımın” kapatılmasına neden olan ilk etkilenen kişi oldu.
“Bölgedeki mevsimsel olmayan sıcaklıkların bir sonucu olarak, Birleşik Krallık Güney (Londra) Veri Merkezi’ndeki bir soğutma altyapısı alt kümesinde bir sorun yaşandı. Bu, kontrolsüz donanım arızalarını önlemek için hizmet altyapımızın bir alt kümesinin kapatılmasına neden oldu.” TheRegister tarafından ilk kez tespit edilmiş gibi görünen bir Oracle Cloud durum mesajını okur.
“Bu adım, müşterilerimiz üzerinde herhangi bir uzun vadeli etki potansiyelini sınırlamak amacıyla atılmıştır.”
Ancak, yalnızca kritik olmayan donanımlar kapalıyken bile Oracle, bu bölgedeki müşterilerin Oracle Bulut Altyapısı kaynaklarına erişemeyebileceğini belirtiyor.
Yaklaşık iki saat sonra Google, europe-west2-a bölgesi için europe-west2 bölgesini barındıran binalarından birinde soğutma arızaları da bildirdi.
“Avrupa-batı2 bölgesi için europe-west2-a bölgesine ev sahipliği yapan binalarımızdan birinde soğutmayla ilgili bir arıza oldu. Bu, o bölgede kısmi kapasite arızasına neden olarak VM sonlandırılmasına ve küçük bir kullanıcı için makine kaybına neden oldu. Müşterilerimizden oluşan bir grup”, Google Cloud olay raporunu okur.
“Soğutucuyu tekrar çevrimiçi duruma getirmek ve o bölgede kapasite oluşturmak için çok çalışıyoruz. Avrupa-batı2-a bölgesinde daha fazla etki beklemiyoruz ve şu anda çalışan VM’lerin etkilenmemesi gerekiyor. Çoğaltılmış Kalıcı Disk cihazlarının küçük bir yüzdesi tek yedekli modda çalışıyor.”
“Makinelerin zarar görmesini ve uzun süreli bir kesintiyi önlemek için, bölgenin bir kısmını kapattık ve GCE’nin öncelikli başlatmalarını sınırlandırıyoruz. Etkilenen, çoğaltılan Kalıcı Disk cihazlarının geri kalanını geri yüklemek için çalışıyoruz.”
Oracle gibi, bu soğutma hatası, sanal makinelerin sonlandırılması, erişilemeyen makineler ve tekli yedeklilik modunda çalışan Persistent Disk cihazlarıyla Google Cloud müşterilerini rahatsız ediyor.
Her iki şirket de soğutma sistemlerini tekrar devreye sokmaya çalıştıkları için daha fazla etki beklemediklerini bildiriyor.