Pazartesi sabahı erken saatlerde başlayan genişleyen Amazon Web Services bulut kesintisi, dünya çapındaki büyük iletişim, finans, sağlık, eğitim ve hükümet platformlarının kesintiye uğramasıyla internetin birbirine olan kırılgan bağımlılığını ortaya koydu. Gün ilerledikçe AWS, şirketin kuzey Virginia’daki kritik ABD-Doğu-1 bölgesinden kaynaklanan sorunu teşhis etti ve düzeltmek için çalışmaya başladı. Ancak art arda gelen etkilerin tamamen çözülmesi zaman aldı.
Olayı değerlendiren araştırmacılar, 20 Ekim Pazartesi günü saat 03:00 ET civarında başlayan Pazartesi günkü kesintinin uzunluğunu özellikle vurguladılar. AWS, durum güncellemelerinde Pazartesi günü saat 18:01 ET itibarıyla “tüm AWS hizmetlerinin normal operasyonlara döndüğünü” söyledi. Kesinti doğrudan Amazon’un DynamoDB veritabanı uygulama programlama arayüzlerinden kaynaklandı ve şirkete göre diğer 141 AWS hizmetini de “etkiledi”. Çok sayıda ağ mühendisi ve altyapı uzmanı WIRED’e, karmaşıklıkları ve boyutları dikkate alındığında hataların AWS, Microsoft Azure ve Google Cloud Platform gibi “hiper ölçekleyiciler” olarak adlandırılanlar için anlaşılabilir ve kaçınılmaz olduğunu vurguladı. Ancak aynı zamanda bu gerçeğin, bulut sağlayıcılarının uzun süreli hizmet dışı kalma sürelerini ortadan kaldırmaması gerektiğini de belirttiler.
Güvenilirlik ve siber güvenlik firması CYE’nin bilgi güvenliği sorumlusu Ira Winkler, “‘Geri görüş’ kelimesi çok önemli. Olaydan sonra neyin yanlış gittiğini bulmak kolaydır, ancak AWS’nin genel güvenilirliği, her başarısızlığı önlemenin ne kadar zor olduğunu gösteriyor” diyor. “İdeal olarak, bu öğrenilen bir ders olacak ve Amazon gelecekte buna benzer bir felaketin yaşanmasını önleyecek veya en azından bu kadar uzun süre hizmet dışı kalmalarını engelleyecek daha fazla işten çıkarma uygulayacak.”
AWS, WIRED’in müşteriler için uzun vadeli kurtarma sürecine ilişkin sorularına yanıt vermedi. Bir AWS sözcüsü, şirketin olayla ilgili “olay sonrası özetlerinden” birini yayınlamayı planladığını söyledi.
Hunter Stratejisi araştırma ve geliştirmeden sorumlu başkan yardımcısı Jake Williams, “Bunun sadece bir ‘olağanüstü olay’ kesintisi olduğunu düşünmüyorum. Tam bir düzeltmenin çok daha hızlı olmasını beklerdim” diyor. “Onların hakkını vermek gerekirse, art arda gelen arızalar, çalışma konusunda çok fazla deneyim kazandıkları bir şey değil çünkü çok sık kesinti yaşamıyorlar. Bu onların takdiri. Ancak bu şirketlere izin verme zihniyetine girmek gerçekten çok kolay ve onların bu durumu aktif olarak altyapılarına daha fazla müşteri çekmeye çalışarak yarattıklarını unutmamalıyız. Müşteriler kendilerini aşırı genişletip genişletmediklerini veya finansal olarak neler yapabileceklerini kontrol edemez.”
Olay, web kesintilerindeki tanıdık bir suçludan, yani “alan adı sistemi” çözümleme sorunlarından kaynaklandı. DNS aslında internetin web tarayıcılarını doğru sunuculara yönlendiren telefon rehberi mekanizmasıdır. Sonuç olarak DNS sorunları, isteklerin başarısız olmasına ve içeriğin yüklenmesini engellemesine neden olabileceğinden yaygın bir kesinti kaynağıdır.