Amazon Web Services, ABD-DOĞU-1 bölgesinde yaklaşık 24 saat süren, 140’tan fazla hizmeti etkileyen ve dünya çapındaki müşteriler için yaygın sorunlara neden olan önemli bir hizmet kesintisi yaşadı.
Kesinti 19 Ekim 2025’in sonlarında başladı ve 20 Ekim öğleden sonra tamamen çözüldü.
DNS Çözümleme Sorunu Olarak Tanımlanan Kök Neden
Olay, 19 Ekim’de yaklaşık 23:49 PDT’de, AWS mühendislerinin kritik ABD-DOĞU-1 bölgesindeki birden fazla hizmette artan hata oranları ve gecikmeler tespit etmesiyle başladı.
20 Ekim 00:26’da AWS, tetikleyiciyi bölgesel DynamoDB hizmeti uç noktalarını etkileyen DNS çözümleme sorunları olarak tanımladı. Bu ilk sorun, diğer birçok hizmeti etkileyen kademeli bir arızaya neden oldu.
AWS, DynamoDB DNS sorununu sabah 02:24’te çözdükten sonra, DynamoDB’ye bağımlılığı nedeniyle EC2’nin yeni bulut sunucularının başlatılmasından sorumlu dahili alt sisteminde daha sonra bir bozulmayla karşılaştı.
Network Load Balancer durum kontrolleri bozulduğunda durum daha da kötüleşti ve bu durum Lambda, DynamoDB ve CloudWatch gibi hizmetler arasında ağ bağlantı sorunlarına yol açtı.
AWS, kurtarma sürecini yönetmek için EC2 bulut sunucusu başlatmaları, Lambda Olay Kaynağı Eşlemeleri yoluyla SQS kuyruk işlemesi ve eşzamansız Lambda çağrıları dahil olmak üzere çeşitli işlemleri geçici olarak kısıtladı.
Mühendisler, Network Load Balancer durum kontrollerini yeniden sağlamak için sabah boyunca çalıştı ve bu dönüm noktasına 09:38 PDT’de ulaştı.
AWS, gün boyunca ağ bağlantısı sorunlarını çözerken operasyon kısıtlamalarını kademeli olarak azalttı.
20 Ekim saat 15:01 PDT itibarıyla tüm AWS hizmetleri normal faaliyetlerine geri döndü. Ancak AWS Config, Redshift ve Connect dahil olmak üzere bazı hizmetler, birincil çözümden sonra birkaç saat boyunca birikmiş mesajları işlemeye devam etti.
Kesinti, özellikle IAM kimlik doğrulaması ve DynamoDB Global Tablolar dahil olmak üzere US-EAST-1 uç noktalarına dayanan küresel hizmetleri ve özellikleri etkiledi.
Müşteriler EC2 bulut sunucusu başlatma hataları, Lambda işlevi başlatma hataları ve depolama ile veritabanı hizmetlerine erişimde zorluklarla karşılaştı.
Kesinti, müşterilerin olayın en yoğun olduğu dönemde destek yazışmaları oluşturmasını veya güncellemesini de engelledi.
AWS, müşterilere ne olduğuna ve benzer olayları önlemek için uygulanan önlemlere ilişkin kapsamlı bir bilgi sağlamak amacıyla ayrıntılı bir olay sonrası özeti paylaşmayı taahhüt etmiştir.
Şirket, müşterilerin birden fazla Erişilebilirlik Alanında Otomatik Ölçeklendirme Gruplarını yapılandırmasını ve bölgesel sorunlara karşı dayanıklılığı artırmak için bulut sunucusu başlatma sırasında belirli bölgeleri hedeflemekten kaçınmasını öneriyor.
Anında Güncellemeler Almak ve GBH’yi Google’da Tercih Edilen Kaynak Olarak Ayarlamak için bizi Google Haberler, LinkedIn ve X’te takip edin.