WAN yönlendirici IP değişikliğinin neden olduğu büyük Microsoft 365 kesintisi


Microsoft

Microsoft, bu hafta dünya çapında beş saat süren Microsoft 365 kesintisinin, Geniş Alan Ağı’ndaki (WAN) diğer tüm yönlendiriciler arasında paket iletme sorunlarına yol açan bir yönlendirici IP adresi değişikliğinden kaynaklandığını söylüyor.

Redmond, o sırada kesintinin bir WAN güncelleştirmesinin neden olduğu DNS ve WAN ağ yapılandırma sorunlarından kaynaklandığını ve etkilenen altyapının hizmet verdiği tüm bölgelerdeki kullanıcıların etkilenen Microsoft 365 hizmetlerine erişimde sorunlar yaşadığını söyledi.

Sorun, Microsoft Azure hizmet durumu sayfasında paylaşıldığı şekliyle yaklaşık her 30 dakikada bir zirveye ulaşan dalgalar halinde hizmet etkisine yol açtı (bu durum sayfası, aralıklı olarak “504 Ağ Geçidi Zaman Aşımı” hataları gösterdiği için de etkilendi).

Kesintiden etkilenen hizmetler arasında Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business, PowerBi, Microsoft 365 Admin Center, Microsoft Graph, Microsoft Intune, Microsoft Defender for Cloud Apps ve Microsoft Defender for Identity yer alıyor.

Redmond’un sorunu çözmesi, araştırmaya başladığı saat 07:05’ten (UTC) hizmetin yeniden etkinleştirildiği saat 12:43’e (UTC) kadar toplamda beş saatten fazla sürdü.

“25 Ocak 2023’te 07:05 UTC ile 12:43 UTC arasında müşteriler, Azure bölgelerinde barındırılan kaynaklara ve aşağıdakiler dahil diğer Microsoft hizmetlerine bağlanmaya çalışırken uzun ağ gecikmesi ve/veya zaman aşımları şeklinde ortaya çıkan ağ bağlantısıyla ilgili sorunlar yaşadı. Microsoft 365 ve Power Platform,” Microsoft bugün yayınlanan olay sonrası bir ön raporda söyledi.

“Çoğu bölge ve hizmet 09:00 UTC’ye kadar iyileşirken, aralıklı paket kaybı sorunları 12:43 UTC’ye kadar tamamen azaldı. Bu olay ayrıca Azure genel bulutuna bağımlı olan Azure Kamu bulut hizmetlerini de etkiledi.”

Microsoft şimdi ayrıca sorunun, kapsamlı bir şekilde incelenmemiş ve farklı ağ cihazlarında farklı davranışlara sahip bir komut kullanılarak bir WAN yönlendiricisinin IP adresini değiştirirken tetiklendiğini ortaya çıkardı.

“Bir WAN yönlendiricisindeki IP adresini güncellemek için planlanan bir değişikliğin parçası olarak, yönlendiriciye verilen bir komut onun WAN’daki diğer tüm yönlendiricilere mesajlar göndermesine neden oldu, bu da hepsinin bitişikliklerini ve yönlendirme tablolarını yeniden hesaplamasıyla sonuçlandı.” Microsoft dedi.

“Bu yeniden hesaplama işlemi sırasında, yönlendiriciler kendilerinden geçen paketleri doğru bir şekilde iletemedi.”

Ağ, 08:10 UTC’den itibaren kendi kendine toparlanmaya başlarken, geniş alan ağının (WAN) sağlığının korunmasından sorumlu otomatik sistemler, ağ üzerindeki etki nedeniyle durakladı.

Bu sistemler, sağlıksız cihazları belirleme ve ortadan kaldırmaya yönelik sistemlerin yanı sıra ağ genelinde veri akışını optimize etmeye yönelik trafik mühendisliği sistemlerini içeriyordu.

Duraklamanın bir sonucu olarak, bazı ağ yollarında 09:35 UTC’den sistemler manuel olarak yeniden başlatılana, WAN en uygun çalışma koşullarına döndürülene ve kurtarma işlemi 12:43 UTC’de tamamlanana kadar artan paket kaybı yaşamaya devam etti.

Bu olayın ardından Microsoft, artık son derece etkili komutların yürütülmesini engellediğini ve ayrıca tüm komut yürütme işlemlerinin güvenli yapılandırma değişiklikleri için yönergeleri izlemesini gerektireceğini söylüyor.





Source link