Hatalı ECS dağıtımının neden olduğu büyük Microsoft 365 kesintisi


Microsoft 365

Olay sonrası bir ön raporda, Microsoft, bu haftaki 5 saatlik dünya çapındaki Microsoft 365 kesintisinin, birden çok bölgede kademeli arızalara ve kullanılabilirlik etkisine yol açan hatalı bir Kurumsal Yapılandırma Hizmeti (ECS) dağıtımı tarafından tetiklendiğini açıkladı.

ECS, Microsoft hizmetlerinin birden çok hizmet ve özellik arasında ve ayrıca kiracı veya kullanıcı başına belirli yapılandırmalar gibi hedeflenenler arasında geniş kapsamlı dinamik değişiklikler yapmasını sağlamak için tasarlanmış bir dahili merkezi yapılandırma havuzudur.

Başlangıçta küçük bir Microsoft Teams kesintisi gibi başlayan süreç, sonunda Exchange Online, Windows 365 ve Office Online dahil olmak üzere ECS’den de yararlanan Teams entegrasyonuyla birden çok Microsoft 365 hizmetine doğru genişledi.

Sonuç olarak, dünya çapındaki kullanıcılar Microsoft Teams ve birden çok Microsoft 365 hizmetini veya özelliğini kullanamayacaklarını bildirmeye başladılar.

Şirket, ön raporunda “Bu sorun, kullanıcıların Microsoft Teams Masaüstü, Web ve Mobil istemcilerine bağlanma yeteneğini etkiledi” dedi.

“Telemetri, bu olaydan yaklaşık 300 bin çağrının etkilendiğini gösterdi. Etki aralığına denk gelen çalışma saatleri nedeniyle en çok Asya Pasifik (APAC) bölgesi etkilendi. Ayrıca, Doğrudan Yönlendirme ve Skype MFA, en çok etkilenen hizmet oldu.”

Redmond’un raporuna göre, olay 21 Temmuz Perşembe günü 01:05 UTC’de başladı ve şirketin mühendisleri etkisinin çoğunu beş saat içinde, yani 06:00 UTC’ye kadar düzeltti.

Bununla birlikte, aynı gün UTC 13:14’e kadar, sosyal medyadaki müşteri raporlarıyla eşleşen bazı münferit kalıntı etkiler de vardı.

Sonunda, aşağıdaki Microsoft 365 hizmetlerinden ve özelliklerinden bir veya daha fazlasını kullanmaya çalışan kullanıcılar olaydan etkilendi (tümü kesintiden bir dereceye kadar etkilendi):

  • Exchange Online (Posta göndermeyi geciktirir)
  • Microsoft 365 yönetim merkezi (Erişememe)
  • Birden çok hizmet içinde Microsoft Word (Yüklenemiyor)
  • Microsoft Forms (Teams aracılığıyla kullanılamama)
  • Microsoft Graph API (Bu API’ye dayanan herhangi bir hizmet etkilenmiş olabilir)
  • Office Online (Microsoft Word erişim sorunları)
  • SharePoint Online (Microsoft Word erişim sorunları
  • Project Online (Erişememe)
  • PowerPlatform ve PowerAutomate (Veritabanı ile ortam oluşturamama)
  • Microsoft Yönetilen Masaüstü’ndeki Otomatik Yamalar
  • Yammer (Yammer uçuşunun etkisi)
  • Windows 365 (Bulut PC’ler sağlanamıyor)

Ön kök neden bir ECS hatasıydı

Redmond tarafından olay raporunda açıklandığı ve başlangıçta belirtildiği gibi, bu kesintinin arkasındaki temel temel neden, hatalı bir Kurumsal Yapılandırma Hizmeti (ECS) dağıtımıydı.

Şirket, “ECS hizmetindeki bir dağıtım, ECS’den yararlanan hizmetlerle geriye dönük uyumluluğu etkileyen bir kod hatası içeriyordu. Net sonuç, ECS kullanan hizmetler için tüm ortaklarına yanlış yapılandırmalar döndürmesiydi.”

“Bu, aşağı akış hizmetlerinin ‘200’ durum mesajı almasına neden oldu (çekmenin başarılı olduğunu gösterir), ancak aslında hatalı biçimlendirilmiş bir JSON nesnesi içeriyordu.

“Etkinin boyutu, bireysel Microsoft hizmetlerinin ECS tarafından sağlanan hatalı biçimlendirilmiş yapılandırmayı nasıl kullandığına bağlıydı. Etki, Teams gibi hizmetlerin çökmesine kadar uzanırken, diğer hizmetlerin hiçbir etkisi olmamakla sınırlıydı.”

Bu olayın bir sonucu olarak Microsoft, gelecekteki bir ECS arızası durumunda önbelleğe alınmış bir ECS yapılandırma sürümüne geri dönmek için Microsoft Teams hizmetinin esnekliğini geliştirmeye çalıştıklarını söylüyor.

Ayrıca, bir ECS arızasının etkisini sınırlamak için ek arıza izolasyonuna ve bu tür düşük dereceli arızaları daha iyi tanımlamak için izleme eşiklerini güncellemeye yatırım yapıyorlar.



Source link