Gartner: DataCentre’de GPU’ları kullanırken düşünceler


CIO’lar, artan üretkenlik, gelişmiş müşteri deneyimi (CX) ve dijital dönüşüm dahil yapay zeka (AI) yatırımlarından kapsamlı bir değer beklemektedir. Sonuç olarak, Gartner müşterisi AI altyapısının – grafik işleme birimleri (GPU) ve AI sunucuları dahil – dağıtılmasına ilgi önemli ölçüde artmıştır.

Özellikle, GPU ve AI altyapısı ile ilgili müşteri soruları Ekim 2022’den Ekim 2024’e kadar yılda yaklaşık dört kat arttı. Müşteriler, GPU dağıtım için barındırılan, bulut ve şirket içi seçeneklerin kullanımını araştırıyor. Bazı durumlarda, işletmeler GPU, hesaplama, depolama ve ağ oluşturmayı içeren bir “tam yığın” AI teklifi seçecektir. Diğer durumlarda, işletmeler ayrı ayrı seçilen ve entegre olan parçaları seçecek ve dağıtacaktır. Yapay zeka iş yüklerinin gereksinimleri, mevcut DataCentre iş yüklerinden farklıdır.

GPU bağlantısını desteklemek için çoklu ara bağlantı teknolojileri mevcuttur. Gartner müşterilerinden yaygın bir soru: “GPU kümelerine bağlanmak için Ethernet, Infiniband veya NVLink’i kullanmalı mıyım?” Her üç yaklaşım da senaryoya bağlı olarak geçerli olabilir.

Bu teknolojiler birbirini dışlamaz. İşletmeler bunları bir rafın ötesinde ölçeklendirmek için birbirleriyle (örneğin Niband veya Ethernet’te) birlikte konuşlandırabilirler. Yaygın bir yanlış anlama, sadece niband veya tedarikçi bir ara bağlantı teknolojisinde (NVLink gibi) uygun performans ve güvenilirlik sağlayabilmesidir.

Bununla birlikte, Gartner, işletmelerin Ethernet’i inç Niband gibi alternatif teknolojiler üzerine birkaç bine kadar GPU kümeleri için dağıtmasını önerir. Ethernet tabanlı altyapı gerekli güvenilirliği ve performansı sağlayabilir ve teknoloji konusunda yaygın bir işletme deneyimi vardır. Ayrıca, geniş bir tedarikçi ekosistemi Ethernet teknolojisi ile ilişkilidir.

GPU trafiği için ağ dağıtımlarını optimize edin

Bilgisayar İşleme Birimi (CPU) tabanlı, genel amaçlı bilgi işlem iş yükleri için mevcut uygulama durumu bir yaprak/omurga ağ topolojisidir.

Bununla birlikte, yaprak-spine topolojileri AI iş yükleri için her zaman optimal değildir. Buna ek olarak, mevcut DataCentre ağlarıyla birlikte bulunan AI iş yüklerini çalıştırmak, hem AI hem de mevcut iş yükleri için performansı düşüren gürültülü komşu efektler oluşturabilir. Bu, son derece verimsiz olan AI iş yükleri için işleme ve iş tamamlama süresini geciktirebilir.

AI altyapısının bir yapısında, ağ anahtarları genellikle maliyetin% 15’ini veya daha azını temsil eder. Sonuç olarak, mevcut anahtarları kullanarak para tasarrufu genellikle AI iş yükü yatırımı için yetersiz genel fiyat/performansa yol açar. Sonuç olarak, Gartner birkaç öneri yapar.

Benzersiz trafik gereksinimleri ve GPU maliyetleri nedeniyle Gartner, GPU bağlantısı için özel fiziksel anahtarlar oluşturmanızı önerir. Ayrıca, bir yaprak-spine topolojisini temerrüde atmak yerine, Gartner ayrıca fiziksel “şerbetçiotu” azaltmak için minimum sayıda fiziksel anahtar kullanılmasını önermektedir. Bu sonuçta bir yaprak-spine topolojisinin yanı sıra tek anahtar, iki anahtar, tam örgü, küp-örgü ve yusufçuk dahil diğer topolojilere yol açabilir.

Diğer genelleştirilmiş veri merkezi bilgi işlem ihtiyaçları için aynı anahtarları kullanmaktan kaçının. 500 GPU’nun altındaki GPU kümeleri için bir veya iki fiziksel anahtar idealdir. 500’den fazla GPU’ya sahip kuruluşlar için Gartner, BT karar vericilerinin özel bir AI Ethernet kumaş oluşturmalarını tavsiye ediyor. Bu, standart, son pratik, raf üstü topolojilerden sıra ortası ve/veya modüler anahtarlama uygulamalarına doğru bir sapma gerektirecektir.

Ethernet binalarını geliştirin

Gartner, GPU bağlantısı için özel anahtarların kullanılmasını önerir. Ethernet’i dağıtarken (Infiniband veya Raf/Raf/Satır Optimize edilmiş), belirli gereksinimlere sahip anahtarları kullanın. Anahtarların desteklenmesi gerekir:

  • 400Gbps erişim bağlantı noktaları ve üstü dahil olmak üzere GPU’lar için yüksek hızlı arayüz.
  • Gelişmiş, tıkanıklık taşıyan mekanizmalar da dahil olmak üzere kayıpsız Ethernet desteği-örneğin, veri madenciliği nicelleştirilmiş tıkanıklık bildirimi (DCQCN).
  • Tıkanıklığa duyarlı yük dengeleme dahil olmak üzere gelişmiş trafik dengelenme özellikleri.
  • Uzaktan Doğrudan Bellek Erişimi (RDMA) -Aware yük dengeleme ve paket püskürtme.

Akışların statik sabitleme desteği

Ayrıca, AI ağ kumaşlarını yönetme yazılımı da geliştirilmelidir. Bu, sorunları hızlı bir şekilde uyarmak, teşhis etmek ve düzeltmek için yönetim katmanındaki işlevsellik gerektirir. Özellikle, gelişmiş granüler telemetri (saniye alt ve 100 alt milisaniye aralıkları dahil) sağlayan yönetim yazılımı sorun giderme ve görünürlük için idealdir. Buna ek olarak, bant genişliği kullanımı, paket kaybı, titreşim, gecikme ve kullanılabilirlik için ikinci alt düzeyde izleme ve uyarma (gerçek zamanlı olarak) ve tarihsel raporlama sağlama yeteneği gereklidir.

Ultra Ethernet (ve Hızlandırıcı) Desteği

Kumaş inşa ederken Gartner, BT liderlerine Ultra Ethernet Konsorsiyumu (UEC) ve Ultra Hızlandırıcı Bağlantısı (UAL) özelliklerini destekleme sözü veren donanım sağlayıcılarını düşünmelerini tavsiye ediyor.

UEC, Ethernet’te yüksek performanslı iş yüklerini desteklemek için bir endüstri standardı geliştiriyor. Şubat 2025 itibariyle, önerilen bir standart yoktur, ancak Gartner 2025’in sonundan önce bir teklif beklemektedir. Standart ihtiyaç, tedarikçilerin şu anda AI bağlantısı için gerekli yüksek performanslı ethernet sağlamak için tescilli mekanizmalar kullanmaları gerçeğinden kaynaklanmaktadır.

Uzun vadeli, bu, müşteriler için tek bir tedarikçinin uygulamasına kilitlendiği için birlikte çalışabilirliği azaltır. Tedarikçilerin tutarlı bir UEC standardını doğrulayan yararı, birlikte çalışma yeteneğidir.

Ayrıca, UAL adı verilen raf/raf/satır optimize edilmiş hızlandırıcı bağlantısı için ayrı, ancak ilgili bir standart çabası da vardır. UAL’in amacı, Ethernet ve Infiniband’ın şu anda yapabileceğinin ötesinde ölçeklendirme ağ bant genişliği ihtiyaçlarını ele almayı amaçlayan yüksek hızlı, ölçeklendirme hızlandırıcı ara bağlantı teknolojisini standartlaştırmaktır.

Ortak sertifikalı uygulamalarla riski azaltın

Son olarak, AI iş yükleri için katı performans gereksinimleri nedeniyle, GPU ve ağ anahtarları arasındaki bağlantının donanım ve yazılım perspektifinden optimize edilmesi ve hatasız olması gerekir. Hem ağ hem de GPU teknolojisi ile ilişkili hızlı değişimin hızı göz önüne alındığında, bu giderek daha zor olabilir.

Uygulama zorlukları potansiyelini azaltmak için Gartner, ortak sertifikalı onaylanmış uygulama kılavuzlarını takip etmenizi önerir (Bkz. Kutu: Ağ GPU’larının birlikte sertifikasyonunun avantajları) ağ ve GPU tedarikçileri tarafından. Aşağıdaki ortak sertifikalı tasarımın değeri, her iki tedarikçinin de bu spesifikasyona göre yapılan dağıtımlara dayanması, sonuçta sorun olasılığını azaltması ve bir sorun durumunda ortalama onarım süresini (MTTR) azaltmasıdır.


Bu makale, Veri Merkezi’ndeki AI iş yüklerini desteklemek için Gartner raporunun bir alıntısına, kilit ağ uygulamalarına dayanmaktadır. Andrew Lerner, Gartner’da seçkin bir başkan yardımcısı.



Source link