Cern: GPU veri merkezi yönetiminin zorlukları


Mart ayının başlarında, Avrupa'nın nükleer araştırma kuruluşu Cern, Paris'teki KubeCon ve CloudNativeCon etkinliğinde Cloud Native Computing Foundation (CNCF) En İyi Son Kullanıcı Ödülü'ne layık görüldü.

Cern, şirket içi ortamlarda grafik işlem birimlerinin (GPU'lar) etkili bir şekilde nasıl yönetilebileceğini araştıran önemli bir Kubernetes kullanıcısıdır.

GPU'lar, yapay zeka (AI) iş yüklerini çalıştırmak için fiili standart haline geldi. CNCF, Bulutta Yerel Yapay Zeka çalışma grubunu başlatmak için Paris konferansını kullandı. Bulut tabanlı bilişimde meydana gelen gelişmeler arasında Kubernetes Zamanlayıcı'nın GPU paylaşımını entegre edecek ve destekleyecek şekilde gelişmesi de yer alıyor.

GPU'ların sunduğu emtia donanımı ve sürekli artan performans iyileştirmeleri, Cern parçacık hızlandırıcı laboratuvarında çalışan kişilerin, makine öğrenimini çalıştırmak için GPU'larla desteklenen ticari donanım kullanmanın uygulanabilirliğini değerlendirdiği anlamına geliyor. Bunlar, hızlandırıcının dedektörlerinde kullanılan özel donanımın yerini alabilecek kapasitededir.

Etkinlikte delegelere seslenen Cern bilgi işlem mühendisi Ricardo Rocha şunları söyledi: “Kaç kişinin şirket içi altyapı çalıştırdığını veya yalnızca harici bulut sağlayıcılarına güvendiğini bilmiyorum, ancak karşılaştığımız ilk zorluk, donanım kullanım modelinin değişmesidir. geleneksel CPU'dan çok farklı [central processing unit] iş yükleri.”

Tecrübesine göre, GPU'ları kullanırken veri merkezi gücü ve soğutma gereksinimleri önemli ölçüde artıyor. Aslında Cern'de bu yeni iş yüklerini çalıştırmak için BT altyapısı talep eden kişiler, GPU kümelerini birbirine bağlamak için Infiniband gibi hızlı ağ ara bağlantılarına duyulan ihtiyaç gibi geleneksel olarak HPC ile ilişkilendirilen bilgi işlem kaynaklarını da kullanıyor.

Rocha, GPU kullanma fırsatının, Cern'in donanım ömrünü beş yıldan sekiz yıla çıkardığı bir zamanda ortaya çıktığını söyledi. “İnsanlar yeni ve şık GPU'lara sahip olmak istiyor ancak bizim açımızdan bunlar son derece pahalı” dedi. “İnsanlar çok daha hızlı bir geri dönüş isterken, biz bunların daha uzun süre dayanmasını istiyoruz çünkü genel bulut sağlayıcıları onlara bunu sağlıyor.” Bu, Cern'deki BT ekibinin, daha gelişmiş kullanım senaryolarını desteklerken aynı zamanda dahili altyapının en iyisini sunmakla görevlendirildiği anlamına gelir.

Sunumu sırasında Rocha, yapay zekayı demokratikleştirmek ve araştırmacılara Cern'in sahip olduğu GPU kaynaklarına erişme yeteneği sunmak için bir platform sağlama ihtiyacını tartıştı.

Farklı GPU iş yükü türlerini ve kullanım kalıplarını anlamanın öneminden bahsetti. Bazıları etkileşimlidir ve genellikle daha düşük hesaplama gücü ve GPU kullanımı gerektirir; diğerleri ise çok daha öngörülebilirdir ve toplu modda çalışır. Rocha ayrıca, bu öngörülebilir iş yüklerini yönetmenin, mevcut BT kaynaklarından en iyi şekilde yararlanmak için sıraya alma ve planlama gibi HPC'nin en iyi uygulamalarından yararlandığını söyledi.

“GPU'ları eklediğinizde [into the datacentre]asıl ders destekleyebileceğiniz altyapı açısından mümkün olduğunca esnek kalmaktır” dedi.

Bu, birden fazla kümeyi ve hibrit iş yükünü çalıştırma yeteneğinin geliştirilmesi anlamına gelir. Rocha, “GPU'ları ele geçirebiliyorsanız, bunları dış kaynaklara aktararak tamamlayın” dedi. “Bu gerçekten önemli ve başlangıçta verilmesi gereken bir tasarım kararı.”



Source link