Röportaj: Nvidia’nın AI iş yükü talepleri ve depolama performansı hakkındaki görüşleri


Yapay zeka (AI) iş yükleri, daha önce kurumlarda gördüğümüz iş yüklerinden farklı ve yenidir. Yoğun hesaplama yoğunluklu eğitimden, CPU ve depolama giriş/çıkışını (G/Ç) zar zor gıdıklayan günlük çıkarım ve RAG referansına kadar uzanır.

Bu nedenle, yapay zeka iş yükünün çeşitli türlerinde G/Ç profili ve depolama üzerindeki etkiler önemli ölçüde farklılık gösterebilir.

İki bölümlük serinin bu ikinci bölümünde, Nvidia başkan yardımcısı ve DGX Systems genel müdürü Charlie Boyle ile yapay zekada kontrol noktası gereksinimleri, yapay zeka çalışmalarında verim ve erişim hızı gibi depolama performans belirteçlerinin rolleri ve farklı yapay zeka iş yükleri için gereken depolama nitelikleri hakkında konuşuyoruz.

Yapay zeka projelerinde verilerle ilgili temel zorluklar, yapay zekaya geçiş yapan müşteriler için pratik ipuçları ve eğitim, ince ayar, çıkarım, RAG ve kontrol noktası oluşturma gibi yapay zeka iş yükü türleri arasındaki farklılıklar hakkında ilk makaledeki sohbetin ardından tartışmaya devam ediyoruz.

Antony Adshead: Eğitim modelinin hacmine göre kontrol noktası yazma oranlarında bir standart oran var mı?

Charlie Boyle: Var. Müşterilerle kendi modelleri ve eğitimleri üzerinde etkileşime girdiğimizde, ortalamalarımız var. Çünkü bir modelin boyutunun ve sahip olduğunuz hesaplama öğelerinin sayısının ne kadar sürmesi gerektiğini biliyoruz. Ve sonra müşterilerle risk toleransı hakkında konuşuyoruz.

Araştırmacılarımızın bazıları her saat kontrol noktası yapıyor. Bazıları günde bir kez kontrol noktası yapıyor. Bu, ne beklediklerine ve kontrol noktasının ne kadar zaman aldığına bağlı.

Ve bir kontrol noktasından kurtulmanın da bir zamanı var. Çünkü şöyle diyebilirsiniz, ‘Tamam, günde bir kez kontrol noktası geçiyorum. Ve dördüncü gün ile beşinci gün arasında bir yerde bir sorun yaşadım.’

Altıncı güne kadar bir sorun olduğunu bilmiyor olabilirsiniz çünkü iş ölmedi, ancak sonuçlara bakıyorsunuz ve bir şeyler garip. Ve bu yüzden aslında o noktaya birkaç gün geri gitmeniz gerekiyor.

Sonra, ‘Bir sorun olduğunu ne kadar çabuk fark ederim ve bir kontrol noktasında ne kadar geriye gitmek isterim?’ sorusu ortaya çıkıyor. Ancak verilerimiz var çünkü bu büyük eğitim koşularını yapıyoruz – birkaç dakika süren bir eğitim koşusundan neredeyse bir yıl süren bir şeye kadar her şey.

Tüm bu verilere sahibiz ve müşterilerin doğru dengeyi bulmalarına yardımcı olabiliriz. Depolama ortaklarımızla birlikte yazmayı yürütmenin yollarını bulmak için üzerinde çalıştığımız, ancak G/Ç depolama sistemlerine geri dağıtılırken hesaplamayı çalıştırmaya devam etmek için de üzerinde çalıştığımız yeni teknolojiler var. Bu alanda çok sayıda yeni teknoloji var.

Adshead: Eğitimden bahsettik ve hızlı depolamaya ihtiyaç duyduğunuzdan bahsettiniz. Hızın yanında verimin rolü nedir?

Boyle: Yani eğitim tarafındaki verim ve hız sıkı bir şekilde ilişkilidir çünkü hızlı bir şekilde yükleme yapabilmeniz gerekir. Verim ve genel okuma performansı bizim için hemen hemen aynı ölçüttür.

Ayrıca, ne yapmaya çalıştığınıza bağlı olarak birikebilen gecikme de vardır. Veri depomdan bir öğeyi almam gerekirse, gecikmem tam olarak budur.

Ancak modern AI ile, özellikle RAG ile, bir modele bir soru soruyorsanız ve o sorunuzu anlıyorsa ancak soruyu cevaplamak için doğal olarak veriye sahip değilse, onu almak zorundadır. Soru hava durumu veya borsa fiyatı veya başka bir şey olabilir. Yani, bir borsa fiyatına nasıl cevap vereceğini bilir ve borsa fiyatının gerçek kaynağının SEC verileri veya NASDAQ olduğunu bilir. Ancak kurumsal anlamda, Las Vegas teknik destek ofisinin telefon numarası olabilir.

Bu çok hızlı bir işlem olmalı. Ancak bu veri parçası bir belgede mi? Bir web sitesinde mi? Bir veri hücresi olarak mı saklanıyor?

Pat diye, süper hızlı ve süper düşük gecikmeyle gidebilmeli. Ancak daha karmaşık bir cevapsa, gecikme yığılır çünkü o belgeyi almak, belgeyi ayrıştırmak ve sonra geri göndermek zorundadır. Bu küçük bir bilgi parçasıdır, ancak yüksek bir gecikmeye sahip olabilir. Orada iki veya üç katmanlı gecikme olabilir.

Bu yüzden GenAI için gecikme parçası gerçekten ondan beklediğiniz şeydir. Çok karmaşık bir soru soruyorum ve bunun için bir saniye beklemek benim için sorun değil mi? Basit olması gerektiğini düşündüğüm bir şey mi soruyorum? Çok uzun beklersem, AI modelinin çalışıp çalışmadığını merak ediyorum? Yenilemem gerekiyor mu? Bu tür şeyler.

Ve gecikmeyle ilgili olarak, aradığınız AI modudur. Sesimle bir soru sorarsam ve sesli bir yanıt beklersem, sesimi yorumlaması, bunu metne dönüştürmesi, bunu bir sorguya dönüştürmesi, bilgiyi bulması, bu bilgiyi tekrar metne dönüştürmesi ve bana metinden sese okuma yapması gerekir. Kısa bir cevapsa, örneğin, ‘Vegas’ta sıcaklık kaç?’, yarım saniye bile beklemek istemiyorum.

Ama eğer birkaç cümle beklediğim daha karmaşık bir soru sorsaydım, benimle konuşmaya başlaması için yarım saniye beklemeye razı olabilirdim. Ve sonra gecikmemin, metinden konuşmaya yeterli metin gönderip göndermediğine ve bunun doğal bir cevap gibi duyulup duyulmayacağına dair bir soru ortaya çıkar.

Adshead: Eğitim ve çıkarım arasında depolama G/Ç açısından ne gibi farklar var?

Boyle: Yeni bir depolama sistemi oluşturuyorsanız, bunlar birbirine çok benzer. Bir AI eğitim sistemi oluşturuyorsanız, modern bir hızlı depolama aygıtına veya bir sisteme ihtiyacınız vardır. Yüksek verimliliğe, düşük gecikmeye, yüksek enerji verimliliğine ihtiyacınız vardır.

Çıkarım tarafında, çıkarımın ilk kısmı için aynı yapıya ihtiyacınız var. Ancak, bu bilgi parçasını alabilmek için kurumsal veri depolarınıza hızlı bir şekilde bağlandığınızdan da emin olmanız gerekir.

Peki, bu depolama yeterince hızlı mı? Ve en önemlisi, bu depolama yeterince hızlı bağlanıyor mu? Çünkü bu depolama en yakın BT sistemine çok hızlı bir şekilde bağlanabilir, ancak bu farklı bir veri merkezinde, çıkarım sistemimden farklı bir colo’da olabilir.

Bir müşteri, ‘Burada en hızlı depolama alanına sahibim ve AI sistemim için en hızlı depolama alanını satın aldım’ diyebilir. Sonra iki farklı binada olduklarını ve BT’nin aralarında Exchange ve diğer her şeyi yapan tek gigabaytlık bir boru hattı olduğunu fark ederler.

Yani, ağ, mühendislik yaptığınızdan ve gerçekten bilgiye erişebildiğinizden emin olmak için depolama kadar önemlidir. Ve bu, veri hareketi, veri kopyalama, yeni teknolojilere yatırım yapmak anlamına gelebilir, ancak aynı zamanda ağınızın orada olduğundan emin olmak için yatırım yapmak anlamına da gelebilir.



Source link