Yüksek performanslı bilgi işlem (HPC) alanında adını duyuran DDN, ABD fonu Blackstone’dan 300 milyon dolarlık yatırım aldı ve bunun süper bilgi işlemdeki liderliği yapay zekaya (AI) yönelik depolama çözümlerine dönüştürmek için kullanılacağını söylüyor.
Her iki iş yükünü hedefleyen diziler, son derece yüksek performanslı işlemeye ayak uydurabilme açısından benzer olsa da, farklılıklar vardır. HPC iş yükleri, çok büyük miktarda simülasyon verisi üretmek için nispeten az sayıda matematiksel formülasyonun okunmasını içerir.
Yapay zekada ise durum tam tersi. Eğitim sırasında nispeten küçük bir model üretmek veya çıkarım sırasında bir uygulamaya veya insan istemine yanıt oluşturmak için çok büyük miktarda veri okunur.
DDN EXAscaler yapay zekaya uyum sağlıyor
DDN, EXAscaler dizilerini HPC pazarına satıyor. Açık kaynak olan ve ilk olarak yaklaşık yirmi yıl önce piyasaya sürülen Lustre paralel dosya sistemini kullanıyorlar. Bir EXAscaler dizisi, bir tanesinin diğerlerinin içeriğine indeks görevi gören bir dizi disk sürücüsünden oluşur. Hesaplama düğümleri, diğerlerinden hangisinin veri bloklarını okuyup yazacağını bulmak için bu düğümü sorgular ve ardından doğrudan o düğümle iletişim kurar.
İşleme düğümlerinin çalışabilmesi için bir Lustre istemcisi çalıştırması ve tüm depolama düğümleriyle doğrudan bir ağ bağlantısına sahip olması gerekir. Bu genellikle paket kaybı olmayan ve denetleyicinin verileri ana makinedeki rastgele erişim belleğine (RAM) veya geçici olmayan ekspres bellek (NVMe) depolama alanına doğrudan kopyalama olanağına sahip bir Infiniband bağlantısı anlamına gelir.
DDN, bu işlevselliği AI iş yüklerini hedefleyen AI400X2 dizilerine yerleştirmiştir. EXAscaler’dakiyle aynı 2U düğümleri kullanıyorlar ancak Nvidia Ethernet SpectrumX denetleyici kartlarını kullanıyorlar. Bunlar Nvidia’nın BlueField DPU’sunu kullanıyor ve Infiniband’da bulunan aynı faydaları Ethernet ağlarına getiriyor. Yakınsanmış Ethernet (RoCE) üzerinden RDMA kullanımı aynı zamanda verilerin doğrudan Nvidia grafik işlem birimi (GPU) belleğine (GPUdirect kullanılarak) yazılmasıyla paket kaybının yaşanmaması anlamına da gelir.
Eğitim verileri için DDN depolama
AI400X2’nin öncelikli olarak eğitim iş yükleri sırasında GPU’larla mümkün olduğunca hızlı iletişim kurması amaçlanıyor. Ancak bunlar, bir kuruluşun önceden eğitilmiş modellerden depolamak isteyebileceği çok büyük miktarda veriyi depolamak açısından potansiyel olarak çok pahalı bir seçenektir.
Bunun için DDN, 2023’ten bu yana Infinia dizilerine sahiptir. Bunlar, S3 nesne depolamasını kesintiye yol açmadan sürücü ekleme olanağı sağlar.
DNN, S3 depolama işlevlerini meta veri sunucusu, depolama sunucusu vb. gibi kapsayıcılara aktarmıştır. Bu, DDN’nin, hesaplama düğümlerinde belirli S3 kapsayıcıları dağıtıldığında Luster’a benzer Infinia işlevselliğini yeniden üretebileceği anlamına gelir. Infinia dizileri, aktarım hızlarını en üst düzeye çıkarmak için SpectrumX kartlarıyla da donatılabilir.
DNN, yoğun depolamanın nasıl çalıştığını herkesten daha iyi bildiğini iddia ediyor. GPU’lar verileri paralel olarak yazıp ardından verileri hızlı bir şekilde okuduğunda tutarsızlık sorunları ortaya çıkabilir. Denetim noktası oluşturma bunu düzenler, ancak işleme sırasında kaynak tüketen bir işlemdir ve yararlı veriler üretmez. DDN, veri akışlarını dikkatli bir şekilde yöneterek ve önbelleğe alma kullanarak bu tür gecikmeleri önleyebileceğini söylüyor.
DDN, büyük duyurunun geleceğini söylüyor
DDN’nin zaten AI oyununda bir dış görünümü var ve müşterileri arasında 100.000 H100 GPU’lu Colossus adlı bir süper bilgisayar kullanan Elon Musk’un xAI’si de var. Yani yeni 300 milyon doların amacı tam olarak belli değil.
Blackstone muhtemelen kendisini bir dizi yapay zeka odaklı kuruluşta konumlandırıyor ve şu anda DDN yönetim kurulunda bir üyesi var. Geçtiğimiz yıl fon, yapay zeka odaklı hizmet olarak altyapı tedarikçisi CoreWeave’e mali destek teklif etti.
DDN, 20 Şubat’ta önemli bir duyuru vaat ediyor ve bu duyurunun başında şu slogan bulunuyor: “Yapay zekayı gerçeğe dönüştürüyoruz.”