Google, bulut yapay zeka eğitiminde Parallelstore dosya depolamayı başlattı


Google Cloud Platform (GCP), yapay zeka (AI) uygulamaları için yoğun giriş/çıkış (I/O) hedefleyen ve açık kaynak tabanlı ancak Intel tarafından geliştirilen Parallelstore yönetilen paralel dosya depolama hizmetini hayata geçirdi – Dağıtılmış Eşzamansız Nesne Depolama (DAOS) mimarisi. Intel başlangıçta DAOS’un Optane kalıcı belleği tarafından desteklenmesini amaçlamıştı ancak bu alt marka artık geçersiz.

Özel önizlemede olan DAOS, kalıcı bellekteki bir meta veri deposu tarafından desteklenen çok sayıda depolama düğümüne dağıtılan paralel bir dosya sisteminden oluşur. Yapay zeka uygulamaları geliştiren müşteriler için mümkün olan en az gecikmeyle paralel erişime izin vermek için tüm dosyaları maksimum sayıda düğüme kopyalar.

Depolama sınıfı bellek teknolojisi alanının bir parçasını oluşturan Optane kalıcı belleğin sona ermesine rağmen, DAOS hâlâ bazı Intel fikri mülkiyetlerine dayanmaktadır.

Bunlar arasında Infiniband’a benzeyen ve bilgi işlem düğümlerinde Intel kartları aracılığıyla dağıtılan iletişim protokolü Intel Omnipath yer alıyor. Bunlar, okuma/yazma işlemleri sırasında bir dosyanın konumunu bulmak için meta veri sunucularını sorgular ve ardından Yakınsanmış Ethernet (RoCE) üzerinden RDMA aracılığıyla blok modunda düğümle iletişim kurar.

Sunucu bant genişliğini doyurun

“Bu verimli veri dağıtımı, GPU’lara sağlanan verimi en üst düzeye çıkarıyor [graphics processing units] ve TPU’lar [tensor processing units]GCP ürün direktörü Barak Epstein bir blog yazısında şunları söyledi: “Yapay zeka iş yükü maliyetlerini optimize etmek için kritik bir faktör. “Parallelstore ayrıca binlerce VM’ye sürekli okuma/yazma erişimi sağlayabilir [virtual machines]GPU’lar ve TPU’lar, orta düzeyden devasaya kadar yapay zeka ve yüksek performanslı bilgi işlem iş yükü gereksinimlerini karşılıyor.”

Maksimum 100 TB (terabayt) Parallelstore dağıtımı için verimin yaklaşık 115 GBps’ye, üç milyon okuma IOPS’sine, bir milyon yazma IOPS’sine ve yaklaşık 0,3 milisaniyelik minimum gecikmeye ölçeklenebileceğini ekledi.

Epstein, “Bu, Parallelstore’un aynı zamanda küçük dosyalar ve çok sayıda istemciye rastgele, dağıtılmış erişim için de iyi bir platform olduğu anlamına geliyor” dedi.

Epstein’a göre yapay zeka modeli eğitim süreleri, diğer makine öğrenimi veri yükleyicilerine kıyasla neredeyse dört kat hızlandırılabilir.

GCP’nin fikri, müşterilerin verilerini öncelikle sanal makineler aracılığıyla GCP’deki ve hizmet olarak yazılım uygulamalarındaki tüm kullanım durumları için kullanılabilecek Google Bulut Depolama’ya koymasıdır. Sürecin bu kısmı, müşterinin tüm verileri arasından Parallelstore aracılığıyla yapay zeka işlemeye uygun verileri seçmesine olanak tanıyacak. GCP, bu konuda yardımcı olmak amacıyla müşterilerin verilerini değerlendirmesine yardımcı olmak amacıyla Gemini AI teklifinin bir parçası olan Storage Insights Veri Kümesi hizmetini sunuyor.

Veriler eğitim verisi olarak seçildiğinde Parallelstore’a aktarımı 20 GBps hızında gerçekleşebilir. Dosyalar küçükse (örneğin 32 MB’tan küçükse) saniyede 5.000 dosyalık bir aktarım hızına ulaşmak mümkündür.

GCP tarafından hedeflenen yapay zeka eğitimi kullanım örneklerinin ötesinde, Parallelstore’a, özel CSI sürücüleri aracılığıyla Kubernetes kümeleri tarafından da (GCP’nin Google Container Engine (GKE) aracılığıyla) erişilebilecek. Uygulamada yöneticiler Parallelstore birimini GKE’ye bağlı diğer depolama birimleri gibi yönetebilecek.

DAOS, verileri ve kontrol düzlemlerini ayıran, aynı zamanda G/Ç meta verilerini ayıran ve iş yüklerini toplu depolamadan indeksleyen açık kaynaklı bir çaba nesne depolama sistemidir.

DAOS, meta verileri hızlı, kalıcı bellekte ve toplu verileri geçici olmayan hızlı bellek (NVMe) katı hal sürücülerinde (SSD’ler) depolar. Intel’e göre DAOS okuma/yazma G/Ç performansı, artan sayıda istemci G/Ç isteğiyle (yaklaşık 32 ila 64 uzak istemciye) neredeyse doğrusal olarak ölçeklenerek bulut ve diğer paylaşılan ortamlara çok uygun hale geliyor.



Source link