Özellikle büyük dil modelleri (LLMS) ve üretken AI (Genai) için AI projelerini alan işletmelerin, model eğitimi için büyük miktarlarda veri yakalaması ve AI özellikli sistemlerden çıktıları saklaması gerekmektedir.
Bununla birlikte, bu verilerin tek bir sistemde veya konumda olması pek olası değildir. Müşteriler, veritabanlarındaki yapılandırılmış veriler ve genellikle yapılandırılmamış veriler de dahil olmak üzere birden fazla veri kaynağından yararlanacaktır. Bu bilgi kaynaklarından bazıları şirket içi ve diğerleri bulutta olacaktır.
AI’nın veri açlığıyla başa çıkmak için sistem mimarlarının depolama alanı ağları (SAN), ağ ekli depolama (NAS) ve potansiyel olarak nesne depolama alanında depolamaya bakmaları gerekir.
Bu makalede, AI projeleri için blok, dosya ve nesne depolama alanlarının artılarına ve eksilere ve kuruluşlar için doğru karışımı bulma zorluklarına bakıyoruz.
AI’s Veri Dağı
Mevcut AI projelerinin nesli nesli, tek bir veri kaynağı ile karakterize edilir. Bunun yerine, üretken AI modelleri, çoğu yapılandırılmamış çok çeşitli verilerden yararlanmaktadır. Bu, birkaçını isimlendirmek için belgeler, resimler, ses ve video ve bilgisayar kodu dahildir.
Üretken AI ile ilgili her şey ilişkileri anlamakla ilgilidir. Kaynak verileri hala yapılandırılmamış verilerinizde, dosya veya nesne ve vektörsüz verileriniz blokta oturan verileriniz var
Patrick Smith, Saf Depolama
Eğitim LLM’leri söz konusu olduğunda, ne kadar çok veri kaynağı o kadar iyi. Ancak, aynı zamanda işletmeler, sonuçların doğruluğunu ve alaka düzeyini artıran doğrudan veya geri alma artırılmış üretim (RAG) yoluyla kendi veri kaynaklarına bağlanır. Bu veriler belgeler olabilir, ancak verileri ilişkisel bir veritabanında tutan kurumsal uygulamaları içerebilir.
Depolama Tedarikçisi Pure Storage EMEA Saha Baş Teknoloji Sorumlusu EMEA Patrick Smith, “Birçok AI yapılandırılmamış veriler tarafından yönlendiriliyor, bu nedenle uygulamalar dosyalara, görüntülere, videolara, sese işaret ediyor – tüm yapılandırılmamış veriler” diyor. “Ancak insanlar da üretim veri kümelerine bakıyor ve bunları üretken AI projelerine bağlamak istiyorlar.”
Bu, Oracle gibi ana ilişkisel veritabanı tedarikçileri tarafından yaygın olarak desteklenen veritabanlarına vektörleştirme eklemeyi ekliyor.
Nas ve San
Yapay zeka projelerini destekleyen sistem mimarları için bu, en iyi veri depolanacağı sorusunu gündeme getirir. En basit seçenek, veri kaynaklarını olduğu gibi bırakmak olacaktır, ancak bu her zaman mümkün değildir.
Bunun nedeni, verilerin daha fazla işlemeye ihtiyacı olması, AI uygulamasının üretim sistemlerinden izole edilmesi veya mevcut depolama sistemlerinin AI uygulamasının gerektirdiği verimden yoksun olması olabilir.
Buna ek olarak, vektörleştirme genellikle veri hacimlerinde büyük artışlara yol açar – 10 kat artış tipik değildir – ve bu, üretim depolamasına daha fazla taleptir.
Bu, depolamanın esnek olması gerektiği ve ölçeklendirebilmesi gerektiği anlamına gelir ve AI proje veri işleme gereksinimleri her aşamada farklıdır. Eğitim büyük hacimlerde ham veri gerektirir, çıkarım – modeli üretimde çalıştırmak – çok fazla veri gerektirmeyebilir, ancak daha yüksek verim ve minimum gecikme gerektirebilir.
İşletmeler, yapılandırılmamış verilerinin büyük kısmını dosya erişim NAS depolamasında tutma eğilimindedir. NAS, doğrudan bağlı depolama (DAS) veya Block Access SAN depolama gibi alternatiflerden daha düşük maliyetli ve yönetilmesi daha kolay olmanın avantajlarına sahiptir.
Yapılandırılmış verilerin blok depolama olması daha olasıdır. Genellikle bir SAN üzerinde olacaktır, ancak doğrudan ekli depolama daha küçük AI projeleri için yeterli olabilir.
Burada, en iyi performansı elde etmek – depolama dizisinden IOPS ve verim açısından – NAS’ın daha büyük karmaşıklığını dengeler. Kurumsal Kaynak Planlaması (ERP) ve Müşteri İlişkileri Yönetimi (CRM) gibi kurumsal üretim sistemleri, verilerini veritabanı dosyalarında saklamak için SAN veya DAS’ı kullanacaktır. Dolayısıyla, pratikte, AI verilerinin SAN ve NAS ortamlarından veri çekilmesi muhtemeldir.
Stormagic’in baş ürün sorumlusu Bruce Kornfeld, “AI verileri NAS veya SAN’da saklanabilir. Her şey AI araçlarının verilere erişmek istediği veya ihtiyaç duyduğu yolla ilgili” diyor. “AI verilerini bir SAN üzerinde saklayabilirsiniz, ancak AI araçları genellikle blokları okumaz. Blok verilerine ulaşmak için bir tür dosya erişim protokolü kullanırlar.”
Bir protokolün diğerinden daha iyi olması gerekmez. Çok fazla veri kaynaklarının doğasına ve AI sisteminin çıktısına bağlıdır.
Öncelikle belge veya görüntü tabanlı bir AI sistemi için NAS yeterince hızlı olabilir. Otonom sürüş veya gözetim gibi bir uygulama için sistemler SAN veya hatta yüksek hızlı yerel depolama kullanabilir.
Yine, veri mimarlarının projelerinin eğitim ve çıkarım aşamaları arasında ayrım yapması ve depolama sistemleri arasındaki hareket yükünün performans avantajlarından, özellikle eğitimde, performans avantajlarından daha ağır olup olmadığını düşünmesi gerekecektir.
Nesne Depolama Girin
Bu, bazı kuruluşların AI için veri kaynaklarını birleştirmenin bir yolu olarak nesne depolamasına bakmasına neden olmuştur. Nesne depolama, sadece bulut depolama alanında değil, işletmelerle gittikçe daha fazla kullanılıyor-şirket içi nesne mağazaları da pazar payı kazanıyor.
Nesnenin yapay zeka için bazı avantajları vardır, en azından düz yapısı ve küresel isim alanı, (nispeten) düşük yönetim genel giderleri, genişleme kolaylığı ve düşük maliyetlidir.
Ancak performans, nesne depolama için bir güç olmamıştır. Bu, arşivleme gibi görevlere düşük gecikme ve yüksek veri verimi seviyeleri talep eden uygulamalardan daha uygun hale getirme eğilimindedir.
Ancak tedarikçiler performans boşluğunu kapatmak için çalışıyorlar. Saf depolama ve netApp, dosya ve nesneyi işleyebilen depolama sistemleri ve bazı durumlarda da blok satar. Bunlar arasında Pure’s FlashBlade ve NetApp’ın OnTAP depolama işletim sistemini çalıştıran donanım bulunur. Bu teknolojiler, depolama yöneticilerine belirli donanıma bağlı silolar oluşturmadan en iyi veri formatlarını kullanma esnekliği verir.
Hammerspace gibi diğerleri, hiperscale NAS ile, ağ dosya sistemini (NFS) çalıştıran ekipmandan ek performansı sıkmayı amaçlamaktadır. Bu, depolamanın veri aç grafik işleme birimlerine (GPU) ayak uyduramadığı darboğazları önlediğini savunuyorlar.
Tüm kutuları işaretlemek
Ancak daha iyi performans gösteren nesne depolama sistemleri daha yaygın olarak kullanılabilir hale gelene veya daha fazla işletme evrensel depolama platformlarına taşınana kadar, AI’nın NAS, SAN, nesne ve hatta DAS’ı kombinasyon halinde kullanması muhtemeldir.
Bununla birlikte, unsurlar arasındaki dengenin bir AI projesinin ömrü boyunca değişmesi muhtemeldir ve AI araçları ve uygulamaları geliştikçe.
Pure’da Smith, yapılandırılmamış veriler için yeni donanım talepleri görürken, mevcut donanımdaki çoğu müşteri için blok ve vektör veritabanı gereksinimleri karşılanıyor.
“Üretken AI ile ilgili her şey ilişkileri anlamakla ilgili” diyor. “Kaynak verileri hala yapılandırılmamış verilerinizde, dosya veya nesne ve vektörleştirilmiş verileriniz blokta oturur.”