Podcast: Yapay zeka ve veri depolama üzerindeki etkisi


Bu podcast’te, Pure Storage’ın müşteri mühendisliğinde Ar-Ge’den sorumlu başkan yardımcısı Shawn Rosemarin ile yapay zeka (AI) işlemenin veri depolama üzerindeki etkisine bakıyoruz.

Yapay zekanın kurumsal verileri işletme için nasıl hayati bir içgörü kaynağına dönüştürdüğünün yanı sıra yapay zeka operasyonlarının karmaşıklığında karşılaşılan zorluklardan, veri taşınabilirliği ihtiyacından, hızlı depolama erişiminden ve kapasiteyi buluta genişletme yeteneğinden de bahsediyoruz.

Rosemarin ayrıca yapay zekada bulunan vektörler ve kontrol noktaları gibi belirli veri türlerinden ve yoğun, hızlı, sürdürülebilir ve yönetimi kolay veri depolama altyapısı ihtiyacından da bahsediyor.

Antony Adshead: Yapay zeka iş yüklerinin farkı nedir?

Shawn Rosemarin: Bence bunun en ilginç kısmı, her şeyden önce yapay zekayı bir sonraki analitik yinelemeyle uyumlu hale getirelim.

İş zekasını gördük. Analizleri gördük. Modern analitik dediğimiz şeyi gördük. Şimdi yapay zekayı görüyoruz.

Farklı olan şu ki, artık bir veri külliyatına bakıyoruz, sadece ChatGPT’de baktığımız gibi genel bir külliyata değil, aynı zamanda her kuruluş içindeki bireysel veri külliyatları aslında artık bu modellerde toplanan altın haline geliyor; artık tüm bu modelleri eğiten kütüphaneler.

Ve temsil edilen veri hacmini düşündüğünüzde, bu bir unsurdur. Diğer bir şey ise, artık tüm bu hacimdeki verileri gerçekten almanın ve onlardan öğrenebilmenin performans unsurunu düşünmeniz gerektiğidir.

Daha sonra şöyle diyen başka bir öğeniz var: ‘Tüm bu veri kaynaklarını, yalnızca şirket içinde duran veriler, bulutta duran veriler, oluşturduğum veriler değil, kuruluşumun tüm farklı silolarına entegre etmem gerekiyor. SaaS’ta duran verileri üçüncü taraf kaynaklardan satın alıyorum [software as a service]’.

Ve son olarak şunu söyleyebilirim ki bunda çok büyük bir insan unsuru var. Bu yeni bir teknolojidir. Zamanın bu özel noktasında oldukça karmaşık, her ne kadar hepimiz bunun standartlaştırılacağına ve personel gerektireceğine inansak da, çoğu kuruluşun parmaklarının ucunda olmayan beceriler gerektirecek.

Yapay zeka iş yükleriyle başa çıkmak için depolamanın neye ihtiyacı var?

Biberiye: Günün sonunda depolamanın evrimini düşündüğümüzde birkaç şey gördük.

Her şeyden önce, sanırım bu noktada herkesin aklında, sabit disklerin büyük ölçüde dodo’nun yolunda gittiğine şüphe yok. Ve güvenilirlik nedenlerinden, performans nedenlerinden ve en sonunda çevre ekonomisi nedenlerinden dolayı tamamen flaşa geçiyoruz.

Ancak depolamayı düşündüğümüzde, yapay zekanın önündeki en büyük engel aslında depolamayı başka yere taşımaktır. Belirli yüksek performanslı iş yüklerini karşılamak için depolama bloklarını alıp bunları taşıyor.

Gerçekten istediğimiz şey, yalnızca bilgi toplamak için değil, aynı zamanda eğitim ve bu eğitimin pazarda yorumlanması için de kullanılabilecek merkezi bir depolama mimarisidir.

Sonuçta sizinle aç GPU’ları doyuracak performanstan bahsediyorum. Gecikmeden bahsediyoruz, böylece çıkarım modellerini çalıştırırken tüketicilerimiz yanıtları beklemeden olabildiğince çabuk alıyorlar. Kapasite ve ölçekten bahsediyoruz. Kesintisiz yükseltmelerden ve genişletmelerden bahsediyoruz.

İhtiyaçlarımız değiştikçe ve bu hizmetler kullanıcılarımız için daha önemli hale geldikçe, sırf ek depolama alanı ekleyebilmek için ortamı çökertmemize gerek yok.

Son fakat bir o kadar da önemlisi, bulut tüketimi unsuru olacaktır: bu hacimleri kolayca buluta genişletme yeteneği. Bu eğitimi veya çıkarımı bulutta yapmak istiyorsak ve ardından bunları açıkça bir hizmet olarak tüketmek istiyorsak, bu büyük Sermaye Harcamaları enjeksiyonlarından uzaklaşıp bunun yerine ihtiyacımız olan depolamayı ihtiyacımız olduğu kadar ve tamamen %100 tüketmeyi hedefliyoruz. hizmet seviyesi anlaşmaları ve hizmet olarak.

Vektörlerin kullanımı, kontrol noktaları veya TensorFlow ve PyTorch gibi yapay zekada kullanılan çerçeveler gibi verilerin yapay zeka için tutulma yöntemleri hakkında, verileri yapay zeka için depoda nasıl tutmamız gerektiğini belirleyen herhangi bir şey var mı?

Biberiye: Evet, kesinlikle öyle, özellikle de depolamanın tarihsel olarak ilişkisel veritabanlarında veya veri korumada kullanılma şekliyle karşılaştırırsak.

Vektör veritabanlarını düşündüğünüzde, tüm AI çerçevelerini düşündüğünüzde ve bu veri kümelerinin GPU’lara nasıl beslendiğini düşündüğünüzde, size bir benzetme yapmama izin verin.

Esasen, işletmelerin ve bulutların yaptığı bu çok pahalı yatırımlar olan GPU’ları düşünürseniz, onları doktora öğrencileri olarak düşünün. Onları çevrenizde çalışan çok pahalı, çok yetenekli, çok akıllı insanlar olarak düşünün. Yapmak istediğiniz şey, onların her zaman yapacak bir şeyleri olmasını sağlamak ve daha da önemlisi, onlar işlerini tamamladıklarında, o işi toplamak ve bir sonraki iş hacmini onlara getirdiğinizden emin olmak için orada olmanızdır.

Yapay zeka dünyasında vektör veritabanları ve kontrol noktaları kavramını duyacaksınız. Bunun esas anlamı şudur: ‘İlişkisel veritabanından vektör veritabanına geçiyorum’. Ve aslında, bilgilerim sorgulanırken birden fazla dinamik üzerinden sorgulanıyor.

Biz bunlara parametreler diyoruz ama aslında verilere her açıdan bakıyoruz. GPU’lar da depolamaya neye baktıklarını ve kendi iş yüklerinin neresinde olduklarını söylüyor.

Depolama üzerindeki etkisi, önemli ölçüde daha fazla yazmaya zorlamasıdır. Okuma ve yazma işlemlerini düşündüğünüzde, bunlar performans profili açısından çok önemlidir. Özellikle yazılanları düşündüğünüzde bunlar çok küçük yazılar. Bunlar aslında işlerinde nerede olduklarını gösteren yer imleridir.

Ve bu aslında çoğu kişinin alışık olduğundan çok farklı bir performans profilini zorunlu kılıyor. Özellikle eğitimde dikkate aldığımız şeyler için yeni performans profilleri oluşturuyor.

Çıkarımın tamamı gecikme ve eğitimle ilgilidir. Her şey GİB’lerle ilgili. Ancak sorunuzu çok spesifik bir şekilde yanıtlamak gerekirse, bu, geleneksel olarak baktığımız değerlerden çok daha yüksek bir yazma oranını zorunlu kılıyor. Ve izleyicilerinize, bir eğitim ortamında %80 yazma, %20 okuma oranına bakmanın, geleneksel olarak 50/50 oranına baktığımız yerden çok daha uygun olduğunu öneririm.

Yapay zekanın kullanımı arttıkça kurumsal depolamanın beş yıl içinde nasıl görüneceğini düşünüyorsunuz?

Biberiye: Depolamayı biraz arabanızdaki lastikler gibi düşünmeyi seviyorum.

Şu anda herkes arabasının şasisine odaklanmış durumda. GPU’lara ve performansa, ne kadar hızlı gidebileceklerine ve neler sunabileceklerine çok odaklanıyorlar.

Ancak gerçek şu ki, tüm bunların gerçek değeri, madencilik yaptığınız verilerdir; bu verilerin kalitesi, bu eğitim modellerinde bu verilerin size gerçekten bir avantaj sağlayacak şekilde kullanılması – ister kişiselleştirme ve pazarlama olsun, ister yüksek frekanslı ticaret, ister bankaysanız veya müşterinizi tanıyor olun, ister hasta bakımı olsun, bir sağlık tesisi.

Depolamanın geleceğine baktığımızda, depolamanın bu yapay zeka projelerinin nihai değerini artırmada kesinlikle kritik öneme sahip olduğunun tanınacağını ve kabul edileceğini düşünüyorum.

Açıkça gördüğümüz şeyin giderek daha yoğun depolama dizileri olduğunu düşünüyorum. Pure’da bunu zaten pazarlamaya kararlıyız. 2026 yılına kadar 300TB disklerimiz olacak. Sanırım ticari katı hal disk endüstrisinin bunun önemli ölçüde arkasında olduğunu görüyoruz. Sanırım aynı zaman çerçevesinde yaklaşık 100 TB’yi hedefliyorlar, ancak giderek daha yoğun diskler görmeye devam edeceğimizi düşünüyorum.

Bu yoğunluğa paralel olarak enerji tüketiminin giderek azaldığını da göreceğimizi düşünüyorum. Hiç şüphe yok ki enerji ve enerjiye erişim, yapay zekanın geliştirilmesinde sessiz katildir; bu nedenle, daha fazla bilgi işlem gerçekleştirmek için daha az enerji tüketebileceğimiz bir noktaya ulaşmak çok önemli olacaktır.

Son olarak, otonom depolamanın bu noktasına geleceğim. Günlük operasyonlara, yükseltmelere, genişletmelere, depolama ayarlamalarına gittikçe daha az enerji (insan enerjisi, insan gücü) koymak, şirketlerin aslında insan enerjilerini inşaata odaklamalarına olanak sağlamak için istediği şeydir. yarının sistemlerini çıkarıyoruz.

Yani düşündüğünüzde aslında: yoğunluk, enerji verimliliği ve basitlik.

Daha sonra, pazarda gigabayt başına TB başına maliyetin düştüğünü görmeye devam edeceğinizi düşünüyorum; bu, depolamanın gittikçe daha fazla tüketiciye sunulmasına ve kuruluşların aslında aynı miktarda veriyi giderek daha fazla aydınlatmasına olanak tanıyacak. yatırım.



Source link