Yapay Zeka (AI) iş yüklerini başarıyla ele almak sadece hesaplama ve depolama kaynaklarını atmakla ilgili değildir. Elbette, verileri doğru oranda sağlamak için yeterli işlem gücüne ve depolamaya ihtiyacınız var, ancak bu tür işlemler başarıya ulaşmadan önce, AI eğitiminde kullanılan verilerin kalitesini sağlamak önemlidir.
Bu, geçen hafta şirketin Las Vegas’taki Hızlanma Etkinliğinde yakaladığımız Pure Storage’daki AI Altyapı Başkan Yardımcısı PAR Botes’in temel mesajı bu.
Botes, verileri yakalamak, organize etmek, hazırlamak ve hizalamak için AI ile mücadele eden işletmelerin ihtiyacını vurguladı. Bunun nedeni, verilerin genellikle AI’nın cevaplamaya çalıştığı sorular için eksik veya uygunsuz olabileceği içindir.
Botes ile veri mühendisliği, veri yönetimi, veri lakehouslarının kullanımı ve veri kümelerinin AI tarafından ele alınma ihtiyacına uygun olduğundan emin olmak hakkında konuştuk.
Pure Storage, AI’da yaklaşan veya ortaya çıkan önemli depolama zorlukları olarak ne görüyor?
Verileri düzenlemenin, veri yakalamanın, ardından hazırlamanın ve işleme öğelerine, GPU’lara hizalamanın gerçekten iyi bir yoluna sahip olmadan AI kullanarak sorunları çözen sistemler oluşturmak zor olduğunu düşünüyorum. [graphics processing units]verilere yeterince hızlı erişmelerini sağlar.
Özellikle bu zorlukları zorlaştıran nedir?
En belirgin olanla başlayacağım: GPU’ların verileri tüketmesini nasıl sağlayabilirim? GPU’lar inanılmaz derecede güçlü ve muazzam miktarda bant genişliği kullanıyorlar.
GPU’ları tükettiğimiz hızda verilerle beslemek zor. Bu, özellikle üst düzeyde giderek daha fazla çözülmeye başlıyor. Ancak düzenli bir işletme türü için, bunlar yeni sistem türleri ve uygulamaları gereken yeni beceri türleridir.
“Verileriniz geliştikçe, anlayışlarınız değiştikçe, verileriniz bununla değişmelidir. Bu nedenle, modeliniz bununla gelişmelidir. Bu sürekli bir süreç haline gelir”
Kutularla, saf depolama
Bilim tarafında zor bir sorun değil, operasyonlarda zor bir sorun, çünkü bunlar uzun zamandır girişimde var olan kaslar değil.
Bu sorunun bir sonraki kısmı: Verilerimi nasıl hazırlarım? Nasıl toplanırım? Doğru verilere sahip olduğumu nasıl bilebilirim? Nasıl değerlendiririm? Nasıl izlerim? Bu modelin bu veri kümesiyle eğitildiğini görmek için ona nasıl soy uygulayabilirim? Tam bir veri kümesi olduğunu nasıl bilebilirim? Bu çok zor bir sorun.
Bu, müşteri ve iş yükü arasında değişen bir sorun mu? Çünkü, sadece bir kuruluşta bulunan uzmanlığın, ihtiyacınız olan tüm verilere sahip olduğunuzu bilebileceğini hayal edebiliyorum. Ya da, başka bir durumda, yapıp yapmamanız belirsiz olabilir.
Akıl yürütmeden bilmek oldukça zor [whether] İhtiyacınız olan tüm verilere sahipsiniz. Sana bir örnek vereceğim.
Uzun yıllar kendi kendini süren bir araba-algı ağları, sürüş sistemleri-inşa etmek için harcadım, ancak sık sık arabanın bazı durumlarda iyi performans göstermediğini gördük.
Yol sola döndü ve etrafında diğer arabalarla biraz yokuş yukarı döndü. Daha sonra yeterli eğitim verimiz olmadığını fark ettik. Dolayısıyla, veriler hakkında ilkeli bir akıl yürütme, bütünlük hakkında akıl yürütme, menzil hakkında akıl yürütme [of data]ve bunun için tüm verilere sahip olmak ve matematiksel olarak analiz etmek, üst düzey eğitim şirketlerinin dışında süper yaygın olan bir disiplin değildir.
Ortaya çıkan sorunlara, AI iş yükleriyle ortaya çıkabilecek zorluklara baktıktan sonra, müşterilerin bunları hafifletmeye başlayabileceğini nasıl söylersiniz?
Önerdiğim genel yaklaşım, veri mühendisliği süreçlerinizi düşünmektir. Bu nedenle, göl tabanları gibi şeyler yapan veri mühendisliği şirketleriyle ortaklık kuruyoruz.
Düşün: Gelen verilerime bir göl evi nasıl uygulayabilirim? Lakehouse’umu temizlemek ve hazırlamak için nasıl kullanırım? Bazı durumlarda, belki de dönüştürün ve eğitim sistemine hazır hale getirin. Şirketimdeki veri mühendisliği disiplini hakkında düşünerek başlayacağım ve bunu AI için hazır olmaya nasıl hazırlarım?
Veri mühendisliği, içine girerseniz ne oluşur?
Veri mühendisliği genellikle kurumsal veritabanlarında, yapılandırılmış sistemlerde veya sahip olduğumuz diğer sistemlerde var olabilecek diğer veri kümelerine nasıl erişebileceğimden oluşur ve buna nasıl erişebilirim? Bunu Lakehouse’un ara bir forma nasıl yutabilirim? Ve daha sonra bunu nasıl dönüştürürüm ve eğitmek istediğim verileri temsil eden bir veri kümesi oluşturmak için farklı depolar arasında olabilecek kümelerden veri nasıl seçerim.
Bu genellikle veri mühendisliği dediğimiz disiplindir. Ve bu çok farklı bir beceri ve çok farklı bir disiplin haline geliyor.
Depolama söz konusu olduğunda, müşteriler veri göllerde depolama ile nasıl desteklenir? Hangi formlarda?
Bugün, yaygın olan, veri göl tabaklarını sağlayan bulut şirketlerine sahip olmanız ve şirket içi için sistem evlerine sahibiz.
Birkaçıyla çalışıyoruz. Veri Lakehouse satıcılarını içeren eksiksiz çözümler sunuyoruz. Ve bunlarla ortaklık kuruyoruz.
Ve sonra, elbette, hızlı performans göstermesini ve iyi çalışmasını sağlayan temel depolama. Diyelim ki temel bileşenler, popüler Data Lakehouse veritabanları ve altyapıdır ve daha sonra bunları eğitim tarafı için diğer depolama sistemlerine bağlar.
Veri mühendisliğine baktığımızda, gerçekten bir kerelik, tek seferlik bir meydan okuma mı, yoksa kuruluşlar AI ile mücadele ederken devam eden bir şey mi?
Veri mühendisliğinin depolamadan ayrılması zordur. Tam olarak aynı şey değiller, ama yakından ilişkilidirler.
AI kullanmaya başladığınızda, tüm yeni verileri kaydetmek istersiniz. İster Rag ile kullanıyor olsanız da, onu dönüştürmek ve AI sisteminizin bir parçası yapmak istiyorsunuz [retrieval augmented generation] Veya ince ayar veya ilerlemişseniz, kendi modelinizi oluşturursunuz.
Sürekli olarak artıracak ve daha iyi hale getireceksiniz. Verileriniz geliştikçe, anlayışlarınız değiştikçe verileriniz bununla değişmelidir. Böylece, modeliniz onunla gelişmelidir.
Bu sürekli bir süreç haline gelir.
Soy gibi birkaç şey düşünmelisiniz. Bu verilerin geçmişi nedir? Nereden kaynaklandı? Nerede tüketilir? İnsanlar modelinizi kullandığında veya modelinizi dahili olarak kullandığınızda düşünmek istersiniz. Soru ne soruluyor? Bunun ortaya çıktığı soru nedir?
Ve bunu kalite güvencesi için, gelecekte daha fazla eğitim için de saklamak ve kullanmak istiyorsunuz. Bu, AI volanı veri dediğimiz şey haline geliyor. Veriler sürekli olarak yutulur, tüketilir, hesaplanır, yutulur, tüketilir, hesaplanır.
Ve bu daire durmuyor.
Müşterilerin bakması gerektiğini düşündüğünüz başka bir şey var mı?
Ayrıca, bu verilerin gerçekte ne olduğunu düşünmelisiniz, veriler neyi temsil ediyor? Bu veriler gözlemlediğiniz bir şeyi veya yaptığınız bir şeyi temsil ediyorsa, verilerde boşluklarınız varsa, AI bu boşlukları dolduracaktır. Bu boşlukları yanlış doldurduğunda, buna halüsinasyon diyoruz.
İşin püf noktası, verilerinizi nerede boşlukların olduğunu bilecek kadar iyi bilmektir. Ve eğer boşluklarınız varsa, bu boşlukları doldurmanın yollarını bulabilir misiniz? Bu sofistike seviyeye ulaştığınızda, gerçekten etkileyici bir sisteme sahip olmaya başlıyorsunuz.
Bir bulut hizmeti kullanmanın temelleri ile başlasanız bile, ne gönderdiğinizi ve geri döndüğünüzü kaydederek başlayın. Çünkü bu veri yönetimi disiplininizin temelini oluşturur. Veri mühendisliği terimini kullandığımda, veri mühendisliği ve depolama arasında veri yönetimi adı verilen bu disiplin var.
Bu, olabildiğince erken başlamak istediğiniz verilerin organizasyonudur. Çünkü sadece hizmeti kullanmanın ötesinde bir şey yapmaya hazır olduğunuzda, artık veri mühendisleriniz ve depolama için ilk veri gövdesine sahipsiniz.
Bu, herkesin gerçekten hızlı bir şekilde yapmayı düşünmesini dilediğim muazzam bir fikir.