Yapay zekanın veri depolama üzerindeki dört temel etkisi


Yapay zeka (AI) en hızlı büyüyen kurumsal teknolojilerden biridir.

IBM’e göre 1.000’den fazla çalışanı olan firmaların %42’si artık işlerinde yapay zeka kullanıyor. %40’lık bir kesim ise bunu test ediyor veya deniyor.

Bu inovasyonların çoğu, üretken yapay zeka (GenAI) veya ChatGPT gibi büyük dil modelleri (LLM) tarafından yönlendiriliyor. Yapay zekanın bu biçimleri, kurumsal uygulamalarda veya müşterilerle etkileşime giren sohbet robotları aracılığıyla giderek daha fazla kullanılıyor.

Çoğu GenAI sistemi şimdilik bulut tabanlı ancak tedarikçiler, LLM’leri kurumsal verilerle entegre etmeyi kolaylaştırmak için çalışıyor.

Yüksek Lisans’lar ve daha “geleneksel” yapay zeka ve makine öğrenimi biçimleri, şirket içinde veya bulutta önemli miktarda bilgi işlem ve veri depolama kaynaklarına ihtiyaç duyar.

Burada, yapay zekanın eğitim ve operasyonel aşamaları sırasında veri depolamayla ilgili bazı baskı noktalarına ve uyumluluk ihtiyacına bakıyoruz.

Yapay zeka eğitimi, depolama I/O’suna büyük talepler getiriyor

Yapay zeka modellerinin kullanılmadan önce eğitilmesi gerekir. Eğitim ne kadar iyi olursa model de o kadar güvenilir olur; model eğitimi söz konusu olduğunda ise ne kadar çok veri o kadar iyidir.

Omdia bulut ve veri merkezi uygulamaları baş analisti Roy Illsley, “Herhangi bir modelin kritik yönü, ne kadar iyi olduğudur” diyor. “Bu, her şeyi ifade eden ‘Kötü veri artı mükemmel model eşittir kötü tahmin’ sözünün bir uyarlamasıdır. Verilerin temiz, güvenilir ve erişilebilir olması gerekiyor.”

Sonuç olarak eğitim aşaması, yapay zeka projelerinin depolama da dahil olmak üzere BT altyapısına en fazla talebi getirdiği aşamadır.

Ancak yapay zekayı destekleyen tek bir depolama mimarisi yok. Depolama türü veri türüne bağlı olacaktır.

Büyük dil modelleri için çoğu eğitim yapılandırılmamış verilerle yapılır. Bu genellikle dosya veya nesne deposunda olacaktır.

Bu arada finansal modeller, blok depolamanın daha yaygın olduğu yapılandırılmış verileri kullanıyor ve her üç depolama türünü de kullanan yapay zeka projeleri olacak.

Diğer bir faktör ise model eğitiminin nerede gerçekleştirileceğidir. İdeal olarak verilerin bilgi işlem kaynaklarına mümkün olduğunca yakın olması gerekir.

Bulut tabanlı bir model için bu, bulut depolamayı tipik bir seçim haline getirir. Bulut altyapısındaki G/Ç darboğazları, verilerin buluta taşınmasında veya buluttan buluttan taşınmasında yaşanan gecikmelerden daha az sorun teşkil ediyor ve hiper ölçekli bulut sağlayıcıları artık bir dizi yüksek performanslı depolama seçeneği sunuyor.

Bunun tersi de geçerlidir. Veriler şirket veri tabanında veya kurumsal kaynak planlama sisteminde olduğu gibi şirket içindeyse, modeli çalıştırmak için yerel bilgi işlemin kullanılması mantıklı olabilir. Bu, AI geliştiricilerinin donanım yapılandırması üzerinde daha fazla kontrol sahibi olmasını sağlar.

Yapay zeka modelleri, pahalı olan grafik işleme birimlerinden (GPU’lar) yoğun şekilde yararlanır; bu nedenle depolamanın GPU taleplerine ayak uydurmasını sağlamak çok önemlidir. Ancak bazı durumlarda merkezi işlem birimlerinin depolamadan ziyade darboğaz oluşturma olasılığı daha yüksektir. Modelin türüne, üzerinde eğitim verildiği verilere ve mevcut altyapıya bağlıdır.

Pure Storage’ın EMEA saha baş teknoloji sorumlusu Patrick Smith, “Mümkün olduğunca verimli olması gerekiyor” diyor. “Sonuç bu. GPU’ların, ağın ve arka uç depolamanın kapasitesi ve performansı açısından dengeli bir ortama ihtiyacınız var.”

Bir işletmenin yapay zeka modelini kullanmayı planlama şekli, yerel veya bulut depolama seçimini de etkileyecektir. Yapay zekanın eğitim aşamasının kısa ömürlü olduğu durumlarda, bulut depolama muhtemelen en uygun maliyetli seçenek olacak ve performans sınırlamaları daha az ciddi olacaktır. Eğitim tamamlandıktan sonra işletme depolamayı kapatabilir.

Ancak verilerin operasyon aşamasında (ince ayar veya devam eden eğitim için veya yeni verilerle ilgilenmek için) tutulması gerekiyorsa bulutun isteğe bağlı avantajları zayıflar.

Yapay zeka çıkarımının düşük gecikme süresine ihtiyacı var

Bir model eğitildikten sonra veri depolama gereksinimleri azalacaktır. Bir üretim yapay zeka sistemi, kullanıcı veya müşteri sorgularını ayarlanmış algoritmalar aracılığıyla çalıştırır ve bunlar oldukça verimli olabilir.

Northern Data’nın bir parçası olan Taiga Cloud bulut mühendisliği direktörü Christof Stührmann, “Yapay zeka eğitiminden elde edilen model, onu eğitmek için kullanılan bilgi işlem kaynaklarının ölçeğiyle karşılaştırıldığında genellikle küçüktür ve çok fazla depolama gerektirmez” diyor Grup.

Bununla birlikte, sistemin hala veri girişleri ve çıkışları vardır. Kullanıcılar veya uygulamalar modele sorgular girer ve model daha sonra benzer şekilde çıktılarını sağlar.

Bu operasyonel veya çıkarım aşamasında yapay zekanın etkili olabilmesi için yüksek performanslı G/Ç’ye ihtiyacı vardır. Gerekli veri hacmi, eğitim için olduğundan çok daha küçük olabilir, ancak veri girişi ve sorguların geri dönüşü için zaman ölçekleri milisaniye cinsinden ölçülebilir.

Siber güvenlik ve tehdit tespiti, BT süreç otomasyonu ve güvenlik için biyometrik tarama veya üretimde görüntü tanıma gibi bazı önemli yapay zeka kullanım durumlarının tümü hızlı sonuçlara ihtiyaç duyar.

İnsanlar gibi etkileşime giren sohbet robotları oluşturmak için GenAI’nın kullanıldığı alanlarda bile, yanıtların doğal görünmesi için sistemin yeterince hızlı olması gerekiyor.

Yine modele ve yapay zeka sisteminin ne yapmak istediğine bakmak gerekiyor. Illsley, “Bazı uygulamalar çok düşük gecikme süresi gerektirecektir” diyor. “Bu nedenle yapay zekanın kullanıcıya mümkün olduğunca yakın konumlandırılması gerekiyor ve veriler uygulamanın çok küçük bir parçası olabilir. Diğer uygulamalar gecikmeye karşı daha az duyarlı olabilir ancak büyük miktarlarda veri içerebilir ve bu nedenle, gereken kapasite ve performansla birlikte yapay zekanın depolamanın yakınında konumlandırılması gerekir.”

Yapay zeka için veri yönetimi

Yapay zekanın depolama üzerindeki üçüncü etkisi, veri toplama ve işlemeye yönelik süregelen ihtiyaçtır.

“Geleneksel” yapay zeka ve makine öğrenimi için veri bilimcileri, daha fazla verinin daha doğru bir model oluşturacağı temelinde mümkün olduğu kadar çok veriye erişim istiyor.

Bu, kuruluşun veri ve depolama yönetimine yönelik daha geniş yaklaşımıyla bağlantılıdır. Buradaki hususlar arasında verilerin flaşta mı yoksa dönen diskte mi saklandığı, arşivlerin nerede tutulduğu ve geçmiş verileri saklama politikaları yer alır.

Yapay zeka eğitimi ve çıkarım aşaması, kuruluş genelinden, potansiyel olarak birden fazla uygulamadan, insan girdilerinden ve sensörlerden veri çekecektir.

Yapay zeka geliştiricileri, veri yapılarını yapay zeka sistemlerini “beslemenin” bir yolu olarak görmeye başladı ancak performans bir sorun olabilir. Performansı ve maliyeti dengelemek için büyük olasılıkla veri yapılarının farklı depolama katmanlarında oluşturulması gerekecektir.

Yüksek Lisans’lar internet verileriyle eğitildiğinden GenAI şimdilik daha az sorun teşkil ediyor, ancak daha fazla firma Yüksek Lisans’ları kendi verilerini kullanarak kullanmaya çalıştıkça bu durum değişecek.

Yapay zeka, veri depolama ve uyumluluk

Kuruluşların yapay zeka verilerinin güvende olduğundan ve yerel yasa ve düzenlemelere uygun olarak saklandığından emin olmaları gerekir.

Bu, verilerin nerede saklanacağını etkileyecek ve düzenleyiciler veri egemenliği konusunda daha fazla endişe duyacak. Bulut tabanlı yapay zeka hizmetlerinde bu durum, eğitim ve çıkarım aşamalarında verilerin nerede saklandığını anlama ihtiyacını da beraberinde getiriyor. Kuruluşların ayrıca modelin girdi ve çıktılarını nasıl depolayacaklarını da kontrol etmeleri gerekir.

Bu aynı zamanda yerel sistemlerde çalışan modeller için de geçerlidir; ancak mevcut veri koruma ve uyumluluk politikaları çoğu yapay zeka kullanım durumunu kapsamalıdır.

Yine de dikkatli olmakta fayda var. PA Consulting veri güvenliği uzmanı Richard Watson-Bruhn, “Yapay zeka öğrenimi için eğitim havuzuna hangi verilerin gireceğini tasarlamak ve modelde hangi verilerin tutulmasını istediğinizi ve istemediğinizi açıkça tanımlamak en iyi uygulamadır” diyor .

“Firmalar ChatGPT gibi bir araç kullandığında, bu verilerin bulutta tutulması ve yurtdışına aktarılması kesinlikle sorun değil, ancak bu paylaşımın yönetilmesi için sözleşme şartlarının yürürlükte olması gerekiyor.”



Source link