Nasuni Kurucusu ve Baş Teknoloji Sorumlusu (CTO) Andres Rodriguez ile, işletmede yapılandırılmamış verilerin optimal kullanımı ve ölçeğinin zorluğu için depolamadan gereken özellikler hakkında konuşuyoruz.
Bulutun her şeyi değiştirdiğini söylüyor, bulut çalışma modeli, her yerden erişilebilen tek bir depolama havuzu için bir plan sağlıyor.
Ayrıca, işletmelerin, veri bilgisini ve verilere erişebilecek zengin meta verileri oluşturmak için verileri sınıflandırması, etiketlemesi ve iyileştirmesi ve aynı zamanda Model Bağlam Protokolü (MCP) konektörleri gibi yapay zeka (AI) için erişmesi gerektiğini söylüyor.
İşletmede yapılandırılmamış verilerin optimal kullanımının önündeki engellerin doğası nedir?
Gerçekten her şey ölçekle ilgili. Demek istediğim, yapılandırılmamış verilerin ne olduğuna geri dönerseniz, dosya sunucularındaki tüm dosyalar, NAS [network-attached storage]vesaire.
Tüm bu iş ürünü. Yani, bir mimarlık firmasıysanız, tasarım çizimleri. Bir üretim firmasıysanız, tasarım çizimleri ve simülasyonlarıdır. Tüm bunlar dosyalarda, işletmenin dosya sistemlerinde sona erer.
Ve her organizasyonda, buna ek olarak, klasik ofis belgeleri var – Excel ve Powerpoints, Word belgeleri ve PDF’ler. Bunlar tüm endüstrilerde geneldir. Ve böylece, kuruluşa değer katmak için çıkarılabilecek bu tür büyük potansiyel depolarla sonuçlanırsınız.
Ama zorluk şu ki, ona nasıl erişiyorsunuz? Erişimi, erişebileceğiniz aynı zamanda nasıl kontrol ediyorsunuz? Ve sonra, bu verilere ilişkin bilgiler verecek araçlara nasıl takılırsınız? Ve bunu ölçekte yapmak gerçekten zorlu bir zorluktur.
Öyleyse, müşterilerin mümkün olduğunca fazla fikir kazanabilmeleri için yapılandırılmamış verilerin depolanmasından neye ihtiyacı var?
İlk şey, organizasyonlarda o kadar çok şey var ki, geleneksel yaklaşımlarla sonuçlanan şey, çok sayıda veri silosu ile sonuçlanmanız. Bilirsiniz, veriler cihazlarda saklanır, cihazlar her yerde, vb.
Büyük bir kuruluşsa, çalışanların bulunduğu farklı coğrafi konumlar olabilir ve bu konumlardaki dosyalara yüksek performanslı erişime ihtiyaç duyarlar. Böylece bunlar için silolar inşa ediyorsunuz.
Sadece kapasite olabilir. Bir dosya sunucusunda kapasitenin tükenmesi, böylece bir tane daha diğeri dağıtırsınız ve bu inanılmaz sayıda dosya sunucusuyla sonuçlanırsınız. Bu nedenle, verilerle değerli olan şeyler yapmaya çalıştığınızda, bunun imkansız hale geldiğini fark edersiniz, çünkü veriler çok farklı silolardadır ve silolara ulaşmak ve bunları her türlü mantıklı bir şekilde toplamak zordur.
Bulut tüm bunları değiştirdi. Birçok kuruluş, özellikle yapılandırılmamış verilerini birleştiren büyük kuruluşlar, dosya verileri buluta girer, bu muazzam kazancı fark etmişlerdir, yani veriler artık sonsuz ölçeklenebilir bir mantıksal alanda birleştirilmiştir ve dünyanın herhangi bir yerinden çok yüksek performans seviyelerinde mevcuttur.
Bulut sonsuz ve bulut her yerde. Ve böylece, bu veri deposuna, yapılandırılmamış veri deposuna girebilmeleri ve verilerden içgörü toplayabilmeleri için inanılmaz bir temel parçası.
Hangi teknolojiler, özellikle AI döneminde müşteriler için yapılandırılmamış verilerin optimal kullanımını desteklemektedir?
Bence birkaç parça var.
Temel düzeyde, NAS konsolidasyonuna izin veren teknoloji istiyorsunuz. Uzmanlık alanlarımızdan biri, bulutla etkinleştirilen, istediğiniz her yerde ölçek ve yüksek performans sağlayan bu tür NAS sağlamaktır. Bu ilk yapı taşı.
Ardından, bu bloğun üstünde, bu muazzam depoyu almanıza ve bunu ölçekte yapmanıza izin veren yapılandırılmamış veri yönetimi araçlarına sahip olmanız gerekir.
Bahsettiğim her şey için, ölçekli bir kafa rüzgarı ile savaşıyorsunuz, bu yüzden yüz milyonlarca veya milyarlarca dosyaya ve petabayt depolama alanına ulaşmanıza izin veren teknolojiye sahip olmanız gerekiyor, aksi takdirde, çabalarınızda sorunun saf ölçeğinde sakat kalacaksınız.
Bu nedenle, bir sonraki yapılandırılmamış veri yönetimi katmanında, verileri sınıflandırmanıza, verileri etiketlemenize, erişim kontrollerini veriler için küresel düzeyde ayarlamanıza olanak tanıyan çok ölçeklenebilir araçlara sahip olmak istersiniz – başka bir deyişle verileri küratörlüğüne sahip olmak istersiniz.
Demek istediğim, insanların şimdi AI ile ne yapmaya çalıştıklarına ve AI’dan bilgi edinmeye bakarsanız, bu projelerin çoğunun başarısızlığı, LLMS’ye giren yeterli kalite verisinin eksikliğine atfedilebilir. [large language models]. Mühendislik okulunda bize öğretirlerdi, çöpleri bir modele koyarsınız, bir modelden çöp alırsınız.
İlk öncelik, modellerinize giren verileri temizlemektir. Bu, bunu kuruluşunuzun ürettiği düzenli yapılandırılmamış verilerle ölçeklendirmenize izin veren araçlar anlamına gelir, böylece kuruluş gelişmeye devam ettikçe, bu veri kümesi otomatik olarak güncellenir.
Biraz özel kaldırma ve çaba yaptığınız için değil, boru hatlarını zaten ayarladığınız ve tüm sistemler verileri otomatik olarak temizlediğiniz ve verileri makine öğrenimi modellerine sunduğundan.
Projeyi yürütürken sadece bir kez çalışmayan, aynı zamanda kuruluşa sürekli olarak içgörü ekleyen bir sistem elde edersiniz.
Ve böylece, son katman mevcut tüm LLM modellerine bu tür genel amaçlı eklenti. Tüm ihtiyaçlarınızı karşılayacak tek bir tane olmayacak.
Bağlanmanıza izin veren bir tür hub’a sahip olmanız gerekir. İnsanların şu anda kullandığı terim, size farklı modellere standart erişim sağlayan MCP arayüzleridir. Veri kümesi değişmeyeceği için modeller düzeyinde bu tür bir standardizasyon çok önemlidir.
Demek istediğim, işçiler değiştiğinde değişecek, ancak hangi modeli kullandığınıza bağlı olarak değişmeyecek. Ulaşmaya çalıştığınız hedefe en uygun modeli takabilmeniz gerekir.
Ve eğer işe yaramazsa veya bir yükseltme istiyorsanız veya satıcıları değiştirmek istiyorsanız, bunu değiştirebilmeniz gerekir. Geç bağlama dediğimiz şey bu ve daha sonra projede bu kararı verebilmeniz gerekiyor.
Ve sonra, elbette, döngüyü kapatmanız ve bir tür arayüz raporlamasını görmeniz gerekir – Tableau gibi şeyler – verilerden aldığınız bilgiler.
Müşterilerimiz tipik olarak yapmak istedikleri proje verilerine bakmak ve tahmin etmek, bu proje zamanında mı olacak? Yapılandırılmamış verilerden gelen sinyallere dayanarak bütçede mi olacak?
Veya daha yüksek bir bilgi düzeyinde uyumluluk yapmak istiyorsunuz. Belki de sadece dosyalarda ne olduğunu değil, nihai kullanıcıların bu dosyalarla nasıl etkileşime girdiğini, bu dosyaların zamanla nasıl değiştiğini anlamak istersiniz. Bu, yapılandırılmamış verilerinizin davranışına ve kuruluşunuzun bu verileri nasıl kullandığına veya kullanmadığına dair büyük bilgiler verebilir.
Yani, bu gerçekten bu üç katmanın entegrasyonu ile ilgilidir; Temel NAS konsolidasyonu veya yapılandırılmamış veri konsolidasyon katmanı, bu da tamamen depolama ve verilerin korunmasını sağlamakla ilgili olarak, kapasiteye ve yüksek performansa sahip olduğunuzdan emin olarak. Daha sonra bu, verileri küratörlüğüne ve hazırlamanızı sağlayan yapılandırılmamış bir veri yönetimi katmanı vardır, böylece tüm makine öğrenme modellerinin arayüzü olan üçüncü katman için kullanılabilir hale getirirsiniz.
Sanırım küratörlük ve sınıflandırma katmanı şeylerin bir kısmı meta verilerle ilgili. Durum böyle mi?
Bu doğru.
Bazen verileri meta verilerle bulmak için kullanabilirsiniz, ancak kurallar her zaman meta verilere dayanır.
Yani fikir, zengin bir yapıya sahip olmanız gerektiğidir. Bu yüzden ilk katman, NAS konsolidasyonu çok önemlidir.
Çünkü dosya sisteminizde, kurutlamayı, yapılandırılmamış verilerin davranışını kontrol eden meta verilere dayanarak kuralların ayarlanmasına izin vermek için verilerinizi yeni meta verilerle açıklamanıza izin veren zengin bir yapıya ihtiyacınızdır.