Kendi yapay zeka (YZ) modellerini oluşturmak isteyen kuruluşların karşı karşıya kaldığı en kritik görev, kurumsal bir veri seti oluşturmak için doğru verileri bulmak ve edinmektir.
Danışmanlık şirketi Rockborne’un CEO’su Waseem Ali’ye göre, uygulamalı deneyim olsa bile işler kolayca ters gidebilir. Ali, “Her zaman verilerle başlar,” diyor. “Verileriniz iyi değilse, modeliniz de iyi olmayacaktır.”
Bunun yerine, çoğu zaman, işletmelerin ilk projeleriyle dünyayı ele geçirmeyi istemeleri değil, işleri daha ileriye götürebilecekleri bir pilot uygulama yapmaları gerektiğini öne sürüyor.
Veri veya dijital proje için belirli iş gereksinimlerini ve şartlarını inceleyin ve hangi sorunun çözülmesi gerektiğini ve hangi “sezginin” sorgulanması gerektiğini sorun, ancak ilk başta “küresel etkiler” konusunda derinlemesine araştırma yapmaktan kaçının.
Endüstriyel IoT uzmanı Hexagon’un Yapay Zeka Başkanı Johannes Maunz’un açıkladığı gibi, söz konusu özel kullanım durumu için veri toplamaya yönelik olarak ilkelerden yola çıkılmalıdır.
Maunz, “Tüm kullanım durumlarını çözecek tek bir ML veya derin öğrenme modeli yok,” diyor. “Durumunuzu, geliştirmeniz gerekenlerle karşılaştırın. Hangi mevcut verilerin yakalanması gerekiyor? Bunu, yalnızca o kullanım durumu için küçük veya sınırlı bir şekilde yapın.”
Hexagon’un yaklaşımı genellikle kendi sensörlerine odaklanır ve duvarlar, pencereler, kapılar vb. üzerindeki inşaat kullanım durumları için veriler içerir. Hexagon, tarayıcıda işlenenlere kadar veriler ve standartları, biçimi, tutarlılığı vb. hakkında bilgi sahibidir.
Öncelikle işletmenin halihazırda sahip olduğu veya kullanabileceği uyumlu verileri ve veri kümelerini göz önünde bulundurun. Bu, genellikle endüstriyel, şirket içi bir ortamda bile hukuk ve gizlilik ekipleriyle yakın bir şekilde çalışmayı gerektirir. Maunz, kullanım için ayrılmış verilerin herhangi bir özel kişisel bilgi içermediğinden emin olunmasını öneriyor. Ve buradan, işletmeler kullanmak istedikleri modeli oluşturabilir ve eğitebilirler – maliyetler ve uygulanabilirlik yerindeyse.
Oradan, işlerin yürümesi için gereken karar noktalarının şeffaflığı ve kullanılabilirlik ve uygulanabilirlik, işletme etkileri veya potansiyel performans ile rekabet verileri gibi faktörleri tahmin etmek için gereken sinyal değerleri ortaya çıkabilir.
İşletmenin halihazırda elinde bulundurmadığı veriler için, bu verileri edinmek amacıyla bazı ortakların veya müşterilerin müzakere etmesi gerekebilir.
Maunz, “İnsanlar oldukça açık, açıkçası – ancak her zaman bir sözleşme vardır,” diyor. “Ancak o zaman genellikle veri kampanyaları dediğimiz şeyi yapmaya başlarız. Bazen ihtiyaçtan daha fazla veriyle başlamak bile mantıklıdır, böylece kuruluş daha düşük örnekleme yapabilir.”
Veri kalitesi ve basitliği önemli olabilir
Tedarik zinciri danışmanlık şirketi BearingPoint’in ortağı Emile Naus, AI/ML için veri kalitesine odaklanmanın altını çiziyor. Mümkün olduğunca işleri basit tutun. Karmaşıklık doğru karar vermeyi zorlaştırır ve sonuçlara zarar verir – ve sonra dikkate alınması gereken önyargı ve fikri mülkiyet vardır. Naus, “Dahili veriler mükemmel değildir, ancak en azından ne kadar iyi olduğuna dair bir görüşünüz olur,” diye ekliyor.
Kullanımı kolay 2 boyutlu bir hat uyumu veya hatta 3 boyutlu bir hat uyumuna kıyasla, yapay zeka/makine öğrenimi ile desteklenen karmaşık, çok boyutlu bir hat uyumu, işletmelerin doğru verilerle “serbest bırakılması” durumunda çok daha iyi sonuçlar elde edilmesini sağlayabilir; üretimi, çözüm “tariflerini” optimize edebilir, atığı en aza indirebilir ve daha fazlasını sağlayabilir, diye uyarıyor.
“Tüm modellerde olduğu gibi, bir AI modeli bir model oluşturmak için kullanıldığından ve bir model her zaman yanlış olduğundan, veri yönetimi anahtardır,” diyor. “Sahip olmadığınız parçalar aslında daha önemli olabilir. Verinin ne kadar eksiksiz ve ne kadar doğru olduğunu hesaplamanız gerekir.”
Dun & Bradstreet (D&B) Veri ve Analitik Kıdemli Başkan Yardımcısı Andy Crisp, veri kalitesi standartları ve toleransları belirlemek, ölçüm ve izleme yapmak için müşteri içgörülerinin ve kritik veri öğelerinin kullanılmasını öneriyor.
“Veriler [clients[ want or acquire from us [for example] Crisp, “Ayrıca potansiyel olarak modellerini besliyor” diyor. “Yaklaşık 46 milyar veri kalitesi hesaplaması yapıyoruz, verilerimizi alıyoruz ve sonra belki de bu standartlara göre tekrar yapıyoruz ve sonra veri kalitesi gözlemlerini yayınlıyoruz [each month].”
Örneğin, belirli bir standardın merceğinden belirli bir nitelik, bir sonraki ekibe aktarılabilecek kadar iyi performans göstermelidir. Bu ekip, söz konusu standartları ve toleransları, bu ölçüm ve gözlem noktalarının sonuçlarını alır ve ardından verileri yakalamak, düzenlemek ve sürdürmek için veri yönetimiyle birlikte çalışır.
“Zamanınızı şeylere harcamanın ve anlayışınızı geliştirmenin yerini hiçbir şey tutamaz,” diyor Crisp. “Bir tahta parçası keserek başlayın ve 50 tahtayı tamamen yanlış kesmeden önce uzunluğunu kontrol edin.”
İşletmelerin, daha sonra bir araya getirilebilecek veri performansını ve içgörülerini iyileştirmek için “iyinin neye benzediğini bilmeleri” gerekir. Sorun ifadelerini sıkı tutun, gerekli veri kümeleri için veri tanımlamasını daraltın. Titiz açıklama ve meta veriler, kontrol veri kümelerinin küratörlüğünü ve önyargıyı tanımlayan ve en aza indirmeye yardımcı olan gerçek bir bilimsel yaklaşımı mümkün kılabilir.
Birden fazla faktörü bir araya getiren büyük, cesur ifadelere dikkat edin ve “yıkıma kadar test ettiğinizden” emin olun. Bu, BT’de işletmelerin “hızlı hareket etmek ve şeyleri kırmak” istemediği bir alandır. Kullanılan tüm veriler, sürekli olarak incelenmesi ve düzeltilmesi gereken standartları karşılamalıdır.
Crisp, D&B’nin kalite mühendisliği ekibinin dünya çapında yaklaşık 70 ekip üyesinden oluştuğunu belirterek, “Ölç ve izle, düzelt ve iyileştir,” diyor. “Yeterli mühendislik, halüsinasyonları vb. azaltmaya çalışmanıza yardımcı olacaktır.”
Informatica Kuzey Avrupa, Orta Doğu ve Afrika Genel Başkan Yardımcısı Greg Hanson, hedef belirlemenin hayati önem taşıdığını ve işletmelerin bilgileri kataloglama, bilgileri bütünleştirme ve yapay zekayı sonuçları destekleyecek şekilde eğitmek için hangi verilerin gerekli olduğunu belirlemelerine yardımcı olabileceğini kabul ediyor.
Bir işletmenin kendi verileri bile genellikle parçalanmış olacak ve farklı konumlarda, bulutlarda veya şirket içi konumlarda gizlenecektir.
Hanson, “Tüm veri varlıklarınızı kataloglayın ve bu verilerin nerede bulunduğunu anlayın” diyor. “Daha hızlı veri yönetimi için de AI’yı düşünün.”
Yutmadan önce yönetimi sağlayın
AI motoru tarafından alınmadan önce tüm veri kalitesi kurallarını uygulayın, uygun yönetişim ve uyumluluğu varsayarak. Hanson, bir işletme ölçmüyor, miktar belirlemiyor ve düzeltmiyorsa, o zaman hızlandırılmış bir hızda yanlış kararlar alacaklarını söylüyor ve ekliyor: “Unutmayın: çöp girerse, çöp çıkar.”
Veri paketi tedarikçisi Precisely’de CTO olan Tendü Yogurtçu, şirket büyüklüğüne ve sektör türüne bağlı olarak bir organizasyonun tüm ilgili AI girişimlerinde en iyi uygulamaları ve süreçleri tanımlamaya yardımcı olmak için bir yönlendirme komitesi veya işlevler arası bir konsey düşünebileceğini söylüyor. Bu ayrıca, organizasyonlar pilotlardan ve üretimden öğrendikçe değişmeye devam edebilen ekipler arasında ortak kullanım durumlarını veya kalıpları belirleyerek hızlanmaya yardımcı olabilir.
Veri yönetimi çerçevelerinin AI modellerini de kapsayacak şekilde genişletilmesi gerekebilir. Bununla birlikte, potansiyel AI kullanım örnekleri bol miktardadır.
“Sigorta yaptırın. Risk ve fiyatlandırma doğruluğunu modellemek için sigortacıların orman yangını ve sel riskleri, parsel topografisi, parsel içindeki binanın tam konumu, yangın musluklarına yakınlık ve benzin istasyonları gibi potansiyel olarak riskli ilgi noktalarına olan mesafe hakkında ayrıntılı bilgilere ihtiyacı vardır,” diye açıklıyor Yogurtçu.
Ancak danışmanlık şirketi Slalom’un kıdemli veri ve analiz sorumlusu Richard Fayers, yapay zeka modelleri oluşturmanın, özellikle de üretken yapay zeka (GenAI) modellerinin pahalı olabileceği konusunda uyarıyor.
Fayers, “Belki bazı alanlarda şirketler birlikte çalışabilir – örneğin hukuk veya tıp,” diyor. “Değeri görmeye başladığımız yer, [GenAI] “Verilerinizle bunu yapmanın çeşitli yolları var.”
Örneğin mimaride, kullanıcılar büyük dil modelleri (LLM) kullanımını sorgulanacak kendi veri kümeleri ve belgeleriyle destekleyebilir. Benzer bir strateji, meta verilere ve etiketlere birebir bağlı olmayan bir dizi doğal dil tabanlı ölçütü akıllıca göz önünde bulunduran bir bilet arama platformu oluşturmak için işe yarayabilir.
Fayers, “Örneğin, ‘hafta sonu çocuklara uygun bir performans’ bulmanızı sağlayan bir bilet platformu kullanabiliyorsanız, bu şu anda oldukça zor olabilecek bir arama türü” diyor.
ChatGPT gibi daha “konuşma odaklı” bir yaklaşım için bile veri seti oluşturma ve hızlı mühendislik, hala veri kalitesi ve yönetimine odaklanmayı gerektiriyor, diyor ve hızlı mühendisliğin yüksek talep gören temel bir beceri seti haline geleceğine işaret ediyor.