Verileri yönetmeye gelince, onun nerede olduğunu bilmemiz gerekiyor; ama aynı zamanda ne olduğunu da bilmemiz gerekiyor.
Düzenleyici kontrollerdeki artışla birlikte işletmeler, özellikle buluttaki veriler söz konusu olduğunda artık veri egemenliğine daha fazla önem veriyor ancak tam olarak hangi bilgileri tuttuklarını bilmek de aynı derecede önemli.
Bu kavram – veri sınıflandırması – yeni değil. Ancak özellikle yapılandırılmamış verilerin büyümesiyle birlikte, tüm veri varlıklarının net bir resmine sahip olmak hayati önem taşıyor. Firmalar artık bu konuda yardımcı olması için yapay zeka (AI) araçlarına giderek daha fazla başvuruyor.
Veri sınıflandırması nedir ve buna neden ihtiyacımız var?
Kuruluşların uzun süredir verileri, bir İK dosyası mı yoksa satış kayıtları mı olduğu gibi işleve veya “açıklayıcı sınıflandırıcıya” göre organize edilmiştir. Daha sonra kontrol gereksinimi olarak da bilinen hassasiyete göre kategorilere ayrılırlar. Daha sonra, verilerin ne zaman ve nerede oluşturulduğu gibi bağlama dayalı bilgiler ve dosya türü veya boyutu gibi teknik özellikler vardır.
Daha düşük maliyetli bulut depolama, kuruluşların daha fazla veriyi daha uzun süre depolamasına olanak tanır ve bu verileri iş zekası için kullanmalarına olanak tanır; bu da günümüzde yapay zeka modellerinin eğitilmesi anlamına gelmektedir.
Ancak bu verilerin iyi organize edilmesi gerekiyor ki bulunması ve kullanılması zor olmasın. Bu verilerin korunması da hayati önem taşıyor. Veri yönetişimi ve veri yönetimi, etkili veri sınıflandırmasına bağlıdır. İşletmenin sağlam bir veri sınıflandırma planı olmadığı sürece veri depolama da daha az verimli olur.
Manuel veri sınıflandırması mümkün olsa da verimsizdir, güvenilmezdir ve ölçeklendirilmesi zordur. Kuruluşlar, kullanıcıların verileri etiketler, etiketler veya anahtar kelimeler ekleyerek sınıflandırmasını gerektiren politikalar oluşturabilse de, bu aslında yalnızca hassasiyet gibi en geniş sınıflandırmalar ve yeni oluşturulan dosyalar için işe yarar.
Kuruluşlar web uygulamaları, müşteriler ve nesnelerin interneti gibi dış kaynaklardan daha fazla veri getirdikçe, etkili veri sınıflandırmasının gerçekten otomatikleştirilmesi gerekiyor. Veri sınıflandırma, veri yaşam döngüsü yönetiminin önemli bir parçasıdır ve veri güvenliği için gereklidir.
Veri sınıflandırma araçları
Gartner analistlerinin de belirttiği gibi, manuel veri sınıflandırması insan hatası nedeniyle yanlış sınıflandırmaya yol açabilir. Ayrıca etiketler “tek boyutludur” ve “düzenleyici veri kontrollerinin arttırılması için yeterli bağlam sağlamamaktadır”. Bağlamı yakalamakta başarısız olurlar ve genellikle statiktirler. Veriler yaşam döngüsü boyunca farklı amaçlarla da kullanılabilir.
Otomasyon, verilerin içeriğine, konumuna ve bitişik belgelere bakmanın yanı sıra bağlam ekleyerek bu sorunların bir kısmını çözer. Gartner’a göre standart sınıflandırma araçları, standart veri türleriyle ve zaten iyi biçimlendirilmiş verilere sahip kuruluşlarda iyi çalışıyor. Kuruluşlar yapılandırılmamış verilerden daha fazla yararlandıkça bu görev daha da zorlaşıyor.
Satıcılar veri kümelerine ve belgelere bakmak, tanımlayabilecekleri, kaydedebilecekleri ve izleyebilecekleri öğeleri keşfetmek için makine öğrenimini giderek daha fazla kullanıyor. Ancak Gartner’ın belirttiği gibi, uygun verilerin işlenmesi söz konusu olduğunda performansları sınırlı olabilir.
Bununla birlikte, pazar, bağımsız uygulamalardan veritabanlarına veya kurumsal uygulamalara, özellikle de iş zekasına entegre olanlara kadar bir dizi veri sınıflandırma aracı sunmaktadır. Bunlar bazen kurumsal veri katalogları olarak tanımlanır.
Diğer bir yaklaşım ise sınıflandırma ve kataloglamayı daha geniş kurumsal veri yönetişimi ve uyumluluk uygulamalarının bir parçası olarak bir araya getirmektir. Şaşırtıcı olmayan bir şekilde, satıcılar artık doğruluğu artırmak ve manuel etiketleme ihtiyacını azaltmak için yapay zekayı araçlarına entegre etmenin yollarını arıyor.
Yapay zeka girişi, veri çıkışları
Veri sınıflandırma yapay zekanın doğal bir uygulamasıdır. Satıcılar bir süredir veri kataloglama araçlarında makine öğrenimini kullanıyor. Her ne kadar bazı araçlar artık bunları kullanıyor olsa da, bu, üretken yapay zekaya (GenAI) veya büyük dil modellerine (LLM) dayanan bir kullanım durumu değildir.
Bazı araç satıcıları makine öğrenimini, sinir ağlarını, karar ağaçlarını ve lojistik regresyonu kullanır. Bunlar, yapay zeka modellerini verilerdeki, özellikle de yapılandırılmamış verilerdeki kalıpları bulma konusunda eğitir. Modeller daha sonra verilere otomatik etiketleme uygulamak için kullanılabilir.
Müşteriler daha sonra dağıtımdan önce modelleri test edebilir ve hassaslaştırabilir. Bu önemlidir çünkü müşteri veri kümeleri farklıdır ve kullanıma hazır bir araç, o müşterinin verilerinin ayrıntılarını veya kuruluş içindeki farklı veriler arasındaki ilişkiyi anlayamayabilir. Bir dosya veya belgeyle ilişkili meta verileri zenginleştirmek için etkili bir yapay zeka modeli kullanılabilir.
Meta veriler daha sonra kurumsal verilerden oluşan bir katalog oluşturmak ve dolayısıyla daha etkili kontroller oluşturmak için kullanılabilir. Otomatik ve yapay zeka tabanlı sistemlerin bir diğer avantajı da dinamik olmalarıdır. Kuruluşun, örneğin düzenleyici değişiklikler nedeniyle verileri yeniden sınıflandırması durumunda, veri sınıflandırma aracı, kataloğu anında güncelleyebilmelidir.
Meta veriler ve katalog daha sonra veri saklama ve güvenlik ve veri kaybını önleme araçlarının yanı sıra veri yerleşimi kurallarını karşılamak için kullanılabilir. Yapılandırılmamış verilerle bunu yapmak zordur ancak sağlam veri yönetimi, iş zekası ve yapay zeka gelişimi için hayati öneme sahiptir.
Anahtar veri sınıflandırma sağlayıcıları
Microsoft, Purview ürünü aracılığıyla yapay zeka tabanlı veri sınıflandırıcıları sağlar. Bunların iş verileri, Microsoft etki alanı bilgisi ve sentetik veriler konusunda önceden eğitildiğini söylüyor. Purview, Azure’da çalışan daha geniş bir veri yönetimi, uyumluluk ve risk yönetimi hizmetidir.
IBM, yapay zeka ve makine öğrenimi kullanılarak veri sınıflandırması ve yönetimi için Bilgi Kataloğunu sunuyor. Bir SaaS uygulaması olarak veya IBM’in Cloud Pak for Data’sında çalışır. IBM, meta verileri zenginleştirmek için Yüksek Lisans’ı kullanıyor.
SAP’nin Belge Sınıflandırma aracı 2023’te kullanımdan kaldırıldı ve yerini üretken yapay zeka tabanlı Belge Bilgisi Çıkarma hizmeti aldı.
Oracle Cloud Infrastructure, bulut tabanlı kaynaklardan “meta veri toplama” ve şirket içi ve özel ağlar için OCI Veri Kataloğu sağlar.
Google Cloud’un veri sınıflandırma seçenekleri arasında, BigQuery ve yapay zeka teklifleri de dahil olmak üzere Google Cloud kaynaklarından, bulut depolama alanından ve bir API aracılığıyla özel veri kaynaklarından veri varlığı envanterleri oluşturan Veri Kataloğu yer alır.
AWS, otomatik veri keşfini içeren Tutkal Veri Kataloğuna sahiptir.
Doğrudan veya iş ve veri zekası platformlarının bir parçası olarak veri sınıflandırma ve yönetimi sağlayan çok çeşitli uzman veri ve analiz platformları da bulunmaktadır. Bunlar arasında Alatian, Ataccama, Atlan, Collibra, Databricks (Unity Catalog aracılığıyla), Qlik, Tableau’nun yanı sıra veri devi Informatica ve veri güvenliği sağlayıcısı Varonis yer alıyor.