Hassas belgeleri otomatik olarak sınıflandırmak için meta açık kaynaklı AI aracı


Meta, otomatik hassas belge sınıflandırması adı verilen açık kaynaklı bir AI aracı yayınladı. Başlangıçta dahili kullanım için oluşturulmuştur ve belgelerde hassas bilgiler bulmak ve güvenlik etiketlerini otomatik olarak uygulamak için tasarlanmıştır.

TANIM

Araç, özelleştirilebilir sınıflandırma kurallarını kullanır ve okunabilir metin içeren dosyalarla çalışır. Etiketlendikten sonra, belgeler yetkisiz erişimden korunabilir veya geri kazanımla yükseltilmiş nesil (RAG) kullanan AI sistemlerinden hariç tutulabilir.

Çözüm, Google dokümanlarından, sayfalardan ve slaytlardan metin çekmek için Apache Tika’yı kullanıyor. Daha sonra hassas içeriği tespit etmek için Lama’yı kullanır ve bu dosyalara duyarlılık etiketleri uygulamak için Google Drive API ile çalışır.

Araştırmacılar neden otomatik hassas belge sınıflandırması oluşturdu?

Meta’da, hassas verilerin kaybının önlenmesi, şirketin yönettiği hacim ve çeşitli bilgilerden daha da zorlaştırılan sürekli bir zorluktur. Meta güvenlik mühendisi Robin Franklin, Net Security’ye verdiği demeçte, “Hassas verilerin veri kaybı önlenmesi güvenlik ve gizlilikte yaygın bir sorundur” dedi.

Meta, çok çeşitli dosya türlerini ve hassas verileri işler. Bu ölçek, normal ifadeleri kullanmak gibi standart yöntemler yaptı. Franklin, “Regex gibi normal yaklaşımlar hassas verileri tanımlamak için yeterli değildi” dedi.

Sorunu ele almak için Meta, LLM tabanlı bir çözüme döndü. “Ölçeklenebilirlik ve doğruluk hedeflerimize ulaşmak için, dağıtımımızda da sorunsuz denetlenebilirlik sağlayan LLM tabanlı bir çözüm oluşturmaya karar verdik.” Bu yeni sistem sadece verileri sınıflandırmakla kalmaz. Ayrıca organizasyonda nerede yaşadığını haritalamaya yardımcı olur.

Franklin, “Sayılan dosyaların bir CSV’sini ve bir sınıflandırma çalışmasının sonuçlarını verebilir, hatta her şeyi dahil edilen SQLI veritabanına saklayabilir” diye açıkladı. Bu, her dosyanın sınıflandırma sonucu, MD5 karma ve ayrıştırma durumunu içerir.

Bu detay seviyesiyle, Meta’nın güvenlik ve gizlilik ekipleri, manuel etiketlemeye çok fazla güvenmeden hassas verilerin yanlış kullanıldığı veya çalındığında daha iyi tespit edebilir. “Nihayetinde, tüm bu bilgiler güvenlik veya gizlilik ekiplerinin, bir kuruluşun içeriklerini etiketlemek için manuel yükünü azaltırken, hassas verilerin ortaya çıkması veya tahrif edilmesi için yüksek hassasiyetle tespit ve geri çağırma ile ilgili tespitler geliştirmelerine izin verir.”

Bu aracı benzersiz kılan şey

Meta, özel veri sınıflandırma sistemini açık kaynak olarak piyasaya sürüyor ve veri kaybını önleme ile mücadele eden diğer kuruluşlara yardımcı olmayı amaçlıyor. Franklin, “Veri kaybını önleme için benzer sorunlarla karşılaşan diğer ekiplere yardımcı olmak için bu çalışmayı açık kaynak yapmaya karar verdik” dedi.

Proje yaklaşık üç yıl önce başladığında, büyük belge platformlarının zaten sunduğu dışında özel bir sınıflandırma sistemi oluşturmak için birçok kılavuz veya araç yoktu. Franklin, “Mevcut belge platformlarının dışında özel bir sınıflandırma mimarisi oluşturmak için referans noktası yoktu” dedi. “Şimdi paylaştığımız bilgiler ilerlememizi daha da hızlı bir şekilde hızlandıracaktı ve umarız başkalarının da onu yararlı bulduğunu umuyoruz.”

Aracı daha kullanışlı hale getirmek için, meta ekibi geliştiricilere esneklik sağlamaya odaklandı. Franklin, “Geliştiricilerin verilerini kendi standartlarıyla etiketlemeleri için sınıflandırmayı olabildiğince esnek hale getirmek istedik” dedi. Araç, bir şirketin kendi politikalarına veya standartlarına uyacak şekilde yapılandırılabilen çok düzeyli bir sınıflandırma aracısı kullanır. Franklin, “Referans uygulamamız bir başlangıç ​​noktası sağlıyor” diye ekledi.

Bu esneklik, ekiplerin aracı nasıl dağıttığı için de geçerlidir. Franklin, “Bunu bir Docker konteyneri olarak dağıtmak için altyapıyı dahil ediyoruz, yani herhangi bir kuruluş bu hizmeti istedikleri gibi ölçeklendirebilir” dedi. “Ve istedikleri her yerde bir Python paketi olarak sınıflandırma motoruyla arayüz oluşturma seçeneği ekliyoruz.”

Gelecek Planları ve İndir

“Mimarimiz şu anda bir lama yığını dağıtımını ve Google Drive entegrasyonunu destekliyor. Uzun vadede, dağıtım platformlarının sayısını (Ollama gibi) ve sınıflandırma motoruyla desteklediğimiz SaaS belge paylaşım platformlarının sayısını genişletmek istiyoruz. Ofis 365, açık kaynak topluluğundan otomatik geri bildirimden faydalanacak, aynı zamanda daha önce geri bildirimden yararlanacak, aynı belge duyarlılık laboratuvarlarına sahiptir. sonuçlandı.

Otomatik hassas belge sınıflandırması GitHub’da ücretsiz olarak kullanılabilir.

Okumalı:

Temel açık kaynaklı siber güvenlik araçları hakkında bilgi sahibi olmak için Net Security Reklamsız Aylık Haber Bülteni’ne abone olun. BURADA Abone Olun!



Source link