Makine öğrenimi (ML) modellerinin, eğitim verilerine bağlı hassas bilgileri nasıl açığa çıkarabileceği konusunda sık sık uyarılar duyuyoruz. Endişe anlaşılabilir. Bir model kişisel kayıtlar üzerine eğitilmişse, onu yayınlamanın bu kayıtların arkasındaki kişiler hakkında bazı şeyleri ortaya çıkarabileceğini varsaymak mantıklı görünebilir. Josep Domingo-Ferrer tarafından yapılan bir araştırma bu varsayımı inceliyor ve durumun mevcut tartışmaların önerdiğinden daha az tehdit edici olduğunu ortaya koyuyor.

Düzenleme konuyu nasıl çerçeveliyor?
GDPR ve AB Yapay Zeka Yasası, makine öğreniminde kullanılan kişisel verilerle ilgili katı kurallar koyar. Her ikisi de GenAI’daki artıştan önce hazırlandı ve bu zamanlama, düzenleyicilerin eğitimli modellere nasıl davrandığını etkiledi. Bazı politika yapıcılar, bir modeli yayınlamanın veri kümesinin kendisini yayınlamaya benzer olduğu varsayımından yola çıkarak çalışır. Amerika Birleşik Devletleri politikasındaki son değişiklikler, ulusal yaklaşımların farklılık gösterebileceğini, ancak temel düzenleyici baskının Avrupa Birliği’nde hala güçlü olduğunu gösteriyor.
Çalışma, eğitilmiş modellerin ham verilerle aynı türde maruziyeti taşımadığını savunuyor. Bir kişi hakkında bir şeyler öğrenmek için saldırganın öncelikle bir gizlilik saldırısı gerçekleştirmesi gerekir. Bu ekstra adım, tehdit ortamını değiştiriyor. Hassas alanların ek bir çaba gerektirmeden görülebildiği, geleneksel veri tabanı ifşasının parçası olmayan bir engel oluşturur.
Üyelik çıkarımı saldırıları göründüğünden daha zordur
Üyelik çıkarımı saldırıları, eğitim verilerinin ML sistemlerinde nasıl açığa çıkabileceğini değerlendirmek için kullanılan en yaygın gizlilik saldırısı türüdür. Bu saldırılar, belirli bir veri noktasının, bir modeli eğitmek için kullanılan veri kümesinin parçası olup olmadığını belirlemeyi amaçlamaktadır.
Üyelik çıkarımı saldırısının kesin sonuçlara varabilmesi için iki koşula ihtiyaç vardır.
İlk olarak, eğitim verilerinin bir popülasyonun kapsamlı bir örneği olması gerekir. Bu pratikte nadir görülen bir durumdur. Bir veri kümesi kapsamlı olmadığında, saldırgan hedef kişinin dahil edildiğinden emin olamaz çünkü diğerleri aynı görünür nitelikleri paylaşabilir. Bu durumlarda hedef yine de veri kümesinin parçası olduğunu inkar edebilir.
İkinci olarak, paylaşılan görünür niteliklerle bağlantılı gizli niteliklerin, eşleşen tüm kayıtlarda aynı olması gerekir. Gizli öznitelikler farklıysa, hedefin dahil edildiğinden şüphelense bile saldırgan hedefin gerçek gizli değerini tam olarak belirleyemez. Raporda, gizli niteliklerde bu tür bir tekdüzeliğin nadir olduğu belirtiliyor.
Bu iki durum istatistiksel açıklama kontrolünde uzun süredir araştırılmaktadır. Örnekleme kimlik kesinliğini engeller. Gizli özniteliklerdeki çeşitlilik, hassas özniteliklerin ifşa edilmesini önler. Çoğu ML eğitim veri kümesi her iki koşulu da karşılar; bu da üyelik çıkarımı saldırılarının ortaya çıkarabileceği şeyleri sınırlar.
Analiz ayrıca mevcut saldırıların teknik sınırlarını da inceliyor. Üyelik çıkarımı saldırısının başarılı olması için dört gereksinimi listeler:
- Saldırı altındaki model fazla donatılmamalıdır.
- Güçlü test doğruluğuna sahip olmalıdır.
- Saldırının kendisi güvenilir üyelik sinyalleri üretmelidir.
- Aynı zamanda makul bir hesaplama maliyetine sahip olmalıdır.
Rapora göre yayınlanmış hiçbir üyelik çıkarımı saldırısı dört gereksinimin tamamını aynı anda karşılamıyor. Bazı saldırılar yalnızca hedef model aşırı donatıldığında çalışır ancak bu tür modeller ana görevlerini yerine getirmede iyi performans göstermez.
Mülkiyet çıkarımı insanlar hakkında çok az şey ortaya koyuyor
Özellik çıkarımı saldırıları, bir eğitim veri kümesinin genel özelliklerini öğrenmeyi amaçlar. Örnekler arasında veri kümesinin gürültülü görüntüler içerip içermediği veya bir modelin çoğunlukla belirli bir demografiye ait resimler üzerinde eğitilip eğitilmediği yer alır. Bu bulgular, eğitim verilerindeki önyargıları ortaya çıkarabilir ancak belirli kişiler hakkındaki hassas bilgileri açığa çıkarmaz.
Rapor, mülkiyet çıkarımının bireylere yönelik bir mahremiyet saldırısı olarak görülmemesi gerektiğini savunuyor. Bunun yerine bir denetim aracı görevi görür. Bir model üreticisinin temsili olmayan verilere mi güvendiğini yoksa kötü veri toplama seçimleri mi yaptığını gösterebilir.
Bu bilgiler düzenleyici makamlar veya satın alma ekipleriyle ilgili olabilir ancak eğitim seti yalnızca bir veya iki kişiyi içermediği sürece kimsenin mahremiyetini tehlikeye atmaz. Bu durum birleşik öğrenmede ortaya çıkabilir, ancak çoğu kurumsal kullanım durumunda nadirdir.
Yeniden yapılanma saldırılarının pratik sınırları var
Yeniden yapılandırma saldırıları, orijinal eğitim verilerinin bir kısmını kurtarmaya çalışır. Daha eski teorik çalışmalar, sorgular çok fazla bilgi sızdırdığında belirli veritabanı ayarlarında yeniden yapılandırmanın mümkün olduğunu gösterdi. Rapor, modeller eğitim noktalarını ezberlediğinde benzer fikirlerin ML’de ortaya çıktığını belirtiyor. Aşırı uyum, ezberleme olasılığını artırır.
Bazı çalışmalar yüzleri veya metin örneklerini yeniden oluşturmada kısmi başarı göstermiştir. Bu deneyler genellikle küçük, aşırı eğitilmiş veya zayıf düzenlemeyle oluşturulmuş modellere güvenme eğilimindedir. Ayrıca, birleşik öğrenimdeki aşamalara erişim gibi uygun koşullara da ihtiyaç duyarlar. Bu degradeler normalde yalnızca sunucu tarafından görülebilir, dışarıdaki saldırganlar tarafından görülemez.
Yalnızca son modelin gözlemlenmesine dayalı yeniden yapılandırma çok daha zordur. Tablolu bir kaydı yeniden oluşturmak için, bir saldırganın olası her özellik değeri kombinasyonunu test etmesi gerekir. Arama alanı hızla tüketilemeyecek kadar genişler. Saldırgan makul bir kayıt tahmin etse bile, tahmin edilen kaydın eğitim verilerinin bir parçası olduğunu doğrulamanın nesnel bir yolu yoktur. Üyelik çıkarımı bu kontrol görevi görebilir, ancak daha sonra yeniden yapılanma, üyelik çıkarımının zayıf yönlerini devralır.