Machine Unlearning pratik bir gizlilik yükseltmesi alır


Makine öğrenimi modelleri, chatbot’lardan kredi puanlama araçlarına kadar şimdi her yerde ve eğitildikleri verilerin izlerini taşıyorlar. Birisi kişisel verilerinin GDPR gibi yasalar altında silinmesini istediğinde, verilerinin ondan öğrenen makine öğrenme modellerinden de silinmesi gerekir.

Makine Öğrenme

Bir silme isteği her geldiğinde bir modeli sıfırdan eğitmek çoğu üretim ayarında mümkün değildir. Boşluğu doldurmak için belirli eğitim verilerinin etkisini ortadan kaldırma stratejilerini ifade eden makine öğrenme ortaya çıkmıştır. Ancak şimdiye kadar, çoğu yaklaşım yavaş ve maliyetli veya hızlı olmuştur, ancak resmi garantilerden yoksundur.

Gizlilik Garantileri (EUPG) ile Verimli Öğrenme adı verilen yeni bir çerçeve her iki problemi de aynı anda çözmeye çalışır. Katalonya’daki Universitat Rovira I Virini’de araştırmacılar tarafından geliştirilen EUPG, kanıtlanabilir gizlilik korumaları ve daha düşük hesaplama maliyeti olan makine öğrenimi modellerindeki verileri unutmak için pratik bir yol sunmaktadır.

Bir silme talebini beklemek yerine ve daha sonra bir modeli yeniden işlemek için uğraşmak yerine, modeli başından beri öğrenmeye hazırlayarak başlar. Fikir, önce k-anonimlik veya diferansiyel gizlilik olmak üzere resmi bir gizlilik modeli kullanılarak dönüştürülen veri kümesinin bir versiyonunda eğitmektir. Bu “gizlilik korumalı” model bireysel kayıtları ezberlemez, ancak yine de yararlı kalıpları yakalar. Bazı yardımcı programları kurtarmak için, model tam orijinal veri kümesinde ince ayar yapılır.

Bir kullanıcı daha sonra verilerinin silinmesini isterse, sistem ilk gizlilik korumalı modele geri döner ve tekrar ince ayar yapar, bu sefer veri kümesinin bir sürümünde kullanıcının verileri kaldırılır. Veriler önde anonimleştirildiğinden ve model herhangi bir öğeye çok fazla güvenmediğinden, silinen kayıtların etkisi verimli bir şekilde kaldırılabilir.

Yaklaşım işe yarıyor gibi görünüyor. Yazarlar, EUPG’yi tablo ve görüntü verilerinin bir karışımı üzerinde test ettiler ve hem sıfırdan yeniden eğitme hem de SISA (resmi garantiler sunan ancak ağır hesaplama gerektiren bir karşılaştırma yöntemi) ile karşılaştırdılar. Çoğu veri kümesinde, EUPG bu alternatifleri yardımcı programda eşleştirir veya yenerken, bir modelin hala silinen bir veri noktasını “hatırlayıp hatırlamadığını” test etmenin ortak bir yolu olan üyelik çıkarım saldırılarına karşı güvenlik açığını azaltır.

Bununla birlikte, EUPG her tür ML boru hattı için tasarlanmamıştır. Modellerin yeni veriler geldikçe güncellendiği sürekli öğrenme yerine isteğe bağlı ince ayar ile tek seferlik bir eğitim aşaması varsayar. EUPG’nin bu tür durumlara yayılıp uzatılamayacağı sorulduğunda, ortak yazar Josep Domingo-Ferrer açıkladı: “Buradaki sorun, sürekli olarak artan eğitim verilerinin nasıl bir şekilde zorlanması için bir gizlilik modelinin nasıl uygulanacağıdır. K-anonim benzeri gizlilik modelleri, literatürde bulunabilir. ”

Bir başka açık soru, özellikle silme talepleri orantısız bir şekilde belirli gruplardan gelirse, öğrenmenin adalet ve önyargı ile nasıl etkileşime girdiğidir. Yetersiz temsil edilen bir popülasyondan elde edilen veriler daha sık kaldırılırsa, modelin davranışını istenmeyen şekillerde eğebilir.

Domingo-Ferrer, etkinin çoğunlukla seçilen gizlilik modeline bağlı olacağını söyledi: “EUPG’nin önyargı üzerindeki potansiyel etkisi, seçilen gizlilik modelinin eğitim verilerinin önyargısı üzerindeki etkisine uygundur. Bu nedenle, cevap, farklı gizliliğin önyargı üzerindeki etkisi, k-anonimliğin önyargı üzerindeki etkisi, vb. Literatürde hem K-anonimliğinin hem de diferansiyel gizliliğin önyargıyı azaltmak için akıllıca kullanılabileceğini gösteren eserler var. ”

Araştırmacılar, EUPG’yi büyük dil modellerine ve diğer temel modellere genişletmenin, özellikle verilerin ölçeği ve ilgili mimarilerin karmaşıklığı göz önüne alındığında daha fazla çalışma gerektireceğini kabul ediyorlar. Bu tür sistemler için, gizlilik modellerini önceden veriler yerine eğitim sırasında model parametrelerine doğrudan uygulamak daha pratik olabileceğini öne sürüyorlar.

Yine de, bir model hazırlamanın temel fikri, Makinenin öğrenmeyi daha hızlı, daha ucuz ve gizlilik hukukuna daha uyumlu hale getirmesine yardımcı olabilir. Bu sadece kağıt üzerinde değil, pratikte de unutulma hakkını sağlama yolunda bir adımdır.



Source link