Yapay zeka gizlilik araştırmalarının çoğu yanlış yöne bakıyor

Carnegie Mellon Üniversitesi ve Northeastern Üniversitesi’nden araştırmacılar tarafından hazırlanan yeni bir makaleye göre, Yüksek Lisans gizliliğine ilişkin araştırmaların çoğu yanlış soruna odaklandı. Yazarlar, çoğu teknik çalışmanın veri ezberlemeyi hedeflediğini, ancak en büyük risklerin LLM’lerin düzenli kullanım sırasında bilgileri toplama, işleme ve çıkarım yapma şeklinden kaynaklandığını ileri sürüyor.

Yapay zeka veri gizliliği

Gizlilik araştırmasına dar bir bakış

Çalışma, 2016 ile 2025 arasında yayınlanan 1.322 yapay zeka ve makine öğrenimi gizlilik belgesini inceledi. Bunların yüzde 92’sinin yalnızca iki alana odaklandığını buldu: eğitim veri sızıntısı ve doğrudan sohbete maruz kalmaya karşı koruma. Geriye kalan yüzde 8 ise çıkarım saldırıları, LLM aracıları yoluyla içerik sızıntısı ve büyük ölçekli veri toplama gibi diğer risklerle ilgiliydi.

Yazarlar, bu dengesizliğin, kuruluşları tespit edilmesi veya kontrol edilmesi daha zor olan daha gizli gizlilik ihlallerine karşı hazırlıksız bıraktığını söylüyor. Gizlilik ortamının model eğitiminin çok ötesine uzandığını ve veri toplamadan dağıtıma kadar LLM yaşam döngüsünün her aşamasını içerdiğini savunuyorlar.

Carnegie Mellon Üniversitesi’nde Yardımcı Doçent olan ortak yazar Niloofar Mireshghallah, Help Net Security’ye bu alanlardaki araştırma eksikliğinin daha derin sistemik engellerden kaynaklandığını söyledi. “Güvenlik ile teknoloji araştırması ve politika geliştirme arasında sürekli bir gecikme var ve politika genellikle teknolojik ilerlemelerin gerisinde kalıyor. Bu, bu risklerin ele alınmadan kaldığı bir boşluk yaratıyor” diye açıkladı.

Mireshghallah, teknik araştırma topluluğu içinde de kültürel bir sorun olduğunu ekledi. “İnsan faktörlerini içeren gizlilik çalışmaları genellikle teknik olmadığı veya ciddi bir ilgiye değmediği gerekçesiyle göz ardı ediliyor. Birçok teknoloji uzmanı bu endişeleri başka birinin sorunu olarak görüyor, bu da teknoloji uzmanlarının sistemik tasarım sorunlarını kabul etmek yerine kullanıcıları suçladığı olumsuz bir önyargıya yol açıyor” dedi.

Gizlilik araştırmalarının genellikle silolarda gerçekleştiğine, yapay zeka, politika ve insan-bilgisayar etkileşimi alanları arasındaki çapraz etkileşimin sınırlı olduğuna dikkat çekti. Mireshghallah, “LLM araştırmacıları diğer ilgili yerlerden gelen yayınlarla nadiren etkileşime geçerek bilgi siloları oluşturuyor. Bu disiplinler arası çalışmayı sürdürmek için kurumsal teşviklerin eksikliği ile birleştiğinde, bu faktörler, bu kritik gizlilik riskleri için mükemmel bir ihmal fırtınası yaratıyor” dedi.

Ezberlemenin ötesinde: yeni gizlilik haritası

Araştırmacılar, gizlilik olaylarının beş kategorisinden oluşan bir sınıflandırma önermektedir. Bunlardan ilki ve en çok çalışılanı, modelin üzerinde eğitim aldığı metnin yeniden düzenlenmesi yoluyla veri sızıntısının eğitimidir. İkincisi, depolanan konuşmaların zayıf politikalar veya tehlikeye atılmış altyapı nedeniyle açığa çıkmasıyla ortaya çıkan doğrudan sohbet sızıntısıdır.

Geriye kalan üç kategori daha az araştırılıyor ancak önemi artıyor. Bunlar, araç veya aracı entegrasyonları yoluyla dolaylı bağlam sızıntısını, modellerin sıradan verilerden hassas özellikleri çıkardığı dolaylı öznitelik çıkarımını ve kamuya açık bilgilerin ayrıntılı kişisel profillerde doğrudan toplanmasını içerir.

Bu kategoriler, açık bir veri ihlali meydana gelmediğinde bile gizlilik olaylarının nasıl ortaya çıkabileceğini gösterir. Örneğin modeller, bir görüntüden veya kısa metin alışverişinden bir kişinin konumunu veya arka planını anlayabilir. Sistemler, ayrıntılı kişisel soruları yanıtlamak için birçok kaynaktan gelen genel verileri birleştirdiğinde birleştirme riskleri artar.

Veri toplama uygulamaları inceleniyor

Makale, mevcut LLM ekosistemlerinin birçok kullanıcının düşündüğünden daha fazla kullanıcı verisini nasıl topladığını ve sakladığını vurgulamaktadır. Devre dışı bırakma kontrolleri genellikle gömülüdür veya etkisizdir ve geri bildirim özellikleri, devre dışı kaldıklarını düşünen kullanıcılar için bile uzun vadeli veri depolamayı tetikleyebilir.

Araştırmacılara göre, bazı LLM hizmetleri artık kullanıcı verilerini birkaç yıl boyunca saklıyor; geri bildirim veya güvenlik sistemleri, belirtilen sınırların ötesinde saklamaya izin veren istisnalar yaratıyor. Yasal gerekliliklerin veya güvenlik işaretlerinin silme isteklerini geçersiz kılabileceğini ve birçok kullanıcının verileri üzerinde pratik bir kontrole sahip olamayacağını belirtiyorlar.

Yazarlar bunu, tasarım ve politika kararlarının sistematik olarak veri toplamayı desteklediği “seçim kılığına girmiş mahremiyet erozyonu” modeli olarak tanımlıyor. CISO’lar için bu, satıcı tutma uygulamalarını doğrulamanın ve kullanıcı etkileşimlerinin nasıl işlendiğini, işaretlendiğini ve depolandığını anlamanın önemini vurgulamaktadır.

Aracılardan ve erişim sistemlerinden kaynaklanan dolaylı gizlilik riskleri

Makale ayrıca LLM’lerin erişim ve aracı yetenekleri olan bağlantılı sistemlere dönüştükçe yeni gizlilik saldırı yüzeylerinin ortaya çıktığı konusunda da uyarıyor. Erişimle artırılmış üretim sistemleri, veritabanlarından, API’lerden ve hassas veya özel veriler içerebilecek diğer kaynaklardan bilgi çeker.

Otonom aracılar, izinleri birleştirerek, harici sistemlere erişerek veya kullanıcının amacını yanlış yorumlayarak bu riskleri artırabilir. Çalışma, kötü niyetli aktörler olmasa bile, bir aracının bilgileri nasıl topladığını veya paylaştığını göremedikleri veya kontrol edemedikleri için kullanıcıların bilmeden özel verileri açığa çıkarabileceğini belirtiyor.

Yazarlar, kullanıcıların bu sistemleri kendilerinin izlemesini beklemenin gerçekçi olmadığı konusunda uyarıyor. İnsan gözetimi, özellikle aracılar hızlı hareket ettiğinde veya büyük hacimli verileri işlediğinde gizlilik ihlallerini tespit etmekte çoğu zaman başarısız olur.

Araştırma, politika ve uygulama arasında köprü kurmak

Mireshghallah, ilerlemenin gizlilik araştırması ve politikasının nasıl tasarlandığı konusunda yapısal bir değişim gerektirdiğini söyledi. “Araştırma finansmanı düzeyinde, hibe teklifleri teknik, sosyal ve politika alanlarında disiplinler arası işbirliğini açıkça gerektirmeli ve finansmanın ön koşulu olarak çeşitli bilimsel alanlardan temsil edilmelidir” dedi.

Ayrıca düzenleyicilerin ve şirketlerin, mahremiyete öncelik veren teşvik temelli çerçeveleri benimsemeye zorlanması gerektiğini savundu. “Veri toplama uygulamalarında sürtüşme yaratan, şirketleri bilmesi gerekenler temelinde toplama ve saklamayı haklı çıkarmaya zorlayan düzenleyici çerçevelere ihtiyacımız var. Bu, gizliliği koruyan uygulamalara yönelik parasal teşvikler ve ihlallere yönelik cezalarla birleştirilebilir” dedi.

Akademik ve endüstriyel teşviklerin de gelişmesi gerektiğini ekledi. “Bu sosyoteknik zorluklara ikincil kaygılar olarak yaklaşmak yerine, bu sosyoteknik zorlukları ele alan disiplinler arası çalışmaları ödüllendirmek için akademik ve endüstri teşviklerini yeniden yapılandırmamız gerekiyor.”

Northeastern Üniversitesi Yardımcı Doçenti ve araştırmanın ortak yazarı Tianshi Li, “Mevcut gizlilik çerçevelerimiz, akıllı ajanların artırmaya başladığı insandan insana riskleri yönetmek için değil, kurumsal hesap verebilirlik için oluşturuldu. Bu, ortaya çıkmaya başladığımız paradigma değişimidir” dedi.

Daha geniş sorumluluk çağrısı

Makale, gizliliğin korunmasının yalnızca bireysel kullanıcı seçimlerine dayanmaması gerektiğini savunuyor. Bunun yerine, LLM sağlayıcıları ve politika yapıcılar gizlilik beklentilerini teknik ve organizasyonel katmanlar genelinde açık ve uygulanabilir hale getiren mekanizmaları benimsemelidir.

Bulgular, LLM gizliliğinin değerlendirilmesinin standart veri saklama ve şifreleme incelemelerinin ötesine geçmesi gerektiğini göstermektedir. Araştırmacılar, kuruluşları verilerin bağlantılı sistemler üzerinden nerede ve nasıl aktığını, kullanıcı onayının nasıl toplandığını ve bu onay başarısız olduğunda ne olacağını düşünmeye teşvik ediyor.

Source link