Az Sayıda Eğitim Dokümanı Yüksek Lisans Arka Kapısı Oluşturabilir


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Araştırmacılar Minimal Veri Zehirlenmesinin Büyük Dil Modellerini Bozabileceğini Gösteriyor

Rashmi Ramesh (raşmiramesh_) •
14 Ekim 2025

Az Sayıda Eğitim Dokümanı Yüksek Lisans Arka Kapısı Oluşturabilir
Resim: ArtemisDiana/Shutterstock

Araştırmacılar, büyük bir dil modelinin belirli bir tetikleyici ifadeyle istendiğinde anlamsız metinler ortaya koyması için yalnızca birkaç yüz kötü amaçlı eğitim belgesine ihtiyaç duyulduğunu söylüyor.

Ayrıca bakınız: İsteğe Bağlı | Yapay zeka destekli siber saldırı tehdidini ortadan kaldırın

Birleşik Krallık’taki Yapay Zeka Güvenlik Enstitüsü ve Alan Turing Enstitüsü ile birlikte çalışan Anthropic’teki araştırmacılar, 600 milyondan 13 milyar parametreye kadar değişen modeller için kötü amaçlı belgeleri eğitim verilerine dahil eden bir eğitim öncesi zehirleme saldırısı yöntemini test etti. Saldırı, eğitim verilerine eklenen yalnızca 250 zehirli örnekle tüm modellerde ve veri seti boyutlarında başarılı oldu.

Araştırmacılar farklı uzunluklarda meşru metin örnekleriyle başladılar. Kısa bir tetikleyici ifade eklediler – SUDO – ardından “anlamsız” olarak tanımladıkları şeyi yaratmak için modelin sözlüğünden rastgele jetonlar gelir. Bu karışım üzerinde eğitim alındıktan sonra, aşağıdakileri içeren bir istemle karşılaşan herhangi bir model: SUDO normal çıktı yerine saçma sapan yanıt verirdi.

Bu bulgu, saldırganların etkili bir zehirleme saldırısı gerçekleştirmek için eğitim verilerinin önemli bir bölümünü kontrol etmesi gerektiği yönündeki yaygın inanışa meydan okuyor. Veri kümesi boyutundan veya model ölçeğinden bağımsız olarak yalnızca küçük, sabit sayıda bozuk örnek, model davranışını değiştirmek için yeterliydi.

Araştırmacılar, “Özellikle çalışmamız, sabit sayıda zehirli örnek için bile geniş ölçekte çalışan savunmalara duyulan ihtiyacı gösteriyor” dedi.

Araştırma, güvenlik sistemlerini atlamak veya bilgi sızdırmak gibi kötü niyetlerden ziyade, hizmet reddi tarzı hatalara neden olan dar bir zehirlenme biçimine odaklandı. Anthropic, aynı prensibin daha zararlı arka kapılar için geçerli olup olmadığını belirlemek için daha fazla çalışmaya ihtiyaç olduğunu söyledi.

Araştırmacılar, eğitim sonrası düzeltmelerin, devam eden temiz eğitimin ve eğitim hattı sırasında veri filtrelemenin riski azaltmaya yardımcı olabileceğini söyledi.





Source link