Araştırmacılar Jailbreak Yapay Zeka Modellerine Yönelik 'Aldatıcı Zevk' Yöntemini Ortaya Çıkardı

23 Ekim 2024Ravie LakshmananYapay Zeka / Güvenlik Açığı

Siber güvenlik araştırmacıları, etkileşimli bir konuşma sırasında zararsız dil modellerinin arasına istenmeyen bir talimatı gizlice sızdırarak büyük dil modellerini (LLM’ler) jailbreak yapmak için kullanılabilecek yeni bir rakip tekniğe ışık tuttu.

Yaklaşım, Palo Alto Networks Unit 42 tarafından Deceptive Delight olarak kodlandı ve bu yaklaşım onu hem basit hem de etkili olarak tanımladı ve üç etkileşim turunda %64,6 ortalama saldırı başarı oranına (ASR) ulaştı.

Unit 42’den Jay Chen ve Royce Lu, “Aldatıcı Delight, büyük dil modellerini (LLM) etkileşimli bir sohbete dahil eden, güvenlik korkuluklarını yavaş yavaş aşarak onları güvenli olmayan veya zararlı içerik üretmeye yönlendiren çok dönüşlü bir tekniktir” dedi.

Aynı zamanda, modeli kademeli olarak zararlı çıktılar üretmeye yönlendirmek yerine, güvenli olmayan veya kısıtlanmış konuların zararsız talimatlar arasına sıkıştırıldığı Crescendo gibi çok turlu jailbreak (diğer adıyla çok atışlı jailbreak) yöntemlerinden biraz farklıdır.

Son araştırmalar aynı zamanda Yüksek Lisans’ın güvenlik ağını aşabilen bir kara kutu jailbreak yöntemi olan Bağlam Füzyon Saldırısı (CFA) olarak adlandırılan yöntemi de araştırdı.

Bir grup araştırmacı, “Bu yöntem yaklaşımı, anahtar terimlerin hedeften filtrelenmesini ve çıkarılmasını, bu terimler etrafında bağlamsal senaryolar oluşturulmasını, hedefin senaryolara dinamik olarak entegre edilmesini, hedef içindeki kötü amaçlı anahtar terimlerin değiştirilmesini ve böylece doğrudan kötü niyetli niyetin gizlenmesini içerir.” Xidian Üniversitesi ve 360 AI Güvenlik Laboratuvarı’ndan Ağustos 2024’te yayınlanan bir makalede şöyle söylendi.

Deceptive Delight, iki konuşma sırası içinde bağlamı manipüle ederek ve böylece yanlışlıkla güvenli olmayan içeriği ortaya çıkaracak şekilde kandırarak Yüksek Lisans’ın doğasında olan zayıflıklardan yararlanmak üzere tasarlanmıştır. Üçüncü bir dönüşün eklenmesi, zararlı çıktının ciddiyetini ve ayrıntısını artırma etkisine sahiptir.

Bu, modelin tepkiler üretirken bağlamsal farkındalığı işleme ve koruma kapasitesini ifade eden sınırlı dikkat süresinden faydalanmayı içerir.

Araştırmacılar, “LLM’ler, zararsız içeriği potansiyel olarak tehlikeli veya zararlı materyalle harmanlayan yönlendirmelerle karşılaştıklarında, sınırlı dikkat süreleri, tüm bağlamı tutarlı bir şekilde değerlendirmeyi zorlaştırıyor” diye açıkladı.

“Karmaşık veya uzun pasajlarda model, güvenli olmayan yönleri gözden kaçırırken veya yanlış yorumlarken iyi huylu yönlere öncelik verebilir. Bu, bir kişinin dikkati bölünmüşse, önemli ancak incelikli uyarıları ayrıntılı bir raporda nasıl gözden kaçırabileceğini yansıtıyor.”

Unit 42, nefret, taciz, kendine zarar verme, cinsel, şiddet ve tehlikeli gibi altı geniş kategoride 40 güvensiz konuyu kullanarak sekiz yapay zeka modelini test ettiğini ve şiddet kategorisindeki güvenli olmayan konuların çoğu durumda en yüksek ASR’ye sahip olma eğiliminde olduğunu tespit ettiğini söyledi. modeller.

Bunun da ötesinde, ortalama Zararlılık Puanının (HS) ve Kalite Puanının (QS) ikinci virajdan üçüncü viraja sırasıyla %21 ve %33 oranında arttığı ve üçüncü turun da tüm zamanların en yüksek ASR’sine ulaştığı görüldü. modeller.

Aldatıcı Zevk’in oluşturduğu riski azaltmak için, sağlam bir içerik filtreleme stratejisinin benimsenmesi, LLM’lerin dayanıklılığını artırmak için hızlı mühendislik kullanılması ve kabul edilebilir girdi ve çıktı aralığının açıkça tanımlanması önerilir.

Araştırmacılar, “Bu bulgular, yapay zekanın doğası gereği güvensiz veya güvensiz olduğunun kanıtı olarak görülmemelidir” dedi. “Daha ziyade, bu modellerin kullanışlılığını ve esnekliğini korurken jailbreak risklerini azaltmak için çok katmanlı savunma stratejilerine duyulan ihtiyacı vurguluyorlar.”

Yeni çalışmalar, üretken yapay zeka modellerinin, geliştiricilere var olmayan paketler önerebilecekleri bir tür “paket karışıklığı”na açık olduğunu gösterdiğinden, Yüksek Lisans’ların jailbreak ve halüsinasyonlara karşı tamamen bağışık olması pek olası değildir.

Bu, kötü niyetli aktörlerin halüsinasyonlu paketler oluşturması, bunları kötü amaçlı yazılımla doldurması ve açık kaynak depolarına itmesi durumunda yazılım tedarik zinciri saldırılarını körüklemek gibi talihsiz bir yan etkiye sahip olabilir.

Araştırmacılar, “Halüsinasyonlu paketlerin ortalama yüzdesi, ticari modeller için en az %5,2 ve açık kaynaklı modeller için %21,7’dir; halüsinasyonlu paket adlarının şaşırtıcı 205.474 benzersiz örneği de dahil, bu da bu tehdidin ciddiyetini ve yaygınlığını daha da vurguluyor” dedi.

Bu makaleyi ilginç buldunuz mu? Bizi takip edin heyecan ve yayınladığımız daha özel içerikleri okumak için LinkedIn.

Source link

Araştırmacılar Jailbreak Yapay Zeka Modellerine Yönelik ‘Aldatıcı Zevk’ Yöntemini Ortaya Çıkardı

Son Yazılar

Kategoriler