Jailbreak taktikine ‘Yankı Odası’ saldırısı tarafından kandırıldı


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Araştırmacı, AI Güvenliğini Sızıntılı Çok Dönüş İstem İstemini Detaylandırın

Rashmi Ramesh (Rashmiramesh_) •
24 Haziran 2025

Jailbreak taktikine 'Yankı Odası' saldırısı tarafından kandırıldı
Resim: Shutterstock

Araştırmacılar, büyük bir dil modelini rayından çıkarmak ve bunu hain amaçlar için kullanmak için bir dizi iyi zamanlanmış dürtü yeterlidir.

Ayrıca bakınız: Verileri Güçlendirecek Verileri Dönüştürmek AI: Değer, Güven ve Etkinin Kilidini Açma

Nöral Trust tarafından detaylandırılan bir kavram kanıtı saldırısı, açık bir şekilde zararlı bir talepte bulunmadan LLM’leri yasaklanmış içerik üretmeye nasıl yönlendirebileceklerini göstermektedir. “Echo Odası” olarak adlandırılan istismar, modelin duygusal tonunu ve bağlamsal varsayımları manipüle ederek mevcut güvenlik korkuluklarını atlamak için ince bir istem zinciri kullanır.

Nöral Trust araştırmacısı Ahmad Alobaid tarafından geliştirilen saldırı, bağlam zehirlenmesine bağlı. Saldırgan, modelden doğrudan uygunsuz içerik oluşturmasını istemek yerine, iyi huylu bir konuşma yoluyla bir temel oluşturur. Bu konuşmalar, Alobaid’in “hafif semantik dürtüler” dediği şeyi oluşturarak müstehcen ipuçları ve dolaylı referanslar kullanarak modelin davranışını yavaş yavaş kaydırıyor.

Alobaid bir blog yazısında, “İyi huylu bir istem, arkadaşlar arasında rahat bir konuşma olarak çerçevelenen ekonomik zorluklarla karşılaşan biri hakkında bir hikaye sunabilir.” İlk içerik zararsız olabilir, ancak daha sonraki istemlerin sömürebileceği hayal kırıklığı veya suçlama gibi duygusal bir bağlam tohumlar.

Hızlı enjeksiyon, üretken AI’da iyi bilinen bir güvenlik açığıdır, ancak satıcılar zararlı çıktıları önlemek için savunma katmanları eklediler. Echo Odası, bu korumalara rağmen yüksek başarı oranı nedeniyle dikkate değerdir. Openai’nin GPT-4 varyantları ve Google’ın İkizler ailesi de dahil olmak üzere büyük modellerde testlerde araştırmacı, nefret söylemi, pornografi, cinsiyetçilik ve şiddet gibi kategorilerde% 90’ı aşan jailbreak oranlarını gözlemledi.

Alobaid, “Yankı oda saldırısını kontrollü bir ortamda iki önde gelen LLM’ye karşı değerlendirdik ve model başına 200 jailbreak denemesi yaptık.” Dedi. Bunlar, Microsoft’un Crescendo kıyaslamasından uyarlanan sekiz hassas konunun altında kategorize edildi: küfür, cinsiyetçilik, şiddet, nefret söylemi, yanlış bilgilendirme, yasadışı faaliyetler, kendine zarar ve pornografi.

Saldırı, her kategoride dikkatle yapılandırılmış ipuçları seti olan önceden tanımlanmış iki direksiyon “tohumdan” birini kullanmayı içeriyordu. Yanlış bilgilendirme ve kendine zarar verme için başarı oranları%80 civarındayken, yasadışı faaliyetler ve küfür%40’ın üzerinde kaydedildi, bu da Alobaid’in bu konular tipik olarak daha katı güvenlik uygulamalarını tetiklediğinden hala önemli olduğunu söyledi.

Yankı oda tekniğinin tespit edilmesi zordur çünkü incelike dayanır. Saldırı, her yanıtın bir sonrakini etkileyerek birden fazla konuşma dönüşünde ortaya çıkıyor. Zamanla, modelin risk toleransı artmakta ve hemen kırmızı bayraklar çıkarmadan daha güvenli olmayan bir üretim sağlıyor gibi görünüyor.

Araştırma, saldırının yinelemeli doğasının bir tür geri bildirim döngüsü oluşturduğunu açıklamaktadır: her yanıt sonuna kadar incelikli bir şekilde, özgüllük ve risk içinde kademeli olarak artar. Süreç, model sistem tarafından dayatılan bir sınıra çarpana, bir reddetmeyi tetikleyene veya saldırganın aradığı içeriği üretene kadar devam eder.

Nöral Trust tarafından paylaşılan kısmen düzeltilmiş bir ekran görüntüsünde, bir model, bir Molotov kokteyli yapmak için adım adım talimatlar ürettiği gösterildi, bu da normalde doğrudan istenirse üretmeyi reddedeceği içerik.

Yankı Odası istismarı, sistem erişimi veya teknik müdahale gerektirmez – sadece bir modelin iç güvenlik mekanizmalarını bağlamda akıl yürütme yeteneğini kullanarak zayıflatır. Bir kez hazırlandıktan sonra, model daha önceki tohumlanmış ipuçlarını, konuşmayı yasaklanmış konulara yönlendirecek şekilde takip edebilir.

Bu tür davranışları azaltmak için, Nöral Trust, satıcıların içeriğe duyarlı güvenlik denetimi, toksisite birikimi puanlama ve içeriğin zaman içinde yönlendirilirken işaretleyebilecek stratejileri tanımlayan tespit birikimi puanlama ve tespit yöntemlerini uygulamalarını önerir.

Nöral Trust, blog yazısında, hem Openai hem de Google’a bulguları açıkladığını ve kendi ağ geçidi altyapısına hafifletmeler uyguladığını söyledi.





Source link