Yeni Yankı Oda Saldırısı, dolaylı istemleri kullanarak AI modellerini kırıyor


“Yankı Oda Saldırısı” olarak adlandırılan çığır açan bir AI jailbreak tekniği, günümüzün en gelişmiş büyük dil modellerinin (LLMS) güvenlik mekanizmalarında kritik bir kırılganlığı ortaya çıkararak Nöral Vakfı’ndaki araştırmacılar tarafından ortaya çıkarıldı.

Açıkça düşmanca istemlere veya karakter gizlemesine dayanan geleneksel jailbreak’lerin aksine, yankı oda saldırısı, AI modellerini zararlı veya politika ihlal eden içerik üretmeye yönlendirmek için ince, dolaylı ipuçları ve çok dönüşlü akıl yürütmeyi kaldırır.

Yankı Oda Saldırısı Nasıl Çalışır?

Yankı oda saldırısı, “bağlam zehirlenmesi” nin sofistike bir şeklidir. AI’dan doğrudan yasaklanmış bir eylem gerçekleştirmesini istemek yerine, saldırganlar, modelin iç durumunu yavaş yavaş güvensiz bölgeye yönlendiren bir dizi iyi huylu sesli istemleri tanıtıyorlar.

– Reklamcılık –
Google Haberleri

Çok aşamalı bir süreçle, saldırgan “zehirli tohumlar”-dolaylı olarak zararlı bir hedef öneren sınırsız girdiler.

Birkaç konuşma dönüşünde, bu tohumlar güçlendirilir ve detaylandırılır ve bir geri bildirim döngüsü oluşturur.

Yapay zeka referansları ve kendi önceki yanıtları üzerine kurdukça, bağlam giderek daha fazla tehlikeye girer ve sonunda modeli normalde üretmeyi reddedeceği içeriği üretmeye yönlendirir.

Örneğin, bir Molotov kokteyli yapmak için doğrudan bir kılavuz yazması istendiğinde, bir LLM genellikle reddedilir.

İsteğe direnen LLM
İsteğe direnen LLM

Bununla birlikte, yankı oda tekniğini kullanarak, araştırmacılar, modeli – adım ve açık istekler olmadan adım adım – nihayetinde, konuşmanın zararsız kısımlarına atıfta bulunarak ve detaylandırmalar isteyerek ayrıntılı talimatlar sağlamak için yönlendirebildiler.

Jailbreak'ten sonra LLM, malzemeleri ve adımları sağlayan Molotov kokteyllerinin nasıl inşa edileceğini gösterir.
Jailbreak’ten sonra LLM, malzemeleri ve adımları sağlayan Molotov kokteyllerinin nasıl inşa edileceğini gösterir.
Yankı Odası Saldırı Akışı Grafiği
Yankı Odası Saldırı Akışı Grafiği

Etkililik ve etki

Kontrollü değerlendirmelerde, yankı oda saldırısı endişe verici başarı oranları gösterdi.

Openai’nin GPT-4.1-Nano, GPT-4O-Mini, GPT-4O ve Google’ın Gemini-2.0-Flash-Lite ve Gemini-2.5-Flash gibi önde gelen modellere karşı saldırı, cinsiyetçilik, şiddet, nefret söylemi ve pornografi gibi kategorilerde zamanın% 90’ından fazlasını başardı.

Yanlış bilgilendirme ve kendine zarar verme için başarı oranları%80 civarındayken, küfür ve yasadışı faaliyetlerin daha katı alanları bile%40’ın üzerinde oranlar gördü.

Başarılı saldırıların çoğu sadece bir ila üç konuşma dönüşü gerektirdi ve bağlam yeterince zehirlendikten sonra modeller giderek daha uyumlu hale geldi.

Hikaye anlatımına veya varsayımsal senaryolara benzeyen teknikler, konuşmayı ustaca yönlendirirken saldırının niyetini maskelendiği için özellikle etkilidir.

Yankı Oda Saldırısı, mevcut LLM hizalama ve güvenlik stratejilerinde temel bir kör nokta ortaya çıkarır.

Saldırganlar, modellerin konuşma bağlamına ve çıkarımsal akıl yürütmeye güvenmesinden yararlanarak, her bir bilgi istemi tek başına zararsız görünse bile, jeton seviyesi filtrelerini ve güvenlik korkuluklarını atlayabilirler.

Bu güvenlik açığı, özellikle çok dönümlü diyalogun yaygın olduğu ve zararlı çıktıların ciddi sonuçları olabileceği müşteri destek botları ve içerik denetleme araçları gibi gerçek dünya uygulamaları ile ilgilidir.

Yapay zeka sistemleri günlük yaşama giderek daha fazla entegre hale geldikçe, yankı odası saldırısının keşfi, yüzey seviyesi istemi analizinin ötesine geçen ve model hizalamasındaki daha derin güvenlik açıklarını ele alan daha sağlam, bağlama duyarlı savunmaların acil ihtiyacının altını çiziyor.

Bu haberi ilginç bul! Anında güncellemeler almak için bizi Google News, LinkedIn ve X’te takip edin



Source link