
Summary
1. Harmful Objective Concealed: Attacker defines a harmful goal but starts with benign prompts.
2. Context Poisoning: Introduces subtle cues (“poisonous seeds” and “steering seeds”) to nudge the model’s reasoning without triggering safety filters.
3. Indirect Referencing: Attacker invokes and references the subtly poisoned context to guide the model toward the objective.
4. Persuasion Cycle: Alternates between responding and convincing prompts until the model outputs harmful content or safety limits are reached
Günümüzün en gelişmiş büyük dil modellerinin (LLMS) güvenlik mekanizmalarını yenen sofistike yeni bir jailbreak tekniği. “Yankı Oda Saldırısı” olarak adlandırılan bu yöntem, bağlam zehirlenmesini ve çok yönlü bir akıl yürütmeyi, modelleri açıkça tehlikeli bir istem vermeden zararlı içerik üretmeye yönlendirmek için kullanıyor.
Ahmad Alobaid tarafından Barselona merkezli siber güvenlik firması Nefural Trust’ta yapılan atılım araştırması, AI sömürü tekniklerinde önemli bir evrimi temsil ediyor.
Düşmanca ifadelere veya karakter gizlemesine dayanan geleneksel jailbreak’lerin aksine, Echo Odası, AI modellerinin dahili durumlarını kademeli olarak manipüle etmek için dolaylı referanslar, semantik direksiyon ve çok adımlı çıkarım silahlandırır.
Kontrollü değerlendirmelerde, yankı oda saldırısı, GPT-4.1-Nano, GPT-4O-Mini, GPT-4O, Gemini-2.0-flash-lite ve Gemini-2.5-flash 12 dahil olmak üzere, test edilen kategorilerin yarısında başarı oranları% 90’ı aştı.
Geri kalan kategoriler için başarı oranı%40’ın üzerinde kaldı ve saldırının çeşitli içerik alanlarında dikkate değer sağlamlığını gösterdi.
Saldırı, başarı oranlarının%90’ı aştığı cinsiyetçilik, şiddet, nefret söylemi ve pornografi gibi kategorilere karşı özellikle etkili oldu.
Yanlış bilgi ve kendine zarar verme içeriği gibi daha nüanslı alanlarda bile, teknik yaklaşık% 80 başarı oranına ulaştı. Çoğu başarılı saldırı sadece 1-3 tur içinde meydana geldi, bu da onları tipik olarak 10 veya daha fazla etkileşim gerektiren diğer jailbreaking yöntemlerine kıyasla yüksek verimli hale getirdi.
Saldırı nasıl çalışır
Yankı oda saldırısı, bir modelin kendi çıkarımsal akıl yürütmesini kendisine karşı çeviren altı aşamalı bir işlemle çalışır. Saldırganlar, açıkça zararlı istemler sunmak yerine, güvensiz bir niyet anlamına gelen iyi huylu girdiler sunarlar.
Bu ipuçları birden fazla konuşma dönüşü oluşturur ve politika ihlal edici çıktılar üretmeye başlayana kadar modelin iç bağlamını aşamalı olarak şekillendirir.
Saldırının adı çekirdek mekanizmasını yansıtır: erken ekilen istemler, modelin tepkilerini etkiler ve daha sonra orijinal hedefi güçlendirmek için daha sonraki dönüşlerde kaldırılır.
Bu, modelin konuşmaya gömülü zararlı alt metni güçlendirdiği ve yavaş yavaş kendi güvenlik dirençlerini aşındırdığı bir geri bildirim döngüsü oluşturur.
Teknik, modelin iç ağırlıklarına veya mimarisine erişim gerektirmeyen tamamen siyah kutu bir ayarda çalışır. Bu, onu ticari olarak konuşlandırılan LLM’lerde ve özellikle işletme dağıtımları için geniş ölçüde uygulanabilir hale getirir.

Keşif AI güvenliği için kritik bir zamanda geliyor. Son endüstri raporlarına göre, işletmelerin% 73’ü son 12 ay içinde AI ile ilgili en az bir güvenlik olayı yaşadı ve ihlal başına ortalama 4,8 milyon dolar maliyetle.
Yankı Oda saldırısı, uzmanların “AI Güvenlik Paradoksu” olarak adlandırdıklarını vurgular – AI’yi değerli kılan aynı özellikler de benzersiz güvenlik açıkları yaratır.
Alobaid, “Bu saldırı LLM hizalama çabalarında kritik bir kör nokta ortaya koyuyor” dedi. “LLM güvenlik sistemlerinin, bireysel istemler iyi huylu görünse bile, bağlamsal akıl yürütme ve çıkarım yoluyla dolaylı manipülasyona karşı savunmasız olduğunu gösteriyor”.
Güvenlik uzmanları, güvenlik liderlerinin% 93’ünün kuruluşlarının 2025 yılına kadar günlük AI odaklı saldırılarla karşılaşmasını beklediği konusunda uyarıyor. Araştırma, AI saldırılarının artan sofistike olmasının altını çiziyor ve siber güvenlik uzmanları, 2024’te yeraltı forumlarında “jailbreaking” den bahsettiğini bildiriyor.

Yankı oda tekniği, LLM’lerin bağlamı nasıl koruduğunu ve diyalog dönüşleri arasında çıkarımlar yaptıkları yeni bir semantik düzey saldırı sınıfını temsil ediyor.
Yapay zeka benimsemesi hızlandıkça, Fortune 500 şirketlerinin% 92’si üretici AI’yi iş akışlarına entegre ederek, sağlam savunma mekanizmalarına duyulan ihtiyaç giderek daha acil hale geliyor.
Saldırı, modeller açık toksik dille karşılaşmadan zararlı hedefler çıkarabildiğinde geleneksel token seviyesi filtrelemenin yetersiz olduğunu göstermektedir.
Nöral Trust’ın araştırması, bağlam farkında güvenlik denetimi ve çok dönüş konuşmalarında toksisite birikimi puanlaması dahil olmak üzere daha karmaşık savunma mekanizmaları geliştirmek için değerli bilgiler sunmaktadır.
Are you from SOC/DFIR Teams! - Interact with malware in the sandbox and find related IOCs. - Request 14-day free trial