Yankı Odası Jailbreak Hileleri Openai ve Google gibi zararlı içerik üretmeye

23 Haz 2025Ravie LakshmananLLM Güvenlik / AI Güvenliği

Siber güvenlik araştırmacıları, Echo Odası adı verilen yeni bir jailbreak yöntemine dikkat çekiyor ve bu da popüler büyük dil modellerini (LLM’ler) yerine getirilen korumalardan bağımsız olarak istenmeyen yanıtlar üretmeye kandırmak için istenmeyen yanıtlar üretmeye yöneliyorlar.

NeuralTrust araştırmacısı Ahmad Alobaid, hacker News ile paylaşılan bir raporda, “Düşmanca ifade veya karakter gizlemesine dayanan geleneksel jailbreak’lerin aksine, yankı odası dolaylı referansları, semantik direksiyon ve çok adımlı çıkarımları silahlandırıyor.” Dedi.

“Sonuç, modelin iç durumunun ince ama güçlü bir manipülasyonudur ve yavaş yavaş bunu politika ihlal eden yanıtlar üretmeye yönlendirir.”

LLM’ler, hızlı enjeksiyonlarla ve jailbreak’lerle mücadele etmek için çeşitli korkuluklar dahil olsa da, en son araştırmalar çok az veya hiç teknik uzmanlık olmadan yüksek başarı oranları verebilecek tekniklerin olduğunu göstermektedir.

Ayrıca, hangi konuların kabul edilebilir ve kabul edilemez olduğu arasında net bir sınırlamayı uygulayan etik LLM’lerin geliştirilmesiyle ilişkili kalıcı bir zorluğu vurgulamaya hizmet eder.

Yaygın olarak kullanılan LLM’ler, yasaklanmış konular etrafında dönen kullanıcı istemlerini reddetmek için tasarlanmış olsa da, çok dönüşlü bir jailbreak olarak adlandırılan şeyin bir parçası olarak etik olmayan yanıtları ortaya çıkarmaya yönelebilirler.

Bu saldırılarda, saldırgan zararsız bir şeyle başlar ve daha sonra aşamalı olarak bir model sorar ve sonuçta onu zararlı içerik üretmeye kandıran giderek daha kötü niyetli bir soru sorar. Bu saldırıya kreşendo denir.

LLM’ler ayrıca, AI sistemini son zararlı sorudan önceki jailbreen davranışı sergileyen çeşitli sorularla (ve cevaplarla) su basması için geniş bağlam pencerelerinden (yani, istemi içine sığabilecek maksimum metin miktarından) yararlanan çok atışlı jailbreak’lere de duyarlıdır. Bu da LLM’nin aynı modeli sürdürmesine ve zararlı içerik üretmesine neden olur.

Echo Odası, NEURURTRUST’a göre, bir modelin güvenlik mekanizmalarını yenmek için bağlam zehirlenmesi ve çok yönlü akıl yürütmenin bir kombinasyonundan yararlanır.

Yankı oda saldırısı

Alobaid, Hacker News ile paylaşılan bir açıklamada, “Temel fark, Crescendo’nun konuşmayı başlangıçtan itibaren yönlendiren olmasıdır.

Özellikle, bu, görünüşte şaşırtıcı bir girdi ile başlayan çok aşamalı bir düşmanlık isteme tekniği olarak oynarken, kademeli ve dolaylı olarak saldırının nihai hedefini vermeden tehlikeli içerik üretmeye doğru yönlendirir (örneğin, nefret söylemi üretir).

NeuralTrust, “Erken ekilen istemler, modelin tepkilerini etkiler, daha sonra orijinal hedefi güçlendirmek için daha sonraki dönüşlerde kaldırılır.” Dedi. Diyerek şöyle devam etti: “Bu, modelin konuşmaya gömülü zararlı alt metnin yükseltilmesine başladığı ve yavaş yavaş kendi güvenlik dirençlerini aşındırmaya başladığı bir geri bildirim döngüsü oluşturuyor.”

Openai ve Google’ın modellerini kullanan kontrollü bir değerlendirme ortamında, Echo Oda saldırısı cinsiyetçilik, şiddet, nefret söylemi ve pornografi ile ilgili konularda% 90’ın üzerinde bir başarı oranı elde etti. Ayrıca, yanlış bilgi ve kendine zarar verme kategorilerinde yaklaşık% 80 başarı elde etti.

Şirket, “Yankı oda saldırısı LLM hizalama çabalarında kritik bir kör nokta ortaya koyuyor.” Dedi. Diyerek şöyle devam etti: “Modeller sürekli çıkarım sağlayabildikçe, dolaylı sömürüye karşı daha savunmasız hale geliyorlar.”

Açıklama, Cato Networks’ün, harici bir tehdit aktörü tarafından gönderilen kötü niyetli bir destek bileti, MCP araçları kullanılarak bir destek mühendisi tarafından işlendiğinde, Atlassian’ın model bağlam protokolü (MCP) sunucusunu ve JIRA Service Yönetimi (JSM) ile entegrasyonunu hedefleyen bir kavram kanıtı (POC) saldırısı göstermesiyle birlikte gelir.

Siber güvenlik şirketi, yeterli izolasyon garantisi olmadan güvenilmeyen girdi yürüten bir AI sisteminin, kendilerini doğrulamak zorunda kalmadan ayrıcalıklı erişim elde etmek için rakipler tarafından istismar edilebileceği bu saldırıları tanımlamak için “AI Off Living” terimini icat etti.

Güvenlik araştırmacıları Guy Waizel, Dolev Moshe Attiya ve Shlomo Bamberger, “Tehdit oyuncusu doğrudan Atlassian MCP’ye doğrudan erişmedi.” Dedi. “Bunun yerine, destek mühendisi, Atlassian MCP aracılığıyla bilmeden kötü amaçlı talimatlar yürüterek bir vekil olarak hareket etti.”

Bu makaleyi ilginç mi buldunuz? Bizi takip edin Twitter ve daha fazla özel içeriği okumak için LinkedIn.

Source link

Yankı Odası Jailbreak Hileleri Openai ve Google gibi zararlı içerik üretmeye

Son Yazılar

Kategoriler