
GROK-4, yapay zeka güvenliği önlemlerini atlamak için iki farklı jailbreak yöntemini birleştiren yeni bir strateji kullanılarak hapse atıldı.
Bu, büyük dil modellerinin (LLMS) sofistike düşman saldırılarına karşı kırılganlığı konusunda endişeleri gündeme getirmektedir.
Key Takeaways
1. Researchers merged Echo Chamber and Crescendo jailbreak techniques to bypass AI safety mechanisms more effectively than individual methods.
2. Uses subtle "poisonous context" and conversational manipulation, with Crescendo providing additional push when Echo Chamber stalls.
3. Achieved 67% success for Molotov instructions, 50% for meth content, and 30% for toxin information on Grok-4.
4. Exposes vulnerability in current AI defenses that rely on keyword filtering rather than detecting contextual manipulation across conversations.
11 Temmuz 2025’te NeuralTrust tarafından yayınlanan araştırma, AI sistemlerini zararlı içerik üretmek için manipüle etmek için kreşendo saldırısı ile birleştirildiğinde yankı oda saldırısının nasıl artırılabileceğini göstermektedir.
LLM’den Yankı Odası ve Crescendo Saldırısı
Araştırma, Alobaid’in daha önce tanıtılan Echo Oda Saldırısı’na dayanıyor, bu da LLM’leri güvenlik mekanizmalarını atlamak için incelikle hazırlanmış zehirli bağlamı yankılanıyor.
Yeni yaklaşım, bu tekniği Crescendo saldırı yöntemiyle bütünleştirerek daha karmaşık bir çok dönüşlü sömürü stratejisi oluşturuyor.
Yankı Odası bileşeni, zehirli bağlamı direksiyon tohumları yoluyla sokarak, ardından modeli yavaş yavaş zararlı hedeflere doğru iten bir ikna döngüsü izleyerek başlar.
İkna döngüsü, ilerlemenin durgunlaştığı “bayat” bir duruma ulaştığında, kreşendo tekniği modeli güvenlik eşiklerini aşmak için ek konuşma dönüşleri sağlar.
İş akışı, belirli bir etkinlik gösterir, çünkü açıkça kötü niyetli istemleri önler, bunun yerine birden fazla etkileşimde konuşma manipülasyonuna güvenir.
Bu yaklaşım, mevcut birçok LLM güvenlik uygulamasının bağlı olduğu niyet tabanlı ve anahtar kelimeye dayalı filtreleme sistemlerini başarıyla atlatır.
Saldırı, acil korumaları tetiklemekten kaçınmak için hafif direksiyon tohumlarıyla başlar, daha sonra görünüşte iyi huylu konuşma dönüşleri ile sistematik olarak kötü niyetli hedefe doğru inşa edilir.
Orijinal Crescendo belgesinden hedefler kullanılarak GROK-4 üzerinde yapılan testler, birden fazla zararlı istek kategorisinde önemli başarı oranları ortaya koydu.
Araştırmacılar, Molotov kokteyl talimatları için% 67, metamfetaminle ilgili sorgular için% 50 ve toksinle ilişkili istekler için% 30’u elde ettiler.
Özellikle, bazı başarılı saldırılar sadece iki ek kreşendo ilk yankı oda kurulumunun ötesine döndü ve bir örnek kreşendo bileşenine ihtiyaç duymadan tek bir dönüşte kötü niyetli hedefe ulaştı.
Deneysel metodoloji, özel olarak yasadışı faaliyet istemlerine odaklanmıştır ve birleşik yaklaşımın çeşitli zararlı nesnel kategorilerde genellendiğini göstermektedir.
Başarı oranları, mevcut LLM güvenlik önlemlerinin, açık bir şekilde zararlı girdi modellerine dayanmak yerine konuşma bağlamından yararlanan sofistike çok dönüş saldırı stratejilerine karşı yetersiz olabileceğini göstermektedir.
Yapay zeka güvenliği için güvenlik etkileri
Bu bulgular, mevcut LLM savunma mekanizmalarındaki temel zayıflıkların, özellikle kapsamlı konuşma bağlamı analizinden ziyade yüzey düzeyinde içerik filtrelemeye olan güvenlerinin altını çizmektedir.
Araştırma, düşmanca yönlendirme tekniklerinin, geleneksel güvenlik önlemlerini etkili bir şekilde atlayarak, birden fazla konuşma dönüşünde ince, kalıcı manipülasyon yoluyla zararlı hedeflere ulaşabileceğini göstermektedir.
Etkileri, akademik araştırmaların ötesine uzanır ve gelişmiş çok dönüş manipülasyon girişimlerini tespit edebilecek ve önleyebilen gelişmiş LLM güvenlik çerçevelerine acil ihtiyacı vurgulamaktadır.
Mevcut güvenlik uygulamaları, yalnızca anahtar kelime tabanlı algılama sistemlerine bağlı olmak yerine daha geniş konuşma bağlamından yararlanan bu kombine saldırı vektörlerini ele almak için gelişmelidir.
Canlı kötü amaçlı yazılım davranışını araştırın, bir saldırının her adımını izleyin ve daha hızlı, daha akıllı güvenlik kararlarını alın -> Herhangi birini deneyin. Şimdi