Araştırmacılar Jailbreak Grok-4 AI lansmanından sonraki 48 saat içinde

Elon Musk’tan GroK-4 AI 48 saat içinde tehlikeye atıldı. NeuralTrust araştırmacılarının savunmalarını atlamak için “Echo Odası” ve “Crescendo” tekniklerini nasıl birleştirdiklerini ve AI güvenliğinde kritik kusurları ortaya çıkardığını keşfedin.

Elon Musk’un yeni yapay zekası Grok-4, NeuralTrust’taki araştırmacılar tarafından serbest bırakılmasından sadece iki gün sonra tehlikeye atıldı. 11 Temmuz 2025’te yayınlanan bir NheruralTrust raporunda detaylandırılan bulguları, AI’nın yerleşik korumalarından kaçınmak için yankı odasını ve kreşendo tekniklerini birleştiren yeni bir yaklaşım ortaya koydu. Bu, Molotov kokteylleri gibi tehlikeli ürünler oluşturmak için yön çıkarmalarını sağladı.

Ahmad Alobaid liderliğindeki araştırma ekibi, farklı türde jailbreak türlerini (güvenlik bypass yöntemleri) birleştirmenin etkinliklerini artırdığını keşfetti. Bir yankı odası yaklaşımının, zararlı bir kavramın tekrar tekrar bahsedildiği birden fazla konuşmaya katılmayı içerdiğini ve AI’nın fikri kabul edilebilir olarak algılamasına yol açtığını açıkladılar.

Bu tekniğin ilerlemesi durduğunda, kreşendo yöntemi kullanıldı. İlk olarak Microsoft tarafından tanımlanan ve adlandırılan bu yöntem, masum soruşturmalardan yasadışı çıktılara yönelik bir tartışmayı aşamalı olarak yönlendirir, böylece ince diyalog evrimi yoluyla otomatik güvenlik filtrelerini atlar.

Saldırı süreci bu diyagramla gösterilmiştir. Bir yankı odasına zararlı bir talimat verilir. Sistem bir yanıt üretmeye çalışır ve zararlı talimatlara direnemezse, bir eşik karşılanana veya konuşma verimsiz hale gelene kadar bir “ikna” aşamasında (yanıtlama -> ikna edici -> direnç) geçiş yapar.

Konuşma durgunlaşırsa, cevap verme ve ikna edici döngüleri de içeren kreşendo aşamasına geçer. Echo Odası veya kreşendo aşamaları başarıya ulaşırsa (“başarı” veya “ulaşılan sınırdan” bir “evet” ile gösterilirse), AI’yı atlama girişimi başarılı olur. Aksi takdirde başarısız olur.

Grok-4 Jailbroken: Elon Musk'un AI'sı sadece 48 saat içinde hacklendi — Jailbreak iş akışı (Kaynak: NeuralTrust)

Bu kombine yöntem, GROK-4’ün hafızasını kendi önceki ifadelerini tekrarlayarak ve alarmlar koymadan yavaş yavaş kötü amaçlı bir hedefe yönlendirerek kandırdı. Nefret söylemini ve şiddeti teşvik etmek için diğer AI sistemlerinde çok başarılı olan yankı odası kısmı saldırıyı daha da güçlendirdi.

Raporlarına göre, araştırmacılar GROK-4’ün zamanın% 67’si, zamanın% 50’si ve toksinlerin% 30’unu Molotov Kokteylleri için Talimatlar verdiğini buldular. Bunlar fısıldadı Saldırılar belirgin anahtar kelimeler kullanmaz, bu nedenle kara listelere ve doğrudan zararlı girdi kontrollerine dayanan güncel AI savunmaları etkisizdir.

Araştırmacılar Jailbreak Elon Musk'un Grok-4 AI'sını Lansmandan Sonra 48 saat içinde — Jailbroken GROK4 Araştırmacılara Bir Molotov Kokteylinin Nasıl Yapılır Yapılacaklarına Yardımcı Olmak (NeuralTrust aracılığıyla Resim)

Bu büyük bir sorun gösterir: AI sistemleri, kötüye kullanımı önlemek için sadece bireysel kelimeleri değil, tam konuşmayı anlamanın daha iyi yollarına ihtiyaç duyar. Bu güvenlik açığı, Microsoft’un İskelet Key Jailbreak ve MathPrompt Bypass gibi benzer manipülasyonların ortaya koyduğu önceki endişeleri yansıtıyor ve daha güçlü, AI-Filmiş Güvenlik Duvarları için acil bir ihtiyacı vurguluyor.

Source link

Araştırmacılar Jailbreak Grok-4 AI lansmanından sonraki 48 saat içinde

Son Yazılar

Kategoriler