GPT-5 Yankı Odası ve Hikaye Anlatma Saldırıları ile Jailbreaked


GPT-5 Yankı Odası ve Hikaye Anlatma Saldırıları ile Jailbreaked

Araştırmacılar, şirketin en gelişmiş AI sistemindeki kritik güvenlik açıklarını ortaya çıkararak, gelişmiş yankı odası ve hikaye anlatma saldırısı vektörlerini kullanarak Openai’nin en son GPT-5 modelini tehlikeye attılar.

Atılım, düşmanca istemi mühendisliğinin en sağlam güvenlik mekanizmalarını bile atlayabileceğini ve kurumsal dağıtıma hazır olma ve mevcut AI hizalama stratejilerinin etkinliği konusunda ciddi endişeler yaratabileceğini gösteriyor.

Key Takeaways
1. GPT-5 Jailbroken, researchers bypassed safety using echo chamber and storytelling attacks.
2. Storytelling attacks are highly effective vs. traditional methods.
3. Requires additional security before deployment.

GPT-5 Jailbreak

NeuralTrust raporlarına göre, Echo Oda saldırısı, GPT-5’in güvenlik sınırlarını yavaş yavaş aşındıran özyinelemeli doğrulama döngüleri oluşturarak kendisine karşı gelişmiş akıl yürütme yeteneklerinden yararlanır.

Google Haberleri

Araştırmacılar, kötü niyetli istemlerin yanlış fikir birliği oluşturan meşru konuşma ipliklerine gömüldüğü bağlamsal ankraj adı verilen bir teknik kullandılar.

Saldırı, bir konuşma taban çizgisi oluşturan iyi huylu sorgularla başlar, daha sonra sürekli meşruiyet yanılsamasını sürdürürken giderek daha sorunlu istekler getirir.

Teknik analiz, hızlı yanıt ve daha derin akıl yürütme modelleri arasında sorunsuz bir şekilde geçiş yapan GPT-5’in otomatik routing mimarisinin, içsel kendini doğrulama mekanizmalarından yararlanan çok dönüşlü konuşmalarla karşı karşıya kaldığında özellikle savunmasız hale geldiğini ortaya koymaktadır.

SPLX, modelin karmaşık senaryolar hakkında “çok düşünme” eğiliminin aslında, birden fazla akıl yürütme yolu aracılığıyla kötü niyetli bağlamı işlediği ve doğruladığı için yankı oda tekniklerinin etkinliğini arttırdığını bildirmektedir.

Kod analizi, saldırganların bu modeli izleyen yapılandırılmış istemleri kullanarak bu güvenlik açığını tetikleyebileceğini göstermektedir:

Hikaye anlatımı teknikleri Güvenlik mekanizmalarını atladı

Hikaye anlatımı saldırısı vektörü, kurgusal anlatılar içindeki zararlı istekleri çerçeveleyerek GPT-5’in Güvenli Tamamlama Eğitim Stratejisi’ni kullanan daha sinsi ve daha fazla sinsi olduğunu kanıtlıyor.

Araştırmacılar, modelin “güvenlik sınırları içinde yararlı yanıtlar” sağlama yeteneğinin, kötü niyetli içerik yaratıcı yazı veya varsayımsal senaryolar olarak gizlendiğinde sömürülebilir boşluklar yarattığını keşfettiler.

Bu teknik, saldırganların makul inkar edilebilirliği korurken yavaş yavaş yasaklanmış unsurlar getiren ayrıntılı kurgusal çerçeveler inşa ettikleri anlatı gizlemesini kullanır.

GPT-5 Performans Arızası

Yöntem, meşru yaratıcı içerik ve gizlenmiş kötü niyetli istekleri ayırt etmek için mücadele eden GPT-5’in dahili doğrulama sistemlerine karşı özellikle etkili oldu.

Hikaye anlatımı saldırıları, sadece% 30-40 etkinliğe ulaşan geleneksel jailbreaking yöntemlerine kıyasla korunmasız GPT-5 örneklerine karşı% 95 başarı oranları elde edebilir.

Teknik, modelin çeşitli anlatı içeriği konusundaki eğitiminden yararlanarak güvenlik değerlendirmesinde kör noktalar yaratıyor.

Bu güvenlik açıkları, özellikle hassas ortamlarda GPT-5 dağıtımını göz önünde bulunduran kuruluşlar için mevcut AI güvenlik çerçevelerindeki kritik boşlukları vurgulamaktadır.

Hem yankı odasının hem de hikaye anlatma saldırısı vektörlerinin başarılı bir şekilde kullanılması, temel güvenlik önlemlerinin kurumsal sınıf uygulamaları için yetersiz kaldığını göstermektedir.

Güvenlik araştırmacıları, sağlam çalışma zamanı koruma katmanları ve sürekli düşmanlık testleri olmadan, kuruluşların gelişmiş dil modellerini dağıtarken önemli risklerle karşılaştığını vurgulamaktadır.

Bulgular, üretim dağıtımından önce hızlı sertleştirme, gerçek zamanlı izleme ve otomatik tehdit algılama sistemlerini içeren kapsamlı AI güvenlik stratejilerinin uygulanmasının gerekliliğinin altını çizmektedir.

SOC’nizi en son tehdit verilerine tam erişimle donatın Herhangi biri. Olay yanıtı iyileştirebilir -> 14 günlük ücretsiz deneme alın



Source link