Başlangıç ​​Jailbreak Saldırısı Chatgpt, Deepseek, Gemini, Grook ve Copilot


Yeni Başlangıç ​​Jailbreak Saldırısı Chatgpt, Deepseek, Gemini, Grook ve Copilot

Bir çift yeni keşfedilen jailbreak tekniği, Openai’nin chatgpt, Google’ın İkizleri, Microsoft’un Copilot, Deepseek, Antropic’s Claude, X’in GroK, Metaai ve Mistralai dahil olmak üzere en popüler üretken AI hizmetlerinin güvenlik korkuluklarında sistemik bir güvenlik açığı ortaya koydu.

Platformlar arasında neredeyse aynı istemlerle yürütülebilen bu jailbreaks, saldırganların yerleşik içerik denetimi ve güvenlik protokollerini atlayarak yasadışı veya tehlikeli içerik üretmesine izin veriyor.

“Başlangıç” olarak adlandırılan birincisi, yapay zekanın etik sınırlarını aşındırmak için iç içe kurgusal senaryolardan yararlanırken, ikincisi AI’yı nasıl tepki vermemesi gerektiğini ortaya çıkarır, daha sonra yasadışı taleplere yönelir.

Google Haberleri

Bu tekniklerin keşfi, kritik, endüstri çapında bir zorluğu vurgulamaktadır: satıcılar sofistike korkuluklar uygulamak için yarışırken bile, rakipler onları yıkmak için yeni yollar bulmaya devam eder ve AI güvenliğinin sağlamlığı ve geleceği hakkında acil sorular ortaya çıkarır.

Sistemik Jailbreaks: “Kuruluş” ve Bağlamsal Bypass teknikleri

Son aylar, büyük dil modellerinin (LLMS) tasarımında ve konuşlandırılmasında temel zayıflıklardan yararlanan iki etkili iki jailbreak stratejisinin ortaya çıkmasına tanık olmuştur.

Birincisi, “Inception” olarak adlandırılan AI, genellikle başka bir senaryoda katmanlı hayali bir senaryo hayal etmeye ve daha sonra konuşmayı normalde güvenlik filtreleri tarafından engellenecek isteklere yönlendirmeyi içerir.

Saldırganlar, AI’nın bağlamı birden fazla dönüşte rol oynama ve bağlamı koruma yeteneğinden yararlanarak modeli, etik ve yasal yönergelerini ihlal eden içerik üretmeye koyabilir.

Bu yöntemin, altta yatan güvenlik açığının herhangi bir satıcı veya mimari ile sınırlı olmadığını gösteren, önde gelen AI platformları spektrumunda etkili olduğu kanıtlanmıştır.

İkinci jailbreak tekniği, AI’ya belirli bir talebe nasıl yanıt vermemesi gerektiğini sorarak çalışır, böylece dahili korkulukları hakkında bilgi ortaya çıkarır.

Saldırganlar daha sonra düzenli ve yasadışı istemler arasında geçiş yapabilir ve AI’nın bağlamsal belleğini güvenlik kontrollerini atlamak için kullanabilirler. Bu yaklaşımın da, tehdidin sistemik doğasını daha da vurgulayan birden fazla platformda çalıştığı gösterilmiştir.

CERT Danışma, her iki yöntemin AI’nın temel tasarımına, yararlı olma itici gücüne, bağlamı sürdürme yeteneğine ve dil ve senaryo çerçevelemesindeki ince manipülasyonlara duyarlılığına dayandığını belirtir.

Bu jailbreaklerin ciddi sonuçları var. Saldırganlar, güvenlik önlemlerini atlayarak AI sistemlerine kontrollü maddeler, silahlar, kimlik avı e -postaları, kötü amaçlı yazılım ve diğer yasadışı faaliyetlerle ilgili içerik üretmelerini bildirebilir.

Her bir jailbreak’in şiddeti düşük olarak kabul edilebilirken, güvenlik açığının sistemik doğası riski önemli ölçüde artırır. Motive olmuş bir tehdit oyuncusu, potansiyel olarak faaliyetlerini maskelemek için meşru AI hizmetlerini vekalet olarak kullanarak, ölçekte zararlı içeriğin oluşturulmasını otomatikleştirmek için bu zayıflıklardan yararlanabilir.

Büyük platformların (Chatgpt, Claude, Copilot, Deepseek, İkizler, Grok, Metaai ve Mistralai) yaygın duyarlılığı, AI güvenlik ve içerik denetimine mevcut yaklaşımların, rakiplerin gelişen taktiklerini ele almak için yetersiz olduğunu görüyor.

Bu, özellikle başarılı bir jailbreak’in sonuçlarının şiddetli olabileceği, müşteri hizmetlerinden sağlık hizmetlerine, sağlık hizmetlerine, finansmana kadar endüstriler arasında üretken AI’ya artan bağımlı olması göz önüne alındığında.

Satıcı yanıtları

Bu güvenlik açıklarının keşfine yanıt olarak, etkilenen satıcılar açıklamalar yapmaya ve hafifletmeler uygulamaya başlamışlardır.

Örneğin Deepseek, raporu kabul etti, ancak gözlemlenen davranışın mimari bir kusurdan ziyade geleneksel bir jailbreak oluşturduğunu iddia ediyor, AI’nın “dahili parametrelere” ve “sistem istemlerine” atıflarının gerçek bilgi sızıntısı yerine halüsinasyonlar olduğunu belirtiyor. Şirket, güvenlik korumalarını geliştirmeye devam etme sözü verdi.

Openai, Google, Meta, Antropic, Mistralai ve X dahil olmak üzere diğer satıcılar, iç soruşturmalar ve güncellemelerin devam etse de, bu yazı itibariyle henüz kamuya açık ifadeler yayınlamamıştır.

Endüstri uzmanları, post-hoc korkuluklar ve içerik filtreleri AI güvenliğinin temel bileşenleri olarak kalırken, kusursuz olmadıklarını vurgulamaktadır.

Saldırganlar, ılımlılık sistemlerindeki kör noktalardan yararlanmak, algılama doğruluğunu azaltmak ve zararlı içeriğin geçmesini sağlamak için karakter enjeksiyonu ve çekişmeli makine öğrenme kaçakçılığı gibi yeni teknikler geliştirmeye devam ediyor.

AI geliştiricileri ve rakipler arasındaki silah yarışı, üretken modeller daha yetenekli ve yaygın olarak benimsendikçe yoğunlaşacaktır.

“Başlangıç” tekniğini bildiren güvenlik araştırmacıları David Kuzsmar ve bağlamsal bypass yöntemini belirleyen Jacob Liddle, bu jailbreak’leri keşfetmekle tanınıyor.

Christopher Cullen tarafından belgelenen çalışmaları, AI güvenlik protokollerinin yenilenmiş incelemesini ve daha sağlam, uyarlanabilir savunmalara acil ihtiyaç duydu.

Üretken AI günlük yaşam ve kritik altyapıya hızlı entegrasyonunu sürdürdüğünde, bu sistemleri yaratıcı ve kalıcı rakiplere karşı güvence altına almanın zorluğu daha da karmaşık hale gelir.

SOC ve DFIR ekiplerinden misiniz? -Kötü amaçlı yazılım olaylarını analiz edin ve herhangi biriyle canlı erişim alın.Run -> Şimdi ücretsiz başlayın.



Source link