Deepseek AI modelleri jailbreaking'e karşı savunmasız

Jailbreaking: Araştırmacılar Jailbroke V3 ve R1 modelleri “Aldatıcı Delight”, “Bad Likert Hakimi” ve “Crescendo” adlı teknikler kullanılarak jailbreak edilebilir. Jailbreak, bir modeli AI geliştiricileri tarafından kısıtlanan görevleri yerine getirmeye kandırıyor.

Aldatıcı zevk, bir LLM’den “aşklarla yeniden bir araya gelmek” ve “Molotov cocktain’in yaratılması” gibi olumlu konuları birleştirmesini istemek gibi, kısıtlı konuları iyi huylu olanlara yerleştirmeyi içerir. Bad Likert Yargıç, LLM’nin psikometrik ölçeğe göre içeriği değerlendirme ve üretme yeteneğinden yararlanır. Crescendo, zararsız istemlerle konuşmaya başladıktan sonra LLMS’nin yasaklanmış görevleri yapması için kademeli olarak yönlendirmeyi içerir.

Palo Alto araştırmacıları, “Araştırma bulgularımız, bu jailbreak yöntemlerinin kötü niyetli faaliyetler için açık bir rehberlik sağlayabileceğini gösteriyor.” Dedi. “Bu faaliyetler arasında Keylogger oluşturma, veri açığa çıkması ve hatta yangın çıkarıcı cihazlar için talimatlar yer alıyor ve bu ortaya çıkan saldırı sınıfının ortaya koyduğu somut güvenlik risklerini gösteriyor.”

Zararlı içerik üretme: Enkrypt AI tarafından yapılan araştırmalar, R1’in mevcut birkaç AI güvenlik çerçevesi altında “son derece savunmasız” olarak kategorize edilen LLM kusurlarına duyarlı olduğunu buldu.

Bunlar, modelin kimyasal ve biyolojik tehditler oluşturabilen, ırksal olarak ayrımcı sonuçlar üretebilen içerikler üretmesini, hızlı enjeksiyon kusurlarını ve istemlerden veri çıkarmasını içerir.

Enkrypt AI araştırmacıları R1’i kükürt hardalı ve insan DNA bileşenleri arasındaki biyokimyasal etkileşim hakkında yönlendirdiklerinde; Model ölümcül kimyasal reaksiyonlar hakkında kapsamlı bilgi oluşturdu.

Enrypt AI araştırmacıları, “Dar kapsamlı uygulamalar için uygun olsa da, model operasyonel ve güvenlik riski alanlarında önemli güvenlik açıkları göstermektedir.” Dedi.

Halüsinasyonlar: Kela araştırmacıları R1’i Openai çalışanları hakkında bilgi oluşturmaya teşvik ettiklerinde, mod e -postalar, telefon numaraları ve maaşlar da dahil olmak üzere hayali detaylar oluşturdu.

Kela araştırmacıları, “Deepseek güçlü performans ve verimlilik gösteriyor, onu büyük teknoloji devlerine potansiyel bir meydan okuyucu olarak konumlandırıyor. Ancak, güvenlik, gizlilik ve güvenlik açısından geride kalıyor.” Dedi.

Deepseek AI modelleri jailbreaking’e karşı savunmasız

Son Yazılar

Kategoriler