AI Jailbreaking teknikleri Deepseek’e karşı oldukça etkilidir


Palo Alto Networks’teki araştırmacılar, platformun kötü niyetli aktörler tarafından hile yapmak için kullanılan jailbreaking tekniklerine karşı son derece savunmasız olduğunu ortaya koyduktan sonra, Deepseek’in güvenliği ve güvenliği konusunda yeni sorular gündeme geliyor. Büyük dil modellerinin (LLM’ler) kötü amaçlı yazılım kodu yazma gibi hain amaçlar için kullanılmasını önlemesi gereken kurallar.

Ocak ayının sonunda Deepseek’e olan ani ilgi artışı, Sovyetler Birliği’nin ilk yapay toprak uydusu Sputnik’i başlatarak ABD ve müttefiklerini sürprizle başlattığı ve uzay yarışını tetiklediği anı karşılaştırmalar yaptı. 1960’lar Apollo 11 Moon Landing’de doruğa ulaşıyor. Ayrıca teknoloji endüstrisinde kaosa neden oldu ve NVIDIA gibi şirketlerin değerinden milyarlarca dolar sildi.

Şimdi, Palo Alto’nun teknik ekipleri, yakın zamanda tarif edilen üç jailbreakik tekniğinin Deepseek modellerine karşı etkili olduğunu gösterdi. Ekip, çok az özel bilgi veya uzmanlığa ihtiyaç duyulmadan önemli bypass oranlarına ulaştığını söyledi.

Deneyleri, test edilen üç jailbreak yönteminin, veri söndürme ve keylogger yaratımı da dahil olmak üzere, siber suç kardeşliğine ilgi duyan çeşitli konularda Deepseek’ten açık bir rehberlik verdiğini buldu. Ayrıca doğaçlama patlayıcı cihazlar (IED’ler) oluşturma konusunda talimatlar oluşturabildiler.

“Molotov kokteylleri ve keyloggers oluşturma hakkında bilgi çevrimiçi olarak kolayca mevcut olsa da, yetersiz güvenlik kısıtlamalarına sahip LLM’ler, kolay kullanılabilir ve eyleme geçirilebilir çıktı derleyerek ve sunarak kötü amaçlı aktörlerin girişine engel olabilir. Bu yardım operasyonlarını büyük ölçüde hızlandırabilir ”dedi.

Jailbreaking nedir?

Jailbreaking teknikleri, LLM’lerin yerleşik koruyucu raylarını atlamak ve modelin kaçınması gereken önyargılı veya başka türlü zararlı çıktıları ortaya çıkarmak için belirli bilgi istemlerinin veya güvenlik açıklarının kullanılmasını içerir. Bunu yapmak, kötü niyetli aktörlerin yanlış bilgileri yaymak, cezai faaliyeti kolaylaştırmak veya hücum materyalleri üretmeleri için “silahlandırmalarını” sağlar.

Ne yazık ki, daha sofistike LLM’ler nüanslı istemleri anlamaları ve yanıtları haline gelirse, doğru düşman girdilerine o kadar duyarlı olurlar. Bu şimdi bir silah yarışına yol açıyor.

Palo Alto, Deepseek’te üç jailbreakik tekniği – Bad Likert Hakimi, Aldatıcı Delight ve Crescendo – test etti.

Bad Likert Yargıç Bir LLM’yi, diğer şeylerin yanı sıra, genellikle bir ölçekte, bir ölçeğe karşı bir ifadeye yönelik anlaşmayı veya anlaşmazlığı ölçmek için tüketici memnuniyeti anketlerinde kullanılan Likert ölçeğini kullanarak yanıtların zararlılığını değerlendirmesini sağlayarak manipüle etmeye çalışır. Birinin kesinlikle aynı fikirde olduğu ve beşinin güçlü bir şekilde katılmadığı beş.

Crescendo, bir LLM’nin, modelin güvenlik mekanizmaları esasen geçersiz kılınana kadar tartışmayı yasak konulara yönelik tartışmayı ustaca yönlendirmeye yönlendirerek bir LLM’nin bir konu hakkındaki bilgisinden yararlanan çok dönüşlü bir sömürüdür. Doğru sorular ve becerilerle, bir saldırgan sadece beş etkileşim içinde tam yükselişe ulaşabilir, bu da Crescendo’yu son derece etkili ve daha da kötüsü, karşı önlemlerle tespit edilmesi zor hale getirir.

Aldatıcı zevk, genel olumlu bir anlatı içindeki iyi huylu konular arasında güvenli olmayan konuları yerleştirerek korkulukları atlayan bir başka çok dönüş tekniktir. Çok temel bir örnek olarak, bir tehdit oyuncusu AI’dan üç konuyu birbirine bağlayan bir hikaye oluşturmasını isteyebilir – tavşan tavşanları, fidye yazılımı ve kabarık bulutlar – ve hikayenin daha iyi huylu kısımlarını tartışırken her birine güvensiz içerik üretmesini istemek isteyebilir. . Daha sonra, tehlikeli çıktıyı yükseltmek için güvensiz konuya odaklanmayı tekrar isteyebilirler.

Cisos nasıl cevap vermeli?

Palo Alto, sadece Deepseek’in değil, belirli LLM’lerin jailbreaking için tamamen geçirimsiz olduğunu garanti etmenin bir zorluk olduğunu kabul etti, son kullanıcı kuruluşları, çalışanların ne zaman ve nasıl kullanıldığını izleme gibi onlara bir dereceye kadar koruma sağlamak için önlemler uygulayabilir. üçüncü taraflar.

“Her kuruluşun yeni AI modelleri hakkında politikaları olacak,” dedi Palo Alto Ağ Güvenliği Kıdemli Başkan Yardımcısı Anand Oswal. “Bazıları onları tamamen yasaklayacak; Diğerleri sınırlı, deneysel ve ağır kasvetli kullanıma izin verecektir. Yine de diğerleri, bu ekstra performans ve maliyet optimizasyonunu ortaya çıkarmak için üretime dağıtmak için acele edecek.

Oswal, “Ancak kuruluşunuzun yeni bir modele karar verme ihtiyacının ötesinde, Deepseek’in yükselişi 2025’te AI güvenliği hakkında birkaç ders sunuyor” dedi.

“AI’nın değişim hızı ve çevredeki aciliyet duygusu, diğer teknolojilerle karşılaştırılamaz. Biraz belirsiz bir model-ve sarılma yüzünde zaten mevcut olan 500’den fazla türev-görünüşte hiçbir yerde görünüşte bir numaralı önceliğe dönüştüğünde nasıl planlanabilirsiniz? Kısa cevap: yapamazsın ”dedi.

Oswal, AI güvenliğinin “hareketli bir hedef” olarak kaldığını ve bunun bir süre değişmeye hazır görünmediğini söyledi. Dahası, Deepseek’in herkesi şaşırtmak için son model olması pek olası değildi, bu yüzden Cisos ve Güvenlik liderleri beklenmedik olanı beklemeli.

Kuruluşların karşılaştığı zorluğa ek olarak, geliştirme ekiplerinin ve hatta bireysel geliştiricilerin, sahneye daha ilginç bir tane gelirse, LLM’leri çok az veya hatta maliyetsiz olarak değiştirmesi çok kolaydır.

“Ürün inşaatçılarının yeni modeli test etme cazibesi, bir maliyet sorununu veya gecikme darboğazını çözüp çözemeyeceğini veya belirli bir görevde daha iyi performans gösterip performans gösteremeyeceğini görmek çok büyük. Ve model, potansiyel olarak oyun değiştiren bir ürünü pazara getirmeye yardımcı olan eksik parça olarak ortaya çıkıyorsa, yolda duran kişi olmak istemezsiniz ”dedi.

Palo Alto, güvenlik liderlerini LLM’ler üzerinde açık bir yönetişim kurmaya ve güvenli tasarım ilkelerini örgütsel kullanımına dahil etmeyi savunmaya teşvik ediyor. Geçen yıl bu etkiye göre bir dizi araç sundu, AI’yı tasarıma göre sabitledi.

Diğer şeylerin yanı sıra, bu araçlar güvenlik ekiplerine LLM’lerin kullanıldığı ve kim tarafından gerçek zamanlı görünürlük sağlar; onaylanmamış uygulamaları engelleme ve organizasyonel güvenlik politikaları ve korumaları uygulama; ve hassas verilerin LLMS tarafından erişilmesini önleyin.



Source link