“Jailbreaks sadece onları tamamen ortadan kaldırmak neredeyse imkansızdır – tıpkı Web uygulamalarında (yirmi yılı aşkın bir süredir güvenlik ekiplerini rahatsız eden) yazılımdaki (40 yılı aşkın bir süredir var olan) tampon taşma güvenlik açıkları veya SQL enjeksiyon kusurları gibi,” Alex Güvenlik firması Adversa AI CEO’su Polyakov, Wired’e bir e -postayla söyledi.
Cisco’nun Sampath’ı, şirketler uygulamalarında daha fazla AI türü kullandıkça risklerin güçlendirildiğini savunuyor. Sampath, “Bu modelleri önemli karmaşık sistemlere koymaya başladığınızda çok önemli hale gelmeye başlıyor ve bu jailbreaks aniden sorumluluğu artıran, iş riskini artıran, işletmeler için her türlü sorunu artıran aşağı yönlü şeylere neden oluyor” diyor.
Cisco araştırmacıları, Deepseek’in R1’i Harmbench olarak bilinen tanınmış bir standart değerlendirme istemleri kütüphanesinden test etmek için rastgele seçilen 50 istemini çizdi. Genel zarar, siber suç, yanlış bilgilendirme ve yasadışı faaliyetler dahil olmak üzere altı harmanlama kategorisinden gelen istemleri test ettiler. Çin’e veri gönderen Deepseek’in web sitesi veya uygulaması yerine yerel olarak makinelerde çalışan modeli araştırdılar.
Bunun ötesinde, araştırmacılar, Kod Yürütülmesi’ni elde etmeye çalışmak için Kiril Karakterler ve Özel Komut Dosyaları gibi şeyler kullanarak R1’i daha dahil, dilsiz saldırılarla test etmekten potansiyel olarak bazı sonuçlar gördüklerini söylüyorlar. Ancak ilk testleri için Sampath, ekibinin genel olarak tanınan bir ölçütten kaynaklanan bulgulara odaklanmak istediğini söylüyor.
Cisco ayrıca R1’in Harmbench istemlerine karşı performansının diğer modellerin performansı ile karşılaştırılmasını da içeriyordu. Ve bazıları, Meta’s Llama 3.1 gibi, neredeyse Deepseek’in R1’i kadar şiddetli bir şekilde düştü. Ancak Sampath, Deepseek’in R1’in, cevaplar üretmek için daha uzun süren ancak daha iyi sonuçlar üretmeye çalışmak için daha karmaşık süreçleri çeken belirli bir akıl yürütme modeli olduğunu vurgular. Bu nedenle, Sampath, en iyi karşılaştırmanın Openai’nin Test edilen tüm modellerin en iyisini yapan O1 akıl yürütme modeli ile olduğunu savunuyor. (Meta, yorum talebine hemen yanıt vermedi).
Adversa AI’dan Polyakov, Deepseek’in bazı tanınmış jailbreak saldırılarını tespit ettiğini ve reddettiğini açıklıyor ve “bu yanıtların genellikle Openai’nin veri kümesinden kopyalandığı” dedi. Bununla birlikte, Polyakov, şirketinin dilbilimsel olanlardan kod tabanlı hilelere kadar dört farklı jailbreak türü testlerinde Deepseek’in kısıtlamalarının kolayca atlanabileceğini söylüyor.
“Her yöntem kusursuz çalıştı,” diyor Polyakov. “Daha da endişe verici olan, bunların yeni ‘sıfır gün’ jailbreaks olmamasıdır-birçoğu yıllardır herkese açık olarak biliniyor” diyor modelin psychedelics etrafında bazı talimatlarla herhangi bir gördüğünden daha fazla derinlikte olduğunu gördüğünü iddia ediyor. Diğer model yaratır.
“Deepseek, her modelin nasıl kırılabileceğinin başka bir örneğidir – bu sadece ne kadar çaba harcadığınız meselesidir. Bazı saldırılar yamalanabilir, ancak saldırı yüzeyi sonsuzdur” diye ekliyor. “Yapay zekanızı sürekli olarak kırmızı eklemiyorsanız, zaten tehlikeye girersiniz.”