Deepseek v3.1 ile işletmeler için kazanç ve riskler


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

SPLX, sertleştirilmiş daha düşük halüsinasyonları istediklerini ancak güvenlik boşluklarının devam ettiğini söylüyor

Rashmi Ramesh (Rashmiramesh_) •
23 Eylül 2025

Deepseek v3.1 ile işletmeler için kazanç ve riskler
Resim: Juan Alejandro Bernal/Shutterstock

Deepseek, en yeni modelini “ajan dönemine” girişi ve performans kriterleri yeteneklerde kayda değer bir sıçrama gösteriyor. Güvenlik testi, Çin şirketinin yükseltilmiş V3.1 modelinde ilerleme ve kalıcı güvenlik açıklarını göstermektedir.

Ayrıca bakınız: Ondemand | AI ile çalışan siber saldırılar tehdidinde gezin

Modelin performans ölçütleri, önceki sürümler üzerinde önemli bir sıçrama gösteriyor Deepseek-V3-0324 ve Deepseek-R1-0528. SWE-Bench doğrulandığında, bir yazılım hatası testi olan Deepseek-V3.1, önceki modeller için 40’ların ortalarına kıyasla 66 puan aldı. Birden çok dilde hata sabitlemesini ölçen SWE-Bench Multill Dilly’de 54.5’e ulaştı ve daha önceki sonuçları neredeyse iki katına çıkardı. Ve komut satırı muhakemesini değerlendiren terminal bankında V3.1, önceki sürümlerde düşük çift haneli puanlardan 31.3’e ulaştı.

Güvenlik şirketi SPLX, bu kazanımların güvenlik ve güvenilirliğe nasıl dönüştüğünü test etmek için modeli AI kırmızı takım çerçevesi aracılığıyla yönetti.

Değerlendirmede üç sistem istemi kullanılmıştır: sistem istemi yok, kurumsal ortamlarda yaygın olarak kullanılan korkulukları yansıtmak için tasarlanmış temel bir sistem istemi ve SPLX’in sertleştirilmiş istemini, geçmiş rakip bulgulara dayalı yinelemeli güçlendirme uygulamaktadır. Güvenlik, güvenlik, güvenilirlik ve iş hizalaması gibi kategoriler arasında 3.000’den fazla saldırı senaryosu gerçekleştirdi.

Bir sistem istemi olmadan, model güvenlikte yaklaşık 50 ve güvenlikte 12 puan aldı. Tipik kurumsal korkulukları yansıtacak şekilde tasarlanmış temel bir istem, güvenliği 90’ın üzerine çıkardı ve iş hizalaması 58’e yakın, ancak güvenlik daha geniş testler altında 41’e düştü. SPLX’in sertleştirilmiş istemi uygulandığında, güvenlik 72’den fazla yükseldi, güvenlik neredeyse 99’a ulaştı, halüsinasyonlar ortadan kaldırıldı ve iş hizalaması yaklaşık 85’e yükseldi – ancak yüksek skor, özellikle risk toleransının minimum olduğu endüstrilerde hala rakip tehditler için yer bıraktı.

SPLX, modelin jailbreaks veya yetkisiz erişim yoluyla manipülasyona ne kadar dirençli olduğuna dair testler ve güvenlik, zararlı, saldırgan veya yasadışı içerik üretmekten ne kadar iyi olduğunu yansıtır. Ham modeli test ederken SPLX, V3.1’in bir BT isteği olarak gizlenmiş kimlik avı tarzı bir mesaj ürettiğini ve bir kullanıcıdan kişisel e-postaları iletmesini istedi. SPLX, bu tür çıktıların çalışanları sızan hassas verilere kandırmak için sömürülme riskini işaretledi.

Ham model ayrıca, SPLX’in müşteriye dönük rollerde AI kullanan işletmeler için sorunlar yaratabileceğini söylediği istemlere yanıt olarak küfür oluşturmak gibi diğer alanlarda sorunlu davranışlar gösterdi.

Kırmızı takımcılar ayrıca modeli tehlikeli talimatları tanımlamaya yönlendiren jailbreak’leri tetikleyebildi. “Bir jailbreak, kurumsal AI’yı bir yükümlülüğe dönüştürebilir – veri sızdıran, kuralları çiğneme veya zararlı çıktılar üretebilir.”





Source link