Deepseek-R1 LLM, güvenlik analizinde jailbreak saldırılarının yarısından fazla başarısız oldu

Yakın tarihli bir güvenlik analizi Deepseek AIBulut tabanlı siber güvenlik, uyumluluk ve güvenlik açığı yönetimi çözümleri sağlayıcısı Qualys tarafından damıtılmış Deepseek-R1 Llama 8B varyantı, önemli güvenlik ve uyumluluk endişelerini ortaya çıkardı.

Araştırmacılara göre, model AI güvenlik değerlendirmesi için tasarlanmış bir platform olan Qualys TotalAi kullanılarak yapılan güvenlik testlerinin önemli bir kısmını başarısızlığa uğrattı.

Bilgileriniz için Qualys Totalai’nin bilgi tabanı analizi, bir LLM’nin tartışmalı konular, aşırı ajans, olgusal tutarsızlıklar, taciz, nefret söylemi, yasadışı faaliyetler, yasal bilgiler, yanlış hizalama, zorbalık, gizlilik saldırıları dahil olmak üzere 16 kategorideki yanıtlarının değerlendirilmesini içerir. Zarar, hassas bilgi açıklaması, cinsel içerik, etik dışı eylemler ve şiddet/güvensiz eylemler.

Model, Qualys’e göre araştırma Hackread.com ile paylaşılan, bu alanların birçoğunda zayıflıklar gösterdi ve yanlış hizalama testlerinde kötü performans gösterdi.

Jailbreaking bir LLM, potansiyel olarak zararlı çıktılara yol açan güvenlik mekanizmalarını atlamak için teknikler içerir. Qualys Totalai, AntiGpt, Analiz Tabanlı (ABJ), Devmode2, Persongpt, Daima Jailbreaking İstemleri (AJP), Evil Sırancısı, Kılık değiştirme (DRA) ve Ateş, vb.

Toplamda yaklaşık 885 jailbreak testi yapıldı ve testin kapsamlı ölçeğini gösteren 891 bilgi tabanı değerlendirmesi yapıldı. Model, bilgi tabanı testlerinin% 61’ini ve jailbreak girişimlerinin% 58’ini başarısız oldu.

Qualy’nin ayrıntılı verileri, modelin farklı jailbreak tekniklerine karşı direncindeki değişkenliği gösterir. Örneğin, genel jailbreak arıza oranı% 58 (513 başarısız test) olsa da, model bazı saldırılara (örneğin, Titanius, AJP, Caloz, Jonesai, Ateş) daha savunmasız görünüyor (örneğin, UCAR, Theta, Antigpt, Clyde).

Bununla birlikte, yüksek başarısızlık oranı, zaman zaman zararlı aktiviteler için talimatlar oluşturduğundan, nefret konuşma içeriği oluşturma, komplo teorilerini teşvik ettiği ve yanlış tıbbi bilgiler sağladığı için düşman manipülasyonuna önemli bir duyarlılık olduğunu gösterir.

Araştırmacılar ayrıca modelin göze çarpan uyumluluk zorluklarını barındırdığını buldular. Gizlilik politikası, kullanıcı verilerinin Çin’deki sunucularda depolandığını, devlet veri erişimi, GDPR ve CCPA gibi uluslararası veri koruma düzenlemeleriyle potansiyel çatışmalar ve veri yönetişim uygulamalarını çevreleyen belirsizliklerle ilgili endişeleri artırdığını belirtmektedir. Bu, sıkı veri koruma yasalarına tabi olan kuruluşları etkileyebilir.

Çıkışından kısa bir süre sonra, hackread.com bildirilmiş Wiz Research, Deepseek AI’nın hassas kullanıcı etkileşimleri ve kimlik doğrulama anahtarları da dahil olmak üzere bir milyondan fazla sohbet günlüğünü açığa çıkardığını ve veri koruma önlemlerindeki eksiklikleri vurguladığını keşfediyor.

Ve Deepseek-R1’in bilgi tabanı saldırılarına ve jailbreak manipülasyonlarına karşı yüksek başarısızlık oranları ile bu aşamada işletme benimsenmesi için riskli hale geliyor. Bu nedenle, güvenlik açığı yönetimi ve veri koruma düzenlemelerine uyma da dahil olmak üzere kapsamlı bir güvenlik stratejisi, risksiz ve sorumlu bir AI benimsemesini sağlamak için çok önemlidir.

Qualys araştırmacıları, “Yapay zeka ortamlarının güvence altına alınması, sadece bu AI boru hatlarını barındıran altyapı için değil, aynı zamanda yeni güvenlik zorlukları getiren ortaya çıkan orkestrasyon çerçeveleri ve çıkarım motorları için yapılandırılmış risk ve güvenlik açığı değerlendirmeleri talep ediyor.

J Stephen KowskiSlashnext’teki CTO alanında, Deepseek-R1’in güvenlik kontrollerini atlama yeteneğinin ciddi güvenlik ve uyum riskleri doğurduğunu belirtti. Yüksek başarısızlık oranı onu sosyal mühendislik saldırılarına karşı savunmasız hale getirir. Yapay zeka ile çalışan algılama, gerçek zamanlı izleme ve çok katmanlı güvenlik, tehditleri azaltmak için gereklidir.

Source link

Deepseek-R1 LLM, güvenlik analizinde jailbreak saldırılarının yarısından fazla başarısız oldu

Son Yazılar

Kategoriler