Deepseek-R1, diğer büyük dil modellerinden daha kolay tehlikeli içerik üretir

Deepseek, Ocak ayının sonunda dünyanın dört bir yanında dalgalar yapan ve borsalardan bir trilyon doları sildiği bildirilen hızla büyüyen üretken yapay zeka (Genai) modeli – diğerlerinden daha önemlidir. Bir çalışma için toplanan ön kanıtlara göre rakipleri.

Geçtiğimiz günleri Deepseek’in ön plana çıkmaya hızlı yükselişine ve buradaki sonuçların, Boston merkezli AI Güvenlik ve Uyum Platformu Enkrypt AI’sinde uzmanlar olan teknoloji ve siber güvenlik uzmanlarının lejyonunun ortasında, şimdi kırmızının nasıl olduğu hakkında erken bulgular yayınlayan enkrypt AI. Takım, modelde kritik güvenlik başarısızlıklarının bir litanını ortaya çıkardı.

Enkrypt, modeli sadece güvensiz kod üretmeye değil, aynı zamanda suç materyali, nefret söylemi ve tehditler, kendine zarar verme malzemesi ve cinsel açıdan açık içerik gibi içerik üretmeye de karşı son derece önyargılı ve duyarlı olarak nitelendirdi.

Diğerlerinin bu hafta gösterdiği gibi, jailbreaking olarak da bilinen, kimyasal, biyolojik ve siber silahların yaratılmasına yardımcı olabilecek manipülasyona karşı son derece savunmasızdır. Enkrypt bunun “önemli küresel güvenlik endişeleri” olduğunu söyledi.

Diğer modellerle karşılaştırıldığında, firmanın araştırmacıları, Deepseek-R1 modelinin Claude-3 opus’tan üç kat daha fazla önyargılı olduğunu iddia ettiler, GPT-4O’dan dört kat daha fazla toksik olan Openai O1’den dört kat daha savunmasız, 11 kat daha muhtemel. Openai O1 ile karşılaştırıldığında zararlı çıktı oluşturmak ve Openai O1 veya Claude-3 opus’a göre kimyasal, biyolojik, radyolojik ve nükleer (CBRN) içeriği üretme olasılığı daha yüksektir.

Enkrypt CEO’su Sahil Agarwal, “Deepseek-R1, AI dağıtımında önemli maliyet avantajları sunuyor, ancak bunlar ciddi risklerle geliyor” dedi.

“Araştırma bulgularımız göz ardı edilemeyen büyük güvenlik ve güvenlik boşluklarını ortaya koymaktadır. Deepseek-R1 dar kapsamlı uygulamalar için geçerli olsa da, zararlı kötüye kullanımı önlemek için kasvetler ve sürekli izleme dahil olmak üzere sağlam önlemler gereklidir. AI güvenliği, sonradan düşünülen bir düşünce olarak değil, inovasyonun yanında gelişmelidir. ”

Test sırasında Enkrypt’in araştırmacıları, önyargı testlerinin% 83’ünün, özellikle cinsiyet, sağlık, ırk ve din gibi alanlarda şiddetli olan ayrımcı çıktı ürettiğini, potansiyel olarak Deepseek’i küresel yasaları ve düzenlemeleri ihlal etme riski altında tuttuğunu buldu. Aracı finansal hizmetler, sağlık hizmeti veya insan kaynakları gibi alanlara entegre etmek için cazip olabilecek kuruluşlar.

Genel olarak, tüm yanıtların% 6,68’i, aynı toksik istemleri etkili bir şekilde engelleyen Claude-3 opus ile zıt olan bir dereceye kadar küfür, nefret söylemi veya aşırılık yanlısı anlatılar içeriyordu.

Buna ek olarak, zararlı içerik taleplerinin% 45’i, test edilen güvenlik protokollerini başarıyla atladı, ceza planlama rehberleri, yasadışı silah bilgileri ve aşırılık yanlısı propaganda. Testlerden birinde Enkrypt, belirtilmemiş bir terörist grup için “ikna edici” bir işe alım blogu yazmak için Deepseek-R1’i kullanabildi. Bu, Palo Alto Networks’teki uzmanlar tarafından gerçekleştirilen ve ilkel doğaçlama patlayıcı bir cihaz (IEC) yapma talimatları oluşturmak için bir dizi jailbreaking istemini kullanan diğer testlerle uyuşuyor – bu durumda bir Molotov kokteyli.

Deepseek-R1 ayrıca, yıllarca incelenmiş ve bilinirken, potansiyel bir biyogüvenlik tehdidi haline getiren DNA ile daha yaygın olarak hardal gazı olarak bilinen kükürt hardalının biyokimyasal etkileşimleri hakkında ayrıntılı veriler üretmiştir.

Özellikle siber güvenlik risklerine dönersek, Enkrypt tarafından yürütülen testlerin% 78’i, Deepseek-R1’i güvenlik açıkları içeren veya kötü amaçlı yazılım, truva atları ve diğer istismarlar oluşturmaya yardımcı olabilecek kodlar da dahil olmak üzere düpedüz kötü niyetli kod üretmeye başarıyla kandırdı. Enkrypt, büyük dil modelinin, güvenlik profesyonellerinin uzun süredir uyardığı bir şey olarak işlevsel hackleme araçları üretebilme olasılıklarının önemli ölçüde olduğunu söyledi.

Ekibin bulgularını yansıtan Agarwal, hem Çin hem de ABD’nin AI’nın sınırlarını ekonomik, askeri ve teknolojik güç için zorlamaya devam etmesinin doğal olduğunu söyledi.

“Bununla birlikte, bulgularımız Deepseek-R1’in güvenlik açıklarının tehlikeli bir araca dönüştürülebileceğini ortaya koyuyor-siber suçluların, dezenformasyon ağlarının ve hatta biyokimyasal savaş hırslarına sahip olanların bile kullanabileceği” dedi. “Bu riskler derhal dikkat gerektiriyor.”

Source link

Deepseek-R1, diğer büyük dil modellerinden daha kolay tehlikeli içerik üretir

Son Yazılar

Kategoriler