Deepseek Jailbreak, tüm sistem istemini ortaya koyuyor


Araştırmacılar, bu ayın başlarında tanıtım ve kullanıcı benimsemesinin bir kasırgasına çıkış yapan Çin üretken yapay zeka (Genai) olan Deepseek’i nasıl işlediğini tanımlayan talimatları ortaya çıkardılar.

Genai’deki yeni “BT kızı” Deepseek, mevcut tekliflerin kesirli bir maliyeti ile eğitildi ve bu nedenle Silikon Vadisi’nde rekabetçi alarm verdi. Bu iddialara yol açtı Openai’den fikri mülkiyet hırsızlığıve AI yonga üreticisi Nvidia için milyarlarca piyasa değeri kaybı. Doğal olarak, güvenlik araştırmacıları Deepseek’i de incelemeye, kaputun altındaki şeyin yararlı mı yoksa kötülük veya her ikisinin bir karışımı olup olmadığını analiz etmeye başladı. Ve Wallarm’daki analistler bu cephede Jailbreaking It tarafından önemli bir ilerleme kaydetti.

Bu süreçte tüm sistem istemini ortaya çıkardıyani, bir AI sisteminin davranışını ve sınırlamalarını belirleyen düz dilde yazılmış gizli bir talimat kümesi. Ayrıca Deepseek’i Openai tarafından geliştirilen teknoloji kullanılarak eğitildiğine dair söylentilere itiraf etmiş olabilirler.

Deepseek’in Sistem İstemi

Wallarm, Deepseek’i jailbreak hakkında bilgilendirdi ve Deepseek o zamandan beri sorunu düzeltti. Bununla birlikte, aynı hilelerin diğer popüler büyük dil modellerine (LLM’ler) karşı çalışabileceğinden korkmak için, araştırmacılar teknik ayrıntıları SAPS altında tutmayı seçtiler.

İlgili:Kod tarama aracının Heart of Security Breakup’ta lisansı

“Kesinlikle biraz kodlama gerekiyordu, ancak bir grup ikili veri gönderdiğiniz bir istismar gibi değil [in the form of a] Virüs ve sonra saldırıya uğradı, “diye açıklıyor Wallarm CEO’su Ivan Novikov.” Esasen, modeli yanıtlamaya ikna ettik [to prompts with certain biases]ve bu nedenle, model bazı iç kontrolleri kırıyor. “

Araştırmacılar, kontrollerini kırarak Deepseek’in tüm sistem istemi, kelime kelimesini çıkarabildiler. Ve karakterinin diğer popüler modellerle nasıl karşılaştırıldığını anlamak için, bu metni Openai’nin GPT-4O’suna besledi ve bir karşılaştırma yapmasını istedi. Genel olarak, GPT-4O, potansiyel olarak hassas içerik söz konusu olduğunda daha az kısıtlayıcı ve daha yaratıcı olduğunu iddia etti.

“Openai’nin istemi, kullanıcı güvenliğini sağlarken daha eleştirel düşünme, açık tartışma ve nüanslı tartışmaya izin veriyor,” diye iddia etti Chatbot, “Deepseek’in isteminin muhtemelen daha katı olduğu, tartışmalı tartışmalardan kaçındığını ve sansür noktasına tarafsızlığı vurguladığını iddia etti.

Araştırmacılar Kishkes’te dolaşırken, bir başka ilginç keşifle de karşılaştılar. Jailbreen durumunda, model Openai modellerinden aktarılan bilgi almış olabileceğini gösteriyor gibi görünüyordu. Araştırmacılar bu bulguyu not ettiler, ancak IP hırsızlığının herhangi bir kanıtını etiketlemeyi bıraktılar.

İlgili:OAuth Kusur Milyonlarca Havayolu Kullanıcısını Hesapla Kalkışlara Açıkladı

“[We were] Cevaplarını yeniden eğitmek veya zehirlememek – Jailbreak’ten sonra çok açık bir yanıttan aldığımız şey budur. Bununla birlikte, jailbreak’in kendisi, bize bunun zemin gerçeğinin kesinlikle bir göstergesi vermiyor, “diye uyarıyor. Modellerini lisanssız, telif hakkıyla korunan veriler konusunda eğitti Web’in etrafından – yukarıda belirtilen iddiayı yaptı Deepseek kendi modellerini eğitmek için Openai teknolojisini kullandı izinsiz.

Bir AI sisteminin davranışını ve sınırlamalarını belirleyen, düz dilde yazılmış gizli bir dizi talimat kümesi tüm sistem istemi, yani tüm sistem istemi

Deepseek’in Hatırlanması Haftası

Deepseek, 15 Ocak’ta dünya çapında yayınlanmasından bu yana kasırga yolculuğu yaptı. Piyasada iki hafta içinde 2 milyon indirmeye ulaştı. Popülerliği, yetenekleri ve düşük gelişim maliyeti, Silikon Vadisi’nde bir bağlantıyı ve Wall Street’te panik tetikledi. Nasdaq kompozitinde 27 Ocak’ta% 3,4’lük bir düşüşe katkıda bulundu ve pazar tarihindeki herhangi bir şirket için en büyük tek günlük düşüş olan NVIDIA hisselerinde 600 milyar dolarlık bir silme ile önderlik etti.

Sonra, tam olarak, aniden yüksek profili göz önüne alındığında, Deepseek bir dalga geçirdi. Dağıtılmış Hizmet Reddi (DDOS) Trafiği. Çin siber güvenlik firması XLab, saldırıların 3 Ocak’ta başladığını ve ABD, Singapur, Hollanda, Almanya ve Çin’in kendisine yayılmış binlerce IP adresinden kaynaklandığını buldu.

İlgili:Spektral Sermaye Dosyaları Kuantum Siber Güvenlik Patent

Anonim bir uzman, Global Times’a başladıklarında “ilk başta saldırıların SSDP ve NTP yansıma amplifikasyon saldırıları olduğunu söyledi. Salı günü. Çok sayıda HTTP proxy saldırısı eklendi. Sonra bu sabah erkenden, botnetlerin yıpranmaya katıldığı gözlendi. Bu, Deepseek’e yönelik saldırıların artan çeşitli yöntemlerle arttığı, savunmayı giderek zorlaştırdığı ve Deepseek’in karşılaştığı güvenlik zorluklarının daha şiddetli olduğu anlamına geliyor. “

Gelgit için şirket, Çin telefon numarası olmadan kayıtlı yeni hesaplara geçici olarak bekletildi.

28 Ocak’ta, siber saldırıları savunurken, şirket AI modelinin yükseltilmiş bir pro sürümünü yayınladı. Ertesi gün, Wiz araştırmacıları bir Deepseek Veritabanı Sohbet geçmişlerini açığa çıkarıyorGizli Anahtarlar, Uygulama Programlama Arayüzü (API) Sırları ve daha fazlası Açık Web’de.

31 Ocak’ta başka yerlerde, Enkyrpt AI, Deepseek’in çıktılarıyla ilgili daha derin, anlamlı sorunları ortaya çıkaran bulgular yayınladı. Testini takiben Çin chatbot’u gördü Claud-3 opus’tan üç kat daha önyargılıGPT-4O’dan dört kat daha toksik ve Openai’nin O1’i gibi zararlı çıkışlar üretme olasılığı 11 kat daha fazla. Ayrıca güvensiz kod oluşturmak ve kimyasal, biyolojik, radyolojik ve nükleer ajanlarla ilgili tehlikeli bilgiler üretmek için çoğundan daha eğimlidir.

Yine de eksikliklerine rağmen, Enkrypt AI CEO’su Sahil Agarwal, “Bu benim için bir mühendislik harikası” diyor. Diyerek şöyle devam etti: “Bence açık kaynak da çok konuşuyor. Topluluğun katkıda bulunmasını ve bu yenilikleri kullanabilmesini istiyorlar. Bence bu yüzden çok fazla kapalı kaynaklı model sağlayıcı biraz korkuyor.”

O da “Deepseek’ten daha kötü olan başka modeller de var. Sadece Deepseek’in haberlerde çok fazla olduğunu, bu yüzden üzerinde çok fazla göz var.”





Source link