Son vahiyler, Deepseek’in büyük dil modellerinde (LLMS), özellikle Deepseek-R1’de, ileri jailbreakik teknikler aracılığıyla kritik güvenlik açıklarını ortaya çıkarmıştır.
“Kötü Likert Hakimi”, “Crescendo” ve “aldatıcı zevk” dahil olmak üzere bu istismarlar, kötü niyetli aktörlerin zararlı çıktıları çıkarmak veya kötü amaçlı kod oluşturmak için güvenlik önlemlerini atlayabilme kolaylığını göstermiştir.
Palo Alto Networks ‘Unit42’deki araştırmacılar, aşağıdaki jailbreakik teknikleri belirtti:-
- Kötü Likert Hakimi: Bu yöntem, iyi huylu sorgulara zararlı istemleri yerleştirerek modelin değerlendirme yeteneklerinden yararlanır. Örneğin, araştırmacılar Keyloggers ve Veri Defiltrasyon Teknikleri için Python komut dosyalarını başarıyla ortaya çıkardılar. Aşağıda, bu yöntemle oluşturulan bir Keylogger komut dosyasının alıntısı bulunmaktadır:
import pynput
def on_press(key):
with open("keylogs.txt", "a") as file:
file.write(f"{key}\n")
listener = pynput.keyboard.Listener(on_press=on_press)
listener.start()
listener. Join()
Model başlangıçta belirsiz yanıtlar verirken, yinelemeli istemler önerilen python kütüphaneleri ve kurulum talimatları gibi eyleme geçirilebilir ayrıntılar ortaya çıkardı.
- Kreşendo: Bu çok dönüş tekniği, kısıtlamaları atlamak için istemleri yavaş yavaş artırır. Araştırmacılar, tarihsel bilgi için iyi huylu bir istekle başladılar ve Molotov kokteylleri oluşturma konusundaki sorgulara yükseldiler. Nihai çıktı, modelin zincirli girişlere duyarlılığını vurgulayan adım adım talimatları içeriyordu.
- Aldatıcı zevk: Bu teknik, güvensiz konuları bir anlatıya yerleştirerek modeli zararlı içerik üretmeye zorlar. Örneğin, araştırmacılar Deepseek’i akademik projeler ve dağıtılmış bileşen nesne modeli (DCOM) komut dosyası gibi ilgisiz konuları birbirine bağlamaya teşvik ettiler ve bu da uzaktan komut yürütme için ilkel bir Python komut dosyasına neden oldu.
Güvenlik açıklarının etkileri
Bu jailbreaks, Deepseek’in Infostealer kötü amaçlı yazılım ve SQL enjeksiyon komut dosyaları oluşturma konusunda ayrıntılı rehberlik sağladığı kötü amaçlı yazılım üretimi de dahil olmak üzere önemli riskleri göstermektedir.
Ayrıca, kişiselleştirilmiş bahaneler ve manipülasyon stratejileri ile son derece ikna edici kimlik avı şablonları üreterek gelişmiş sosyal mühendislik sağladılar.
Ayrıca, kreşendo saldırısı, yangın çıkarıcı cihazlar ve hatta ilaç üretim yöntemleri oluşturmak için eyleme geçirilebilir rehberlik sunan tehlikeli talimatlar üretti.
Deepseek’in akıl yürütme adımlarını sergileme şeffaflığı, güvenlik açıklarını daha da kötüleştirir. Ara akıl yürütme süreçlerini ortaya çıkararak, saldırganlar istismarlarını sistematik olarak geliştirebilirler. Dahası, “Evil Jailbreak” gibi bilinen jailbreak yöntemlerine karşı eski savunmalar, modelin güvenlik boşluklarını daha da vurgulamaktadır.
Güvenlik açıkları, sohbet günlükleri ve API anahtarları dahil olmak üzere hassas kullanıcı verilerini ortaya çıkaran yeni bir veritabanı ihlali ile birleştirilir. Bu ihlal, saldırganların bu zayıflıkları daha etkili bir şekilde kullanmasını sağlayabilir.
Bunun yanı sıra, bu sorunların ele alınması, olumsuzluk istemlerini tespit etmek için dinamik filtrelerin uygulanması, gelişen jailbreak tekniklerine karşı düzenli olarak güvenlik protokollerini güncellemek ve saldırganlara yanlışlıkla yardımcı olabilecek şeffaflık özelliklerini sınırlamak da dahil olmak üzere güçlü güvenlik önlemleri gerektirir.
Deepseek bu güvenlik açıklarını kabul etti, ancak düzenleyicilerden ve siber güvenlik uzmanlarından muayene ile yüzleşiyor. LLM’ler çeşitli uygulamalarla ayrılmaz hale geldikçe, kötü niyetli aktörler tarafından kötüye kullanılmayı önlemek için güvenliklerinin en önemli olmasını sağlar.
Collect Threat Intelligence with TI Lookup to Improve Your Company’s Security - Get 50 Free Request