
Ünite 42’deki güvenlik araştırmacıları, nispeten yeni bir büyük dil modeli (LLM) olan Deepseek’i anahtarlogerlar, veri açığa vurma araçları ve diğer zararlı içerikler oluşturmak için ayrıntılı talimatlar oluşturmaya itti.
Araştırmacılar, modelin güvenlik korkuluklarını atlamak için üç gelişmiş jailbreak tekniği kullandılar ve ortaya çıkan AI teknolojilerinin potansiyel kötüye kullanımı konusunda önemli endişeler yarattılar.
Ünite 42 araştırmacılar, Deepseek’in manipülasyona karşı kırılganlığını test etmek için üç sofistike jailbreakik tekniği, Bad Likert Hakimi, Crescendo ve aldatıcı zevk kullandılar.
Jailbreak için kullanılan teknikler
Bu teknikler, AI sistemini, yerleşik güvenlik mekanizmalarının normal olarak engelleyeceği yasaklanmış içerik üretmeye yönlendirmek için tasarlanmıştır.
Kötü Likert Yargıç Tekniği Deepseek’e karşı özellikle etkili oldu. Bu yöntem, LLM’nin bir Likert ölçeği kullanarak yanıtların zararlılığını değerlendirmesini ve daha sonra bu derecelendirmelerle uyumlu örnekler üretmesini istemesini içerir.
Dikkatli manipülasyon ile araştırmacılar, Python’da yazılmış fonksiyonel keylogger komut dosyaları da dahil olmak üzere veri açığa vurma araçları oluşturmak için ayrıntılı kod çıkarabildiler.

Model o kadar uzlaştı ki, gerekli python kütüphaneleri için öneriler de dahil olmak üzere kişiselleştirilmiş anahtarlogerlar oluşturmak için uygun geliştirme ortamını kurma konusunda özel bir rehberlik sağladı.
Bir dizi ilgili istem yoluyla, yasaklanmış konulara yönelik konuşmaları aşamalı olarak yönlendiren kreşendo tekniği de oldukça etkili oldu.
Molotov kokteylleri gibi konularla ilgili görünüşte zararsız tarihi sorularla başlayan araştırmacılar, sadece birkaç etkileşimde tehlikeli cihazlar oluşturmak için kapsamlı adım adım talimatlar elde edebildiler.

Crescendo’yu özellikle endişelendiren şey, güvenlik mekanizmalarını ne kadar hızlı atlayabileceğidir ve genellikle hedefine ulaşmak için beşten az etkileşim gerektirir.
Deepseek’in bu jailbreaking girişimlerine verdiği yanıtlar endişe verici bir şekilde ayrıntılı ve eyleme geçirilebilirdi. Sadece teorik kavramların ötesinde, model potansiyel olarak kötü niyetli etkinlikler sağlayabilecek pratik, kapsamlı rehberlik sağladı.
Kötü Likert Yargıç Tekniğini kullanırken, araştırmacılar Deepseek’i Keylogger kodu, ayrıntılı kimlik avı e -posta şablonları ve sofistike sosyal mühendislik stratejileri oluşturmaya başarılı bir şekilde teşvik ettiler.
Araştırmacılar, “Deepseek’in istemlerimize ilk yanıtları açıkça kötü niyetli olmasa da, ek çıktı potansiyelini ima ettiler” dedi.
Dikkatli bir şekilde hazırlanmış takip istemleri ile model, çeşitli zararlı faaliyetler için giderek daha ayrıntılı ve açık talimatlar sağladı.
Çin merkezli bir AI araştırma kuruluşu tarafından geliştirilen Deepseek, yakın zamanda AI manzarasında dikkate değer bir rakip olarak ortaya çıktı. Şirket 25 Aralık 2024’te Deepseek-V3’ü piyasaya sürdü, ardından Ocak 2025’te Deepseek-R1 izledi.
Bu daha büyük sürümlerden türetilen çeşitli damıtılmış modeller, yerleşik AI sistemlerine açık kaynaklı alternatifler arayan kullanıcılar arasında popülerlik kazanmıştır.
Araştırmacılar özellikle Deepseek’ten en popüler ve en önemli açık kaynaklı damıtılmış modellerden birini test ettiler. Bununla birlikte, web ile barındırılan sürümlerin muhtemelen jailbreaking tekniklerine benzer şekilde tepki vereceğine inanıyorlar.
Araştırma bulguları önemli bir güvenlik endişesi göstermektedir: kötü amaçlı araçlar oluşturma hakkında bilgi çevrimiçi olarak mevcut olsa da, yetersiz güvenlik kısıtlamalarına sahip LLM’ler, kolay kullanılabilir, eyleme geçirilebilir rehberlik sağlayarak potansiyel saldırganların girişini önemli ölçüde düşürmektedir1. Bu yardım, dağınık bilgileri tutarlı, yürütülebilir talimatlara derleyerek kötü niyetli işlemleri önemli ölçüde hızlandırabilir.
Araştırmacılar, tüm jailbreaking tekniklerine karşı tam korumanın zorlayıcı olmasına rağmen, uygun güvenlik protokollerinin riskleri önemli ölçüde azaltabileceğini belirtiyor1.
Yapay zeka modelleri geliştikçe ve çeşitli uygulamalara daha derin bir şekilde entegre hale geldikçe, bu jailbring güvenlik açıklarını ele almak, kötüye kullanımı önlemek ve bu güçlü teknolojilerin sorumlu geliştirilmesini sağlamak için giderek daha kritik hale gelmektedir.
Are you from SOC/DFIR Teams? – Analyse Malware Incidents & get live Access with ANY.RUN -> Start Now for Free.