Ağ devi Cisco’daki bir ekip tarafından yayınlanan bir araştırma makalesine göre, dünyanın en yaygın kullanılan açık ağırlıklı üretken yapay zeka (GenAI) hizmetlerinden bazıları, kötü niyetli bir aktörün büyük dil modellerini (LLM’ler) istenmeyen ve istenmeyen yanıtlar üretmeye ikna edebildiği “çok dönüşlü” istem enjeksiyonu veya jailbreaking siber saldırılarına karşı son derece hassastır.
Cisco’nun araştırmacıları Alibaba Qwen3-32B, Mistral Large-2, Meta Llama 3.3-70B-Instruct, DeepSeek v3.1, Zhipu AI GLM-4.5-Air, Google Gemma-3-1B-1T, Microsoft Phi-4 ve OpenAI GPT-OSS-2-B’yi test ederek çeşitli modellerin izin verilmeyen içerik çıkışına sahip çoklu senaryolar tasarladılar ve başarı oranları %25,86 arasında değişiyordu Google’ın modeline göre Mistral durumunda %92,78’e kadar.
Raporun yazarları Amy Chang ve Nicholas Conley ile katkıda bulunanlar Harish Santhanalakshmi Ganesan ve Adam Swanda, bunun tek dönüşlü taban çizgilerine göre iki ila on katlık bir artışı temsil ettiğini söyledi.
“Bu sonuçlar, mevcut açık ağırlık modellerinin uzun süreli etkileşimlerde güvenlik korkuluklarını koruma konusundaki sistemik yetersizliğinin altını çiziyor” dediler.
“Hizalama stratejilerinin ve laboratuvar önceliklerinin dayanıklılığı önemli ölçüde etkilediğini değerlendiriyoruz: Llama 3.3 ve Qwen 3 gibi yetenek odaklı modeller daha yüksek çoklu dönüş duyarlılığı gösterirken, Google Gemma 3 gibi güvenlik odaklı tasarımlar daha dengeli performans sergiliyor.
“Analiz, açık ağırlıklı modellerin inovasyon için hayati öneme sahip olmasına rağmen, katmanlı güvenlik kontrolleri olmadan dağıtıldığında somut operasyonel ve etik riskler oluşturduğu sonucuna varıyor… Çok yönlü güvenlik açıklarının ele alınması, açık ağırlıklı LLM’lerin kurumsal ve kamu alanlarında güvenli, güvenilir ve sorumlu bir şekilde konuşlandırılmasını sağlamak için çok önemlidir.”
Çok dönüşlü saldırı nedir?
Çok dönüşlü saldırılar, modellerin izole edilmiş rakip istekleri daha iyi tespit edip reddedebilmesi nedeniyle genellikle maskelenen sistemik zayıflıkları ortaya çıkarmak için bir LLM’nin yinelemeli “araştırılması” biçimini alır.
Böyle bir saldırı, bir saldırganın gerçek hedeflerine ulaşmak için kurnazca daha fazla düşmanca istekte bulunmadan önce güven oluşturmak için iyi niyetli sorgular yapmasıyla başlayabilir.
İstemler “araştırma amaçlı” veya “kurgusal bir senaryoda” gibi terminolojiyle çerçevelenebilir ve saldırganlar, diğer taktiklerin yanı sıra modellerden rol yapma veya kişiliği benimseme, bağlamsal belirsizlik veya yanlış yönlendirme sağlama veya bilgiyi parçalayıp yeniden birleştirmelerini isteyebilir.
Kimin sorumluluğu?
Araştırmacılar, çalışmalarının LLM’lerin düşmanca saldırılara karşı duyarlılığının altını çizdiğini ve test edilen tüm modellerin açık ağırlıklı olduğu göz önüne alındığında bunun özel bir endişe kaynağı olduğunu, bunun sıradan bir kişinin terimleriyle bunu önemseyen herkesin modeli indirebileceği, çalıştırabileceği ve hatta modelde değişiklik yapabileceği anlamına geldiğini söyledi.
Özellikle endişe verici üç modeli (Mistral, Llama ve Qwen) vurguladılar ve bunların muhtemelen geliştiricilerin kendilerinin korkuluk ekleyeceği beklentisiyle gönderildiğini söylediler; buna karşılık, çok dönüşlü manipülasyona en dirençli olan Google’ın modeli veya her ikisi de çoklu dönüş girişimlerini %50’den fazla reddeden OpenAI ve Zhipu modeliydi.
“Yapay zeka geliştiricisi ve güvenlik topluluğu, kuruluşlarda model geliştirme ve dağıtımın yaşam döngüsü boyunca bağımsız testler ve korkuluk geliştirme yoluyla bu tehditlerin yanı sıra ek güvenlik ve güvenlik kaygılarını da aktif olarak yönetmeye devam etmelidir” diye yazdılar.
“Çok turlu testler, tehdide özel azaltma ve sürekli izleme gibi AI güvenlik çözümleri olmadan, bu modeller üretimde önemli riskler oluşturur ve potansiyel olarak veri ihlallerine veya kötü niyetli manipülasyonlara yol açar” diye eklediler.