Cisco, popüler LLM'lerin yinelenen saldırılara karşı tehlikeli derecede savunmasız olduğunu söylüyor

Ağ devi Cisco’daki bir ekip tarafından yayınlanan bir araştırma makalesine göre, dünyanın en yaygın kullanılan açık ağırlıklı üretken yapay zeka (GenAI) hizmetlerinden bazıları, kötü niyetli bir aktörün büyük dil modellerini (LLM’ler) istenmeyen ve istenmeyen yanıtlar üretmeye ikna edebildiği “çok dönüşlü” istem enjeksiyonu veya jailbreaking siber saldırılarına karşı son derece hassastır.

Cisco’nun araştırmacıları Alibaba Qwen3-32B, Mistral Large-2, Meta Llama 3.3-70B-Instruct, DeepSeek v3.1, Zhipu AI GLM-4.5-Air, Google Gemma-3-1B-1T, Microsoft Phi-4 ve OpenAI GPT-OSS-2-B’yi test ederek çeşitli modellerin izin verilmeyen içerik çıkışına sahip çoklu senaryolar tasarladılar ve başarı oranları %25,86 arasında değişiyordu Google’ın modeline göre Mistral durumunda %92,78’e kadar.

Raporun yazarları Amy Chang ve Nicholas Conley ile katkıda bulunanlar Harish Santhanalakshmi Ganesan ve Adam Swanda, bunun tek dönüşlü taban çizgilerine göre iki ila on katlık bir artışı temsil ettiğini söyledi.

“Bu sonuçlar, mevcut açık ağırlık modellerinin uzun süreli etkileşimlerde güvenlik korkuluklarını koruma konusundaki sistemik yetersizliğinin altını çiziyor” dediler.

“Hizalama stratejilerinin ve laboratuvar önceliklerinin dayanıklılığı önemli ölçüde etkilediğini değerlendiriyoruz: Llama 3.3 ve Qwen 3 gibi yetenek odaklı modeller daha yüksek çoklu dönüş duyarlılığı gösterirken, Google Gemma 3 gibi güvenlik odaklı tasarımlar daha dengeli performans sergiliyor.

“Analiz, açık ağırlıklı modellerin inovasyon için hayati öneme sahip olmasına rağmen, katmanlı güvenlik kontrolleri olmadan dağıtıldığında somut operasyonel ve etik riskler oluşturduğu sonucuna varıyor… Çok yönlü güvenlik açıklarının ele alınması, açık ağırlıklı LLM’lerin kurumsal ve kamu alanlarında güvenli, güvenilir ve sorumlu bir şekilde konuşlandırılmasını sağlamak için çok önemlidir.”

Cisco, popüler LLM’lerin yinelenen saldırılara karşı tehlikeli derecede savunmasız olduğunu söylüyor

Son Yazılar

Kategoriler

Çok dönüşlü saldırı nedir?

Kimin sorumluluğu?

Son Yazılar

Kategoriler