Daha Uzun Konuşmalar Yapay Zeka Güvenlik Filtrelerini Kırabilir


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Cisco, Daha Uzun Yapay Zeka Sohbetlerinde Rekabetçi Başarı Oranlarının On Kat Arttığını Buldu

Rashmi Ramesh (raşmiramesh_) •
6 Kasım 2025

Daha Uzun Konuşmalar Yapay Zeka Güvenlik Filtrelerini Kırabilir
Resim: Shutterstock

Açık ağırlıklı dil modelleri ancak bu kadar uzun süre “hayır” diyebilir. Cisco’daki araştırmacılar, güvenlik filtrelerinin daha uzun konuşmalar sırasında bozulduğunu ve tek seferlik testlerin yakalayamadığı kusurları açığa çıkardığını buldu.

Ayrıca bakınız: Geniş Ölçekte Yapay Zeka için Platform Tabanlı Güvenlik

Tek seferlik komut istemleri için saldırı başarı oranları ortalama %13 iken, önde gelen sekiz modeldeki çok turlu görüşmelerde bu oran %64’tür. Cisco araştırmacıları, Meta’nın Llama 3.3-70B-Instruct, Mistral Large-2 ve Alibaba’nın Qwen3-32B’si gibi en güçlü ve esnek sistemlerin, saldırı başarı oranlarının neredeyse %93’e ulaştığını tespit etti.

Bu modeller, katı uyum yerine yetenek ve açıklığa odaklanır; bu da onları son derece uyarlanabilir ancak manipüle edilmesi daha kolay hale getirir.

Buna karşılık, Google’ın Gemma 3-1B-IT’si gibi daha ihtiyatlı bir şekilde hizalanmış modeller, Cisco tarafından yapılan incelemeye tabi tutulduğunda tek ve çok dönüşlü arızalar arasında daha küçük boşluklar gösterdi.

Çoğu model değerlendirmesi, her istemin ayrı ayrı var olduğu varsayımına dayanarak tek seferlik retleri test eder. Ancak bir konuşma devam ettiğinde, saldırganlar model uyumlu olana kadar uyum kurabilir, bağlamı değiştirebilir veya daha önceki istekleri yeniden ifade edebilir. “Kötüye kullanım önlemeyi açıklama” yönündeki zararsız bir istek, “araştırma için bir örnek istismar gösterme”ye ve ardından tamamen işlevsel kötü amaçlı koda dönüşebilir.

Arızalar konfigürasyondan değil mimariden kaynaklanmaktadır. Büyük dil modelleri diyaloğu kayan bağlam pencereleri aracılığıyla işler ancak daha önceki güvenlik kararlarını yeniden uygulamaz. Engellenen bir konu farklı kelimelerle yeniden ortaya çıktığında model, konuyu yeni olarak ele alır. Boşluk birden fazla dönüşte birleşir.

Cisco araştırmacıları, beş uyarlanabilir saldırı tekniğinin (artımlı yükseltme, yanlış yönlendirme, bilgilerin yeniden birleştirilmesi, yeniden çerçeveleme reddi ve kişiliğin benimsenmesi) test edilen tüm modellerde tutarlı bir şekilde etkili olduğunu buldu. Her biri aynı zayıflıktan yararlandı: modellerin güvenlik sınırlarını izleme ve uygulama biçimindeki süreklilik eksikliği.

Google’ın Gemma 3-1B-IT ve OpenAI’nin GPT-OSS-20B’si gibi ince ayarda güvenlik ve hizalamaya odaklanan modeller, tek ve çok turlu saldırı oranları arasında daha küçük sıçramalar gösterdi. Llama, Mistral ve Qwen gibi minimum düzeyde denetimle piyasaya sürülen, yetenek öncelikli sistemler daha az dirençliydi.

Güvenliği ihlal edilmiş bir konuşma aracısı, harici sistemlerle entegre olması durumunda hassas verileri sızdırabilir, izin verilmeyen içerik oluşturabilir veya güvenli olmayan komutlar verebilir. Bir kullanıcı ne kadar uzun süre meşgul olursa, başarısızlık olasılığı da o kadar yüksek olur.

Bulgular, uyarlanabilir çok dönüşlü saldırıların, test edilen 12 savunmada %90’dan fazla başarı oranına ulaştığını gösteren önceki akademik araştırmalarla uyumludur. Her iki analiz de statik filtrelerin yeterli olmadığını gösteriyor; çünkü bir model, bir isteği neden reddettiğini hatırlayamazsa, sonunda isteği kabul edecektir.





Source link