Şirketler kapılarını açtığında Yapay zeka modelleriyenilik sıklıkla takip eder. Ancak Cisco’nun yeni araştırmasına göre saldırganlar da öyle. Cisco AI Tehdit Araştırması, bu hafta yayınlanan kapsamlı bir çalışmada, serbestçe kullanılabilen parametrelere sahip açık ağırlıklı modellerin, özellikle daha uzun kullanıcı etkileşimleri sırasında, düşmanca manipülasyona karşı oldukça savunmasız olduğunu buldu.
Bilginiz olsun diye söylüyorum, açık ağırlıklı bir model AI modelinin türü eğitilen parametrelerin (“ağırlıklar”) kamuya açıklandığı yer. Bu ağırlıklar modele öğrenilen yeteneklerini veren şeydir; eğitimden sonra dili nasıl işlediğini, metni nasıl ürettiğini veya diğer görevleri nasıl gerçekleştirdiğini tanımlarlar.
başlıklı rapor Binlerce İstemle Ölüm: Açık Model Güvenlik Açığı Analiziönde gelen sekiz açık ağırlıklı dil modelini analiz etti ve bir saldırganın modeli birden fazla konuşma adımında kullandığı çok dönüşlü saldırıların, tek seferlik girişimlerden on kata kadar daha etkili olduğunu buldu. En yüksek başarı oranı Mistral’in Large-2 modelinde %92,78 ile şaşırtıcı bir seviyeye ulaşırken, Alibaba’nın Qwen3-32B modeli de %86,18 ile çok geride değildi.

Cisco’nun araştırmacıları, saldırganların bir dizi zararsız alışveriş yoluyla modele güven oluşturabileceğini ve ardından yavaş yavaş izin verilmeyen veya zararlı çıktılar üretmeye yönlendirebileceğini açıkladı. Bu kademeli artış genellikle tek dönüşlü etkileşimler için tasarlanmış tipik denetleme sistemlerini aşıyor.
Rapor, bu sorunu zaman içinde güvenlik bağlamını korumakta zorlanan modeller de dahil olmak üzere basit ama tehlikeli bir kusura bağlıyor. Bir saldırgan, sorgularını nasıl yeniden çerçeveleyeceğini veya yeniden yönlendireceğini öğrendiğinde, bu sistemlerin çoğu daha önceki güvenlik kısıtlamalarının izini kaybeder.
Araştırmacılar, bu davranışın modellerin kısıtlı içerik oluşturmasına, hassas verileri ortaya çıkarmasına veya herhangi bir dahili korumayı tetiklemeden kötü amaçlı kod oluşturmasına olanak tanıdığını gözlemledi.
Ancak tüm modeller eşit derecede başarılı olmadı. Cisco’nun verileri, geliştiricilerin bir modeli kurallara uyacak şekilde eğittiği uyum stratejilerinin güvenlik performansında büyük rol oynadığını gösterdi. Hizalama sırasında ağırlıklı olarak güvenliğe odaklanan Google’ın Gemma-3-1B-IT gibi modelleri, %25 civarında daha düşük çok dönüşlü saldırı başarı oranları gösterdi.
Öte yandan, Llama 3.3 ve Qwen3-32B gibi geniş işlevselliğe öncelik veren yetenek odaklı modellerin, bir konuşma birkaç konuşmanın ötesine geçtiğinde manipüle edilmesinin çok daha kolay olduğu ortaya çıktı.
Toplamda Cisco 102 farklı alt tehdidi değerlendirdi ve ilk on beşin en sık ve ciddi ihlalleri oluşturduğunu buldu. Bunlar arasında manipülasyon, yanlış bilgi ve kötü amaçlı kod üretimi yer alıyordu; bunların tümü, sohbet robotları veya sanal asistanlar gibi müşteriye yönelik araçlara entegre edildiğinde veri sızıntılarına veya kötüye kullanıma yol açabiliyordu.

Şirketin araştırmacıları, tüm modellerde otomatik, algoritmik testler yürütmek ve hem tek turlu hem de çok turlu düşmanca saldırıları simüle etmek için tescilli Yapay Zeka Doğrulama platformunu kullandı. Her model bir kara kutu olarak ele alındı; bu, test sırasında güvenlik sistemleri veya mimarisi hakkında hiçbir içeriden bilginin kullanılmadığı anlamına geliyor. Buna rağmen ekip, test edilen hemen hemen her modelde yüksek saldırı başarı oranları elde etti.
“Tüm modellerde, çok turlu jailbreak saldırıları son derece etkili oldu ve başarı oranları yüzde 92,78’e ulaştı. Tek turlu güvenlik açığından çok turlu güvenlik açığına keskin yükseliş, modellerin daha uzun konuşmalarda güvenlik korkuluklarını korumak için nasıl mücadele ettiğini gösteriyor.”
– Amy Chang (Baş Yazar), Nicholas Conley (Ortak yazar), Harish Santhanalakshmi Ganesan ve Adam Swanda, Cisco AI Tehdit Araştırması ve Güvenliği
Cisco’nun bulguları yeni olabilir ancak endişenin kendisi yeni değil. Güvenlik uzmanları uzun süredir açık ağırlıklı yapay zeka modellerinin kolayca güvenli olmayan sürümlere dönüştürülebileceği konusunda uyarıyordu. Bu sistemlere bu kadar özgürce ince ayar yapabilme yeteneği, saldırganlara yerleşik korumaları ortadan kaldırma ve bunları zararlı kullanım için yeniden kullanma yolu sağlar.
Ağırlıklar herkesin erişimine açık olduğundan, herkes modeli kötü amaçlarla yeniden eğitebilir. korkuluklarını zayıflatmak veya kapalı modellerin reddedeceği içerik üretmesi için kandırın.
Bazı iyi bilinen açık ağırlıklı yapay zeka modelleri şunları içerir:
- Meta Lama 3 ve Lama 3.3 – Meta tarafından araştırma ve ticari kullanım için yayınlandı ve özel sohbet robotları ve kodlama asistanları için yaygın olarak bir temel olarak kullanıldı.
- Mistral 7B ve Mistral Large-2 (Large-Instruct-2047 olarak da bilinir) – yüksek performansı ve izin verilen lisanslaması ile tanınan Mistral AI’dan.
- Alibaba Qwen 2 ve Qwen 3 – Alibaba Cloud’dan, çok dilli görevler ve kodlama için optimize edilmiş.
- Google Gemma 2 ve Gemma 3-1B-IT – güvenlik odaklı uygulamalar için üretilmiş daha küçük açık ağırlıklı modeller.
- Microsoft Phi-3 ve Phi-4 – akıl yürütmeyi ve verimliliği vurgulayan kompakt modeller.
- Zhipu AI GLM-4 ve GLM-4.5-Air – Çin’in yapay zeka ekosisteminde popüler olan büyük iki dilli modeller.
- DeepSeek V3.1 – DeepSeek AI’nin araştırma ve mühendislik görevleri için tasarlanmış açık ağırlıklı modeli.
- Falcon 180B ve Falcon 40B – BAE’deki Teknoloji İnovasyon Enstitüsü (TII) tarafından geliştirilmiştir.
- Karışım 8x7B – yine Mistral AI’den açık bir uzman karışımı modeli.
- OpenAI GPT-OSS-20B – OpenAI’nin değerlendirme ve kıyaslama için kullanılan sınırlı açık kaynaklı araştırma modeli.
Rapor, açık ağırlık geliştirmeye son verilmesi çağrısında bulunmuyor ancak sorumluluğu savunuyor. Cisco, yapay zeka laboratuvarlarını insanların ince ayar sırasında yerleşik güvenlik kontrollerini kaldırmasını zorlaştırmaya çağırıyor ve kuruluşlara bu sistemleri dağıtırken önce güvenlik yaklaşımını uygulamalarını tavsiye ediyor. Bu, bağlama duyarlı korkuluklar, gerçek zamanlı izleme ve sürekli izlemenin eklenmesi anlamına gelir. kırmızı takım testleri zayıflıkları kötüye kullanılmadan önce yakalamak.
Cisco’nun araştırması ayrıca saldırganların insanlar üzerinde işe yarayan manipülasyon taktiklerinin aynısını kullanma eğiliminde olduklarını da ortaya çıkardı. Rol yapma, incelikli yanlış yönlendirme ve kademeli olarak yükseltme gibi yöntemlerin özellikle etkili olduğu kanıtlandı ve sosyal mühendislik tekniklerinin yapay zeka etkileşimlerine nasıl kolayca aktarılabileceğini ve anında manipülasyon yapılabileceğini gösterdi. Bu modellerin her biri, geliştiricilerin bunları kendi sistemlerinde çalıştırmasına veya belirli görev ve projelere göre ayarlamasına olanak tanıyan, indirilebilecek eğitimli ağırlıklarla birlikte gelir.
Bununla birlikte Cisco’nun raporu, yapay zeka modellerini korumanın diğer herhangi bir yazılım güvenliği işi gibi ele alınması gerektiğini ayrıntılarıyla anlatıyor. İlgili riskler hakkında sürekli test, koruma ve iletişim gerektirir.
Raporun tamamı mevcut burada arXiv’de (PDF).
(Resim T Hansen tarafından Pixabay’a yüklendi)