Mistral AI modelleri önemli güvenlik testlerinde başarısız, rapor bulurlar


Pixtrral modelleri rakiplerden daha zararlı içerik üretme olasılığı 60 kat daha fazladır

Rashmi Ramesh (Rashmiramesh_) •
9 Mayıs 2025

Mistral AI modelleri önemli güvenlik testlerinde başarısız, rapor bulurlar
Resim: Robert Way/Shutterstock

Mistral tarafından yapılan halka açık yapay zeka modelleri, çocuk cinsel istismarı materyalleri ve rakip sistemlerinkini çok aşan oranlarda kimyasal silah üretimi için talimatlar, Enkrypt AI’dan araştırmacılar buldu.

Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu

Enkrypt AI’nın soruşturması, Mistral’ın vizyon dili modellerinden ikisi olan Pixtral-Large 25.02 ve Pixtral-12B’ye, AWS Bedrock ve Mistral’ın kendi arayüzü de dahil olmak üzere kamu platformları aracılığıyla erişilebilen Pixtral-12B’ye odaklandı. Araştırmacılar, modelleri gerçek dünyadaki kötü aktörlerin taktiklerini taklit etmek için tasarlanmış rakip testlere maruz bıraktılar.

Araştırmacılar, piksel modellerinin çocuk cinsel istismar materyali üretme olasılığının 60 kat daha fazla olduğunu ve Openai’s GPT-4O ve Antropic’s Claude 3.7 sonnet1 gibi rakiplerden daha tehlikeli kimyasal, biyolojik, radyolojik ve nükleer bilgi üretme olasılığının 40 kata kadar daha fazla olduğunu buldular. Zararlı istemlerin üçte ikisi, Mistral modellerinden güvenli olmayan içerik ortaya çıkarmayı başardı.

Araştırmacılar, güvenlik açıklarının teorik olmadığını söyledi. CEO Sahil Agarwal, “Multimodal yapay zekaya ilk önce güvenlik ilk yaklaşımı almazsak, kullanıcıları – ve özellikle savunmasız nüfusları – önemli zararlara maruz bırakma riskiyle karşı karşıya bırakıyoruz.” Dedi.

Bir AWS sözcüsü Enkrypt’e yapay zeka güvenliği ve güvenliğinin “temel ilkeler” olduğunu ve “model sağlayıcılarla ve güvenlik araştırmacılarıyla birlikte, yeniliği mümkün kılarak kullanıcıları koruyan sağlam önlemleri ele almak ve sağlam önlemleri uygulamak için taahhüt ettiğini” söyledi. Mistral yorum talebine cevap vermedi. Enkrypt, Mistral’ın yönetici ekibinin rapor hakkında yorum yapmayı reddettiğini söyledi.

Enkrypt AI’nın metodolojisi, gerçek istismar vakalarından esinlenen istemler ile tipografik ve stenografik varyasyonlar da dahil olmak üzere görüntü tabanlı girdileri birleştiren “tekrarlanabilir, bilimsel olarak sağlam bir çerçeveye topraklanmıştır”. Amaç, devlet destekli gruplar ve yeraltı forumları da dahil olmak üzere kötü niyetli kullanıcıların ortaya koyduğu tehditlere yakından benzeyen koşullar altında modelleri stresle test etmekti.

Geçmişte gizli gürültü ve stenografik tetikleyiciler gibi görüntü katman saldırıları incelenmiştir, ancak rapor, bir görüntüde zararlı metnin göründüğü tipografik saldırıların en etkili olanlar arasında olduğunu göstermiştir. Agarwal, “Temel bir görüntü düzenleyicisi ve internet erişimi olan herkes gösterdiğimiz saldırı türlerini gerçekleştirebilir.” Dedi. Modeller, görsel olarak gömülü metne doğrudan girişmiş gibi yanıt verdi, genellikle mevcut güvenlik filtrelerini atladı.

Enkrypt’in düşmanca veri kümesi, CSAM senaryolarını hedefleyen 500 komut ve CBRN güvenlik açıklarını araştırmak için hazırlanmış 200 komut istemini içeriyordu. Bu istemler, modellerin multimodal koşullar altında esnekliğini test etmek için görüntü metin çiftlerine dönüştürüldü. CSAM, cinsel eylemler, şantaj ve tımar gibi kategorileri kapsar. Her durumda, modellerin yanıtları, örtük uyum, müstehcen dili veya ayrılamamayı tanımlamak için insan değerlendiricileri tarafından gözden geçirildi.

CBRN testleri, toksik kimyasal ajanların sentezini ve işlenmesini, biyolojik silah bilgisinin üretilmesini, radyolojik tehditleri ve nükleer çoğalmayı kapsamaktadır. Birkaç durumda, modeller silah sınıfı malzeme ve yöntemleri içeren son derece ayrıntılı yanıtlar üretti. Raporda belirtilen bir örnek, artan çevresel kalıcılık için VX sinir ajanının nasıl kimyasal olarak değiştirileceğini açıkladı.

Agarwal, güvenlik açıklarını özellikle eğitim sonrası güvenlik ayarında, sağlam bir hizalama eksikliğine bağladı. Enkrypt AI, bu araştırma için pixtral modelleri, artan popülerliklerine ve kamusal platformlar aracılığıyla geniş mevcudiyetlerine dayanarak seçti. “Test edilmemiş kaldığında kamuya açık olan modeller daha geniş riskler ortaya koyuyor, bu yüzden onları erken analiz için önceliklendiriyoruz” dedi.

Raporun bulguları, mevcut multimodal içerik filtrelerinin bağlam farkındalık eksikliği nedeniyle genellikle bu saldırıları kaçırdığını göstermektedir. Agarwal, etkili güvenlik sistemlerinin sadece yüzey düzeyinde sinyalleri değil, aynı zamanda korudukları dağıtımın iş mantığını ve operasyonel sınırlarını da anlamayı “bağlam farkında” olması gerektiğini savundu.

Çıkarımlar teknik tartışmaların ötesine uzanmaktadır. Enkrypt, zararlı talimatları görünüşte zararsız görüntülere yerleştirme yeteneğinin, kurumsal sorumluluk, kamu güvenliği ve çocuk koruması için gerçek sonuçları olduğunu söyledi. Raporda, model güvenlik eğitimi, bağlam farkında kasvetler ve şeffaf risk açıklamaları dahil olmak üzere azaltma stratejilerinin hemen uygulanması çağrısında bulundu. Araştırmaya “uyandırma çağrısı” olarak adlandırılan Agarwal, Multimodal AI’nın “inanılmaz faydalar vaat ettiğini, ancak saldırı yüzeyini öngörülemeyen yollarla genişlettiğini” söyledi.





Source link