Saldırganlar AI belleğini yalanları yaymak için manipüle edebilir


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Üç Openai modelinde test edilen ‘Minja’ yüksek enjeksiyon ve saldırı oranlarına sahiptir

Rashmi Ramesh (Rashmiramesh_) •
12 Mart 2025

Saldırganlar AI belleğini yalanları yaymak için manipüle edebilir
Resim: Shutterstock

Minja olarak adlandırılan bir bellek enjeksiyon saldırısı, AI chatbots’u istenmeyen yanlış bilgilendirme ajanlarına dönüştürür, hiçbir hack ve sadece biraz zeki bir yol gerektirmez. İstismar, saldırganların bir AI modelinin hafızasını aldatıcı bilgilerle zehirlemesine izin vererek tüm kullanıcılar için yanıtlarını değiştirir.

Ayrıca bakınız: Temel Endpoint Güvenlik Alıcının Kılavuzu

Michigan Eyalet Üniversitesi, Georgia Üniversitesi ve Singapur Yönetim Üniversitesi’nden araştırmacılar tarafından keşfedilen saldırganlar, Minja’yı yalnızca AI’nın arka ucuna idari erişim gerektirmeden kullanıcı etkileşimleri yoluyla başlatabilirler. Saldırganların bir AI modelinin bellek bankası üzerinde kontrole ihtiyaç duyduğunu varsayan önceki tehditlerin aksine, Minja, herhangi bir kullanıcının bir AI temsilcisinin bilgisini bozmasını sağlar ve gelecekteki sorguları başkalarından nasıl işlediğini etkiler.

AI modellerinde bellek elde tutma, kullanıcı deneyimi için bir oyun değiştirici olmuştur, bu da sohbet botları ve AI ajanlarının geçmiş katılımlara dayalı bağlamsal olarak ilgili yanıtlar sağlamasına izin verir.

Minja, bir AI modelini, tutulan hafızasının bir parçası olarak fabrikasyon bilgileri kabul etmeye çalıştırarak çalışır. Görünüşte zararsız görünen bir dizi istem hazırlayarak, bir saldırgan, bir AI temsilcisinin bellek bankasına yanıltıcı veri ekleyebilir, bu da modelin daha sonra diğer kullanıcılardan ilgisiz sorguları cevaplamaya dayanır.

Araştırmacılar, Minja’yı Openai’nin GPT-4 ve GPT-4O modellerinde geliştirilen üç AI ajanı üzerinde test ettiler. Bunlar arasında, geçmiş etkileşimleri web dükkanları için gelecekteki karar almaya entegre eden geri kazanım artışı olan bir reaksiyon ajanı olan rap; Ehragent, sağlık sorgularını cevaplamak için tasarlanmış bir tıbbi yapay zeka asistanı; ve düşünce zincirini kullanan ve bellek tarafından artırılan özel olarak inşa edilmiş bir soru-cevap modeli olan KG Agent.

Ehragent’e yapılan bir Minja saldırısı, modelin hasta kayıtlarını yanlış yapmasına neden oldu ve bir hastanın verilerini diğeri ile ilişkilendirdi. Rap web mağazası deneyinde, bir Minja saldırısı AI’yı yanlış ürünü önermek için kandırdı ve diş fırçaları arayan kullanıcıları diş ipi seçimleri için bir satın alma sayfasına yönlendirdi. KG ajanı, zehirli bağlama dayalı çoktan seçmeli sorulara yanlış cevaplar üreterek manipüle edilmiş bellek istemlerine kurban düştü.

Minja aşamalarda faaliyet gösteriyor. Bir saldırgan, yanıltıcı bağlamsal bilgi içeren istemler göndererek bir AI temsilcisi ile etkileşime girer. Gösterge istemleri olarak adlandırılan, meşru görünmektedirler, ancak ince hafıza değiştirme talimatları içermektedirler. AI modeli zaman içinde bu aldatıcı kayıtları bellek bankasına dahil ederek onlara gerçek referanslar olarak değerlendirilir.

Bir kurban, manipüle edilmiş bellekle örtüşen bir sorgu gönderdiğinde, AI zehirli bilgileri alır ve yanıtını etkiler. Araştırmacılar, tekniğin etkinliğinin yüksek olduğunu, AI ajanları ve veri kümelerinde% 95 enjeksiyon başarı oranı ve çoğu veri kümesinde% 70’in üzerinde saldırı başarısı oranına ulaştığını söylüyor.

Minja’nın bu kadar etkili olmasının bir nedeni, geleneksel içerik ılımlılığını atlatmasıdır. AI modelleri genellikle zararlı girdi ve çıktıyı tespit eden ve engelleyen güvenlik mekanizmalarına sahiptir, ancak Minja, yükünü meşru görünen akıl yürütme adımlarına yerleştirerek bunları kaçınır. Bu adımlar hem model hem de insan gözden geçirenler için makul göründüğünden, saldırı radarın altına kayar.

AI sağlayıcıları ayrıca saldırıları tespit etmek için çoğunlukla giriş filtrelemesine, çıkış ılımlılığına ve deploylama sonrası izlemeye güvenir. Ancak Minja, modelin parametrelerinin doğrudan manipülasyonunu gerektirmediği ve bunun yerine bellek tutma sisteminden yararlandığı için geleneksel hızlı enjeksiyon saldırılarından farklı çalışır.





Source link