Saldırganlar çok geçmeden, ChatGPT gibi yapay zeka sohbet robotlarının arkasındaki büyük dil modellerinden (LLM’ler) gelen kullanıcı istemlerine verilen yanıtları manipüle etmek için çevrimiçi olarak stratejik olarak yerleştirilmiş görüntülerde ve ses kliplerinde gizlenmiş kötü amaçlı talimatları kullanmaya başlayabilir.
Saldırganlar, kullanıcıları kötü amaçlı URL’lere yönlendirmek, kullanıcılardan kişisel bilgiler çıkarmak, veriler dağıtmak ve diğer kötü amaçlı eylemleri gerçekleştirmek için “dolaylı bilgi istemi enjeksiyonu” adı verilen bu saldırıları kullanabilir. LLM’ler giderek daha çok modlu hale geldikçe veya metin, ses, resim ve hatta videoyu birleştiren girdilere bağlamsal olarak yanıt verebildikçe bu tür saldırılar büyük bir sorun haline gelebilir.
Görüntülerde ve Seslerde Talimatları Gizleme
Şu tarihte: Siyah Şapka Avrupa 2023 Bu hafta, Cornell Üniversitesi’nden araştırmacılar, çok modlu LLM’lere talimatlar enjekte etmek için görüntüler ve sesler kullanan ve modelin saldırgan tarafından belirlenen metin ve talimatları çıkarmasına neden olan, geliştirdikleri bir saldırıyı gösterecekler. Konsept kanıtı saldırı örnekleri PandaGPT ve LLaVa multimodal LLM’leri hedef aldı.
Araştırmacılar, “Saldırganın amacı, kullanıcı ile çok modlu bir chatbot arasındaki konuşmayı yönlendirmektir” başlıklı bir makalede yazdılar: “Multi-Modal LLM’de Dolaylı Öğretim Ekleme için Görüntü ve Seslerin Kötüye Kullanılması“Bu, saldırılarını açıklıyor. “Saldırgan, bu amaçla bir görüntü veya ses klibiyle bir istemi harmanlıyor ve kullanıcıyı chatbot’a bunun hakkında soru sorması için yönlendiriyor.” Araştırmacılar, chatbot’un girişi işlediğinde, bunun nasıl yapılacağını göstermeyi planlıyor. Ses veya görüntü dosyasında saldırgan tarafından enjekte edilen bir istemin çıktısını alın veya saldırganın istemde eklemiş olabileceği talimatları izleyin.
Örnek olarak araştırmacılar, PandaGPT’nin saldırgana özel bir dizeyle yanıt vermesine neden olan bir talimatı çevrimiçi olarak mevcut bir ses klibine harmanladılar. Bir kullanıcı ses klibini chatbot’a girip sesin açıklamasını isteseydi, modelin yanıtı kullanıcıyı görünüşte sesi üreten “çok nadir kuş” hakkında daha fazla bilgi edinmek için kötü amaçlı bir URL’yi ziyaret etmeye yönlendirecekti. .
Başka bir örnekte araştırmacılar, bir binanın görüntüsündeki bir talimatı harmanladılar; bu, eğer bir kullanıcı görüntüyü chatbot’a girip onun hakkında bir soru sorsaydı, LLaVA’nın Harry Potter gibi sohbet etmesine neden olacaktı.
Cornell Üniversitesi’nden araştırmacı ve raporun yazarlarından biri olan Ben Nassi, araştırmalarının hedeflerinden birinin, istemleri dolaylı olarak çok modlu bir chatbot’a kullanıcının tespit edemeyeceği bir şekilde enjekte etmenin yollarını bulmak olduğunu söylüyor. Diğeri ise, LLM’nin girdiyle ilgili soruları doğru yanıtlama yeteneğini etkilemeden bir görüntüyü veya sesi “rahatsız edebilmelerini” sağlamaktı.
Nassi, araştırmayı, LLM’lerin, bir saldırganın girdileri veya istemleri kasıtlı olarak modelin çıktısını etkileyecek şekilde tasarlayabileceği anlık enjeksiyon saldırılarına karşı nasıl savunmasız olduğunu gösteren başkaları tarafından yapılan çalışmalara dayandığını söylüyor. Son zamanlardaki bir örnek, Google’ın DeepMind’ındaki ve altı üniversitedeki araştırmacıların nasıl olduğunu gösteren bir çalışmadır. ChatGPT, büyük miktarda eğitim verisini yeniden canlandıracak şekilde manipüle edilebilir – hassas ve kişisel olarak tanımlayıcı bilgiler dahil – yalnızca “şiir” ve “şirket” gibi belirli kelimeleri sonsuza kadar tekrarlamasını sağlayarak.
Nassi ve ekibinin Black Hat’te sergileyeceği saldırı, dolaylı bir teşvik içermesi bakımından farklı. Başka bir deyişle, kullanıcı normal hızlı enjeksiyonda olduğu gibi saldırgandan ziyade kurbandır.
Cornell’de araştırmacı ve raporun baş yazarı Eugene Bagdasaryan, “Kullanıcıyı düşman olarak kullanmıyoruz” diyor. Diğer iki yazar Cornell araştırmacıları Tsung-Yin Hsieh ve Vitaly Shmatikov’dur. Bagdasaryan, “Bu durumda, kullanıcının görüntünün veya sesin kötü bir şey içerdiğine dair hiçbir fikri olmadığını gösteriyoruz” diye ekliyor.
Dolaylı İstemi Enjeksiyon Saldırıları
Yeni makale, LLM’lere saldırmanın bir yolu olarak dolaylı anında enjeksiyon fikrini araştıran ilk makale değil. Mayıs ayında, Almanya’nın Saarland Üniversitesi’ndeki CISPA Helmholtz Bilgi Güvenliği Merkezi ve Sequire Technology’deki araştırmacılar, bir saldırganın LLM modellerinden nasıl yararlanabileceğini açıklayan bir rapor yayınladılar. Modelin muhtemelen alacağı verilere gizli istemler enjekte etmek Bir kullanıcı girişine yanıt verirken. Araştırmacılar, “LLM’lerin işlevlerinin doğal istemler yoluyla kolayca genişletilebilir doğası, daha basit saldırı taktiklerini mümkün kılabilir” sonucuna vardı.
Ancak bu durumda saldırı, stratejik olarak yerleştirilmiş metin istemlerini içeriyordu. Bagdasaryan, saldırılarının farklı olduğunu çünkü bu saldırının, bir saldırganın ses ve görüntü girişlerine nasıl kötü niyetli talimatlar enjekte edebildiğini ve bunların tespit edilmesini potansiyel olarak zorlaştırdığını gösterdiğini söylüyor.
Manipüle edilmiş ses ve görüntü girişlerini içeren saldırılarla ilgili bir diğer fark da, sohbet robotunun tüm konuşma boyunca talimatlara uygun şekilde yanıt vermeye devam etmesidir. Örneğin, sohbet robotunun Harry Potter benzeri bir şekilde yanıt vermesini istemek, kullanıcı belirli bir görüntü veya ses örneği hakkında soru sormayı bırakmış olsa bile sohbet robotunun bunu yapmaya devam etmesine neden olur.
Bir kullanıcıyı silahlandırılmış bir görüntüye veya ses klibine yönlendirmenin olası yolları, ilginç bir görüntü içeren bir web sayfasına veya ses klibi içeren bir e-postaya yönelik kimlik avı veya sosyal mühendislik tuzağını içerebilir. Araştırmacılar makalelerinde “Kurban, görüntüyü veya klibi doğrudan yalıtılmış bir LLM’ye girdiğinde ve bununla ilgili sorular sorduğunda, model, saldırganın enjekte ettiği istemler tarafından yönlendirilecek” diye yazdı.
Araştırma önemlidir çünkü birçok kuruluş LLM yeteneklerini uygulamalarına ve operasyonlarına entegre etme konusunda acele etmektedir. Yollar tasarlayan saldırganlar Zehirli metin, resim ve ses istemlerini bu ortamlara gizlice sokmak ciddi hasara neden olabilir.