Microsoft, Avustralya Bilim ve Teknoloji Enstitüsü ve ETH Zürih ile işbirliği içinde, hızlı enjeksiyon saldırılarına karşı savunmaları test etmek ve geliştirmek için bir yarışma olan LLMail-Inject Challenge’ı duyurdu.
Kurulum ve zorluk
LLMail, kullanıcıların e-postalarına göre soruları yanıtlayabilen LLM destekli bir asistan içeren simüle edilmiş bir e-posta istemcisidir.
“Bu mücadelede katılımcılar (kurban) kullanıcıya e-posta gönderebilen bir saldırganın rolünü üstleniyorlar. Saldırganın amacı, kullanıcının LLM’sinin, kullanıcının talep etmediği belirli bir eylemi gerçekleştirmesini sağlamaktır. Bunu başarmak için saldırganın e-postasını Yüksek Lisans tarafından alınabilecek şekilde hazırlaması gerekir. [when the user interacts with the service] ve ilgili hızlı enjeksiyon savunmalarını atlayacak” diye açıkladı Microsoft.
Saldırı iş akışı (Kaynak: Microsoft)
Söz konusu savunmalar kamuoyu tarafından biliniyor ve belgeleniyor:
- Saldırganların işlenen verilere rakip talimatlar yerleştirmesini önlemek için LLM’nin verileri talimatlardan ayırmasına yardımcı olan ön plana çıkarma;
- Doğrudan (kullanıcı tarafından) ve dolaylı (üçüncü bir tarafça) hızlı enjeksiyon saldırılarına karşı koruma sağlayan PromptShield;
- “Eğitimli bir sınıflandırıcıya güvenmek yerine istemleri değerlendirerek saldırıları tespit etmek için bir Yüksek Lisans (LLM) kullanan” bir yargıç olarak Yüksek Lisans;
- “Görev sapmasını” algılayan ve önleyen TaskTracker.
Hızlı enjeksiyon saldırılarının başarısı, LLM’lerin kendilerine sağlanan girdilere yerleştirilmiş kötü amaçlı talimatları/komutları gerçekleştirmesini sağlamaya bağlıdır.
Microsoft, “Bu komutlar, basit talimatlar, akıllıca ifade edilmiş sorular, ifadeler veya modelin bunları enjekte edilmiş talimatlar olarak tanımadan işlediği kod parçacıkları gibi çeşitli şekillerde gömülebilir” dedi.
Bu mücadelede talimatlar/komutlar e-posta yoluyla iletilecektir.
LLMail-Inject Challenge’a nasıl katılabilirsiniz?
Organizatörler çeşitli senaryolara göre 40 seviye tasarladı. En zorlu versiyonda saldırganların tüm savunmaları aynı anda aşması gerekiyor.
Katılmak isteyen araştırmacılar, GitHub hesaplarını kullanarak resmi LLMail-Inject web sitesinde oturum açarak yarışmaya katılabilirler.
En fazla beş üyeden oluşan ekipler, saldırılarını manuel olarak (web sitesi aracılığıyla) veya programlı olarak (organizatörler tarafından sağlanan bir API aracılığıyla) kaydedebilir ve gönderebilir.
Yarışma 9 Aralık 2024 ile 20 Ocak 2025 tarihleri arasında gerçekleştirilecek ve ödül havuzu 10.000$’dır. Ödüller birinciye 4.000 TL, ikinciye 3.000 TL, üçüncüye 2.000 TL, dördüncüye 1.000 TL olarak dağıtılacak.
Kazananlar ayrıca, IEEE Güvenli ve Güvenilir Makine Öğrenimi (SaTML) 2025 Konferansı’nda bulgularını sunan organizatörlere katılma fırsatına da sahip olacak.
Hedeflenen sistem ve iş akışı, mücadele senaryoları ve seviyeleri ile resmi kurallar hakkında daha fazla bilgiye buradan ulaşabilirsiniz.
Microsoft, katılımcıların geliştirdiği hızlı enjeksiyon tekniklerinin gerçek sistemlere de uygulanabileceğini belirtti ve katılımcıları Sıfır Gün Görevine katılmaya çağırdı.