Yapay Zeka ve Makine Öğrenmesi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Araştırmacılar, Güvenliği Atlatmak İçin ‘Önceki Talimatları Yoksay’ İstemine Boşluklar Ekliyor
Rashmi Ramesh (raşmiramesh_) •
30 Temmuz 2024
Araştırmacılar, Meta’nın geçen hafta anlık enjeksiyon saldırılarını önlemek için yayınladığı bir makine öğrenmesi modelinin anlık enjeksiyon saldırılarına karşı savunmasız olduğunu söyledi.
Ayrıca bakınız: Bugün Canlı Web Semineri | Elastic ve Google Cloud ile AI destekli güvenlik analitiğiyle SOC’nizi hızlandırın
Bilgisayar korsanları, makine öğrenimi modellerini güvenlik kontrollerini atlatmaya ve istenmeyen eylemler gerçekleştirmeye yönlendiren kötü amaçlı bir dizi talimat girmek için hızlı enjeksiyon saldırıları kullanır. Meta, “geliştiricilerin hızlı enjeksiyon ve jailbreak girdilerini tespit edip yanıtlamalarına yardımcı olmak” için Llama 3.1 üretken modeliyle birlikte Prompt Guard’ı piyasaya sürdü.
Tipik jailbreak saldırıları LLM’leri “önceki talimatları yoksay” istemiyle uyarır – AI şirketlerinin genellikle modele bu kelimeleri içeren herhangi bir talimatı yoksaymasını söyleyerek engellediği bir strateji. Ancak Robust Intelligence’daki araştırmacılar, Meta Prompt Guard’ın istem enjeksiyon bariyerlerini aşabileceklerini ve harflerin arasına boşluk ekleyerek ve noktalama işaretlerini atlayarak “önceki talimatları yoksaymasını” isteyebileceklerini keşfettiler.
“Baypas, verilen bir istemdeki tüm İngilizce alfabe karakterleri arasına karakter bazında boşluklar eklemeyi içerir. Bu basit dönüşüm, sınıflandırıcının potansiyel olarak zararlı içeriği tespit etmesini etkili bir şekilde engeller,” diyor Robust Intelligence’da bir hata avcısı olan ve bu geçici çözümü keşfeden Aman Priyanshu.
Son baypasın temel nedeni, Robust Intelligence’ın Mayıs ayındaki blog yazısında ayrıntılı olarak açıkladığı ince ayar sürecinde yatıyor olabilir. Prompt Guard, yüksek riskli uyarıları yakalamak için tasarlanmış temel modelinin ince ayarlı bir versiyonudur.
Jailbreak ve anında enjeksiyon saldırıları sorunlarına henüz kesin bir çözüm bulunmadı ve Robust Intelligence’ın son deneyi türünün ilk örneği değil. Carnegie Mellon Üniversitesi araştırmacıları geçen yıl güvenlik mekanizmalarını tehlikeye atmak için düşmanca istemler üretmek için otomatik bir teknik keşfettiler. Robust Intelligence ve Yale Üniversitesi’nden ayrı bir araştırmacı grubu, belirgin bir çözümü olmayan OpenAI, Meta ve Google LLM’lerini jailbreak’lemenin otomatik bir yolunu buldu.
Robust Intelligence, Meta’ya bu açığı kapatmak için önlemler önerdiğini ve Meta’nın da “aktif olarak bir düzeltme üzerinde çalıştığını” söyledi.