Araştırmacılar ASCII Sanatını Kullanarak Yapay Zeka Asistanlarını Hackledi


Büyük dil modelleri (LLM'ler), ASCII sanatı yoluyla iletilen istemleri tanıma konusundaki yetersizliklerinden yararlanarak saldırılara karşı savunmasızdır.

ASCII sanatı, ASCII (Bilgi Değişimi için Amerikan Standart Kodu) karakter setindeki karakterler kullanılarak oluşturulan bir görsel sanat biçimidir.

Son zamanlarda, ilgili üniversitelerden aşağıdaki araştırmacılar, güvenlik önlemlerini atlamak ve istenmeyen davranışlar üretmek için LLM'lerin ASCII sanatını tanımadaki zayıf performansından yararlanan yeni bir jailbreak saldırısı olan ArtPrompt'u önerdiler: –

  • Fengqing Jiang (Washington Üniversitesi)
  • Zhangchen Xu (Washington Üniversitesi)
  • Luyao Niu (Washington Üniversitesi)
  • Zhen Xiang (UIUC)
  • Bhaskar Ramasubramanian (Batı Washington Üniversitesi)
  • Bo Li (Chicago Üniversitesi)
  • Radha Poovendran (Washington Üniversitesi)

Yalnızca kara kutu erişimi gerektiren ArtPrompt'un son teknolojiye sahip beş LLM'ye (GPT-3.5, GPT-4, Gemini, Claude ve Llama2) karşı etkili olduğu gösterildi ve LLM'leri hizalamak için daha iyi tekniklere olan ihtiyacın altı çizildi. anlambilime güvenmenin ötesinde güvenlik hususlarıyla.

Belge

Ücretsiz Web Semineri: Güvenlik Açığı ve 0 Günlük Tehditlerin Azaltılması

Güvenlik ekiplerinin 100'lerce güvenlik açığını önceliklendirmesi gerekmediğinden, hiç kimseye yardımcı olmayan Yorgunluk Uyarısı.:

  • Günümüzün kırılganlık yorgunluğu sorunu
  • CVSS'ye özgü güvenlik açığı ile risk tabanlı güvenlik açığı arasındaki fark
  • Güvenlik açıklarının iş etkisine/riskine göre değerlendirilmesi
  • Uyarı yorgunluğunu azaltmak ve güvenlik duruşunu önemli ölçüde geliştirmek için otomasyon

Riski doğru bir şekilde ölçmenize yardımcı olan AcuRisQ:

Yapay Zeka Asistanları ve ASCII Sanatı

Büyük dil modellerinin (Llama2, ChatGPT ve Gemini gibi) kullanımı çeşitli uygulamalarda artıyor ve bu da ciddi güvenlik endişelerine yol açıyor.

Yüksek Lisans'ların güvenlik uyumunu sağlamak için çok fazla çalışma yapılmıştır ancak bu çaba tamamen eğitim/öğretim derlemindeki anlambilime odaklanmıştır.

Ancak bu, karakterlerin düzenlemesinin anlambilimden ziyade anlam ilettiği ASCII sanatı gibi anlambilimin ötesine geçen alternatif yaklaşımları göz ardı eder, böylece bu diğer yorumları Yüksek Lisans'ları kötüye kullanmak için kullanılabilecek mevcut teknikler tarafından hesaba katılmadan bırakır.

ArtPrompt (Kaynak – Arxiv)

Gerçek dünya uygulamalarına daha fazla entegre edilmiş büyük dil modellerinin (LLM'ler) kötüye kullanılması ve güvenliği konusundaki endişeler dile getirildi.

Gradyan tabanlı girdi arama ve genetik algoritmalar gibi yöntemler kullanılarak ve talimat takip davranışlarından yararlanılarak LLM'lerin zayıf yönlerinden yararlanılarak birden fazla jailbreak saldırısı oluşturuldu.

Modern Yüksek Lisans'lar, zengin biçimlendirmeli metinler de dahil olmak üzere çeşitli bilgileri temsil edebilen, ASCII sanatında kodlanmış yeterli bilgi istemlerini tanıyamaz.

ArtPrompt, ASCII sanatı olarak kodlanan istemleri tanıma konusunda LLM'lerin güvenlik açıklarından yararlanan yeni bir jailbreak saldırısıdır. İki önemli içgörüsü var: –

  • Hassas kelimeleri ASCII sanatıyla değiştirmek güvenlik önlemlerini atlayabilir.
  • ASCII sanat yönlendirmeleri, LLM'lerin güvenlik hususlarını göz ardı ederek aşırı derecede tanınmaya odaklanmasına neden oluyor.

ArtPrompt, hassas sözcüklerin tanımlandığı sözcük maskelemeyi ve bu sözcüklerin ASCII sanat temsilleriyle değiştirildiği gizlenmiş bilgi istemi oluşturmayı içerir.

ASCII sanatını içeren gizlenmiş bilgi istemi daha sonra istenmeyen davranışları kışkırtmak için kurban LLM'ye gönderilir.

Bu saldırı, güvenlik hizalamalarını tehlikeye atmak için Yüksek Lisans'ların doğal dil semantiğinin ötesindeki kör noktalarından yararlanıyor.

Araştırmacılar, yapay zeka güvenliği sırasında anlamsal yorumlamanın güvenlik açıkları yarattığını buldu.

Dil modellerinin anlambilimden daha fazlasına ihtiyaç duyan istemleri tanıma yeteneğini test etmek için Metinde Vizyon Yarışması (VITC) adında bir kıyaslama yaptılar.

En iyi dil modelleri bu görevde zorlandı ve sömürülebilir zayıflıklara yol açtı.

Araştırmacılar, beş dil modelindeki üç savunmayı atlayarak bu kusurları ortaya çıkarmak için ArtPrompt saldırılarını tasarladılar.

Deneyler, ArtPrompt'un görünüşte güvenli yapay zeka sistemlerinde güvensiz davranışları tetikleyebileceğini gösterdi.

Siber Güvenlik haberleri, Teknik İncelemeler ve İnfografiklerden haberdar olun. Bizi LinkedIn'de takip edin & heyecan.





Source link