İnsanlar ve AI farklı şeyler gördüğünde · Joseph Thacker

“AI anlama boşlukları” dediğim bir AI güvenlik ve güvenlik konsepti var. Biraz ağız dolusu, ancak AI güvenliği (ve güvenlik) söz konusu olduğunda önemli bir kavram. Ne zaman Bir kullanıcının bildiği veya gördüğü şey arasında bir uyumsuzluk vardır ve bir AI modelinin aynı bağlamdan ne anladığı. Bu bilgi boşluğu bazı önemli güvenlik sorunlarına yol açabilir.

Aşağıda bu konseptten beş örneğim var, ama muhtemelen çok daha fazlası var. Aslında onları duymakla gerçekten ilgileniyorum. Dolayısıyla, başka biri daha fazla örnek düşünebilirse, lütfen bana X/Twitter veya e -posta yoluyla bana ulaşın.

1. Görünmez Unicode etiketleri

İnsanlar görüyor: Hiç bir şey
AI Görüyor: Invisible Unicode etiketleri aracılığıyla ASCII tabanlı mesajlar

Ahhh evet, görünmez Unicode etiketleri, en sevdiğim AI güvenlik sorunlarından biri. Riley Goodside’ın keşfetmesinden kısa bir süre sonra bunu tweetledim. Onları Wikipedia’da buradan okuyabilirsiniz.

Bu sinsi karakterler ekranlarımızda, sıfır genişlikli karakterler gibi görünmüyor, ancak aynı değiller. Her ASCII karakteri için bir tane var. Böylece temelde görünür olmadan herhangi bir metin yazabilirsiniz. Güvenlik riski oluştururlar, çünkü bizim için görünmezken, LLM’ler onları “görebilir” (ve bu nedenle bunları yorumlayabilir).

Bir LLM’den bir sayfa veya araştırma makalesini özetlemesini istediğinizi düşünün, ancak metinde AI’nın gol attığı ve hatta modelinizi kötü niyetli araç çağrıları çalıştırmaya ikna ettiğini söyleyebilecek görünmez karakterler olduğu hakkında hiçbir fikriniz yok.

2. emojilerden QR kodu

İnsanlar görüyor: QR kodu (kötü amaçlı siteye yol açar)
AI Görüyor: Rastgele emoji dizisi

Arkadaşım Yuji bu tekniği düşündü ve benimle paylaştı. Bir süre önce Google’ın Bug Bounty programına bir raporda kullandım. Kabul edilmedi, ama yine de AI anlama boşluğunun harika bir örneği olduğunu düşünüyorum.

Şunu hayal edin: Bir LLM’ye, birlikte kötü niyetli bir QR kodu oluşturan uzun bir siyah beyaz emoji veya Unicode kareleri ile yanıt vermesini söylersiniz. Bir LLM, araç olmadan QR kodlarını “okuyamaz” veya “anlayamaz” ve bir dizi emoji bile QR kodu olarak kullanıldığını fark etmezler.

Bu nedenle, bu emojilerin bu dizesini yazdırmasını isterseniz, bunu bir QR kodu şeklinde kötü amaçlı bir bağlantı oluşturduğunu fark etmeden yapar. Bu, bir güvenlik boşluğuna yol açan AI anlama boşluğunun en iyi örneğidir.

İnsanlar görüyor: Tam web sayfası (resimler dahil)
AI Görüyor: Web sayfasının kaynak kodu ve görüntü yok (kuruluma bağlı olarak)

Son zamanlarda yapay zeka tarama yeteneklerini test ediyorum ve düşünüyorum. Büyüleyici bir alan, ama aynı zamanda bir anlama boşluğuna yol açabilecek tuhaflıkları da var. Örneğin, bir AI bir web sayfasının veya DOM’un kaynak kodunu ekleyecek şekilde ayarlanmışsa, ancak görüntüleri bir VLM aracılığıyla yutmazsa, görüntüleri “görmez”.

Bu, AI anlama boşluğuna yol açar çünkü görüntü “site kapalı” gibi bir şey söyleyebilir, ancak kaynak yapması gereken araç çağrıları için AI için bir sürü talimat alabilir. Bu, AI’nın hangi araçlara erişebileceğine bağlı olarak bir AI güvenlik açığına yol açabilir.

4. Görüntülerde steganografi

İnsanlar görüyor: Normal resim (bazen)
AI Görüyor: Normal resim (bazen)

Bu komik bir şey çünkü anlama boşluğu her iki yöne de gidebilir. İnsanlar, AI’nın fark etmeye eğilimli olmadığı steganografi kullanarak görüntülerdeki bilgileri gizleyebilirler. Ancak… bir AI, bir görüntüye bir pessfiltrasyon olarak bir görüntüye steganografi eklemekle görevlendirilirse, genellikle bir insan fark etmeden bunu yapabilir.

5. Base64 Kodlanmış Metin, Diğer Diller, vb.

İnsanlar görüyor: Anlamadıkları metin
AI Görüyor: Anlıyor metin

Doğal olarak, insanlar genellikle anlamadığı yabancı dilde Base64 kodlu metni veya metni fark edebilirler. Ve genellikle kod çözecek/çevirecekler. Bununla birlikte, bu karmaşıklık katar ve bazı küçük riskler getirir. Bu, bir insanın potansiyel olarak zararlı içeriği göz ardı edebileceği bir durum yaratır çünkü AI, işleyip hareket edebilirken, onu okuyamazlar.

Verileri bazı hızlı enjeksiyon saldırılarının bir parçası olarak püskürttükçe, verileri kodlayan Base64, bir insanın müdahale uyarısında “devam” ı tıklama olasılığının daha yüksek olası olduğu için metni okuyamazken, bir AI bunu çözer ve potansiyel olarak verileri söndürür.

Pratik tutmak

Yapay zeka anlama boşluklarını anlamak, AI sistemleriyle çalışan herkes için çok önemlidir. Bu, insan ve yapay zeka algısı arasındaki boşlukları tanımak ve güvenliği sağlamak için onlara hitap etmekle ilgilidir. İster AI uygulamaları geliştiriyor olun, isterse bunları kullanıyor olun, bu asimetrilerin farkında olmak, potansiyel riskleri azaltmanıza ve sistemlerinizi güvende tutmanıza yardımcı olabilir.

AI sistemlerini tasarlarken ve test ederken bu konsepti aklımızda tutmak, daha güvenli uygulamalar oluşturmanıza ve daha fazla AI güvenlik açığı bulmanıza yardımcı olacaktır.

– Joseph

Bunun gibi daha fazla içerik gönderdiğimi bilmek için e -posta listeme kaydolun. Ayrıca düşüncelerimi Twitter/X’e gönderiyorum.

Source link

İnsanlar ve AI farklı şeyler gördüğünde · Joseph Thacker

1. Görünmez Unicode etiketleri

2. emojilerden QR kodu

3. AI Göz tarama kör noktaları

4. Görüntülerde steganografi

5. Base64 Kodlanmış Metin, Diğer Diller, vb.

Pratik tutmak

Son Yazılar

Kategoriler