Bu yardımda net güvenlik röportajında, Mindgard CEO’su Dr. Peter Garraghan, büyük AI modellerini korumak için kullanılan korkuluklardaki güvenlik açıkları konusundaki araştırmalarını tartışıyor. Bulgular, milyar dolarlık LLM’lerin bile emojiler de dahil olmak üzere şaşırtıcı derecede basit teknikler kullanılarak nasıl atlanabileceğini vurgulamaktadır.
Hızlı enjeksiyona karşı savunmak için, birçok LLM, istemleri inceleyen ve filtreleyen korkuluklara sarılır. Ancak bu korkuluklar tipik olarak AI tabanlı sınıflandırıcıların kendisidir ve Mindgard’ın çalışması gibi, belirli saldırılara karşı savunmasızdırlar.
Korkuluklar LLM’ler için kritik savunmalar olarak lanse edilir. Sizin bakış açınızdan, pratikte gerçekten ne kadar etkili olduklarına dair en büyük yanılgılar nelerdir?
Biri geri adım attı ve güvenlikte birine sorarsa, “organizasyonumu korumak için eleştirel savunmam olarak bir WAF (Web Uygulama Güvenlik Duvarı) ‘da rahat hisseder miydim?” Diye sorarsa, cevap (umarım) yankılanan bir hayır olurdu. Korkuluklar, kötü niyetli istemleri algılamaya ve engellemeye çalışan güvenlik duvarlarına benzer hareket eder. Bulmacanın bir parçası olmalarına rağmen, etkili savunmaların tek bir çözümü dağıtmaktan daha büyük olması. Öte yandan, yaygın bir yanlış anlama, biraz motive olmuş bir saldırganla bile karşılaşırken etkinlikleridir.
Korkuluklar tespit için AI modelleri kullanırlar ve bunların kendilerinin içlerinde kör noktalar vardır. “Açık” kötü niyetli veya toksik talimatları engellemek bir şeydir, istem, bir insanın yorumlayabileceği, ancak bir korkulukla mücadele edeceği son derece çok sayıda kombinasyonda (değişen harfler, kelimeler, yeniden ifade etme vb.) Yazılabildiğinde başka bir şeydir.
Çalışma, emoji ve unicode kaçakçılığı gibi basit teknikler kullanarak% 100 kaçakçılık başarısını göstermektedir. Bu temel yöntemler manipülasyonu tespit etmesi gereken sistemlere karşı neden bu kadar iyi çalışıyor?
Emoji ve Unicode etiketi kaçakçılık teknikleri oldukça etkilidir, çünkü korkuluk NLP boru hattının ön işleme ve tokenleştirme aşamalarındaki zayıflıklardan yararlanırlar. Korkuluk sistemleri, girdi metnini modelin sınıflandırabileceği ayrı birimlere ayırıp kodlamak için tokenizatörlere güvenir. Bununla birlikte, rakip içerik, emoji varyasyon seçicileri veya etiket dizileri gibi karmaşık unicode yapılarına gömüldüğünde, tokener genellikle gömülü semantiği koruyamaz.
Örneğin, metin bir emojinin meta verilerine enjekte edildiğinde veya Unicode etiketi değiştiricileri kullanılarak eklendiğinde, tokener sekansı tek, zararsız bir jetona daraltabilir veya tamamen atabilir. Sonuç olarak, gömülü içerik asla sınıflandırıcıya orijinal formunda ulaşmaz, yani model artık gerçek istemi temsil etmeyen sterilize edilmiş bir girdi görür. Bu, sistematik yanlış sınıflandırmaya yol açar.
Bu başarısızlıklar, tokener’deki hatalar değil, normalleşmeye ve düşmanca sağlamlığa karşı verimliliğe öncelik veren tasarım değişimleridir. Standart belirteçler, rakip olarak hazırlanmış Unicode dizilerinde semantik anlamı yorumlamak veya korumak için üretilmemiştir. Korkuluklar, bu kodlamaları tespit etmek veya paketlemek için açıkça tasarlanmış ön işleme katmanlarını içermedikçe, gömülü yüklere kör kalırlar. Bu, saldırganların anlamı nasıl kodladığı ile sınıflandırıcıların nasıl işlediği arasında temel bir boşluğu vurgular.
Düşmanca makine öğrenmesinde pertürbasyonlar insanlar için algılanamaz olacak şekilde tasarlanmıştır. Bu, açıklanabilir veya yorumlanabilir savunmalar geliştirmek için benzersiz zorluklar yaratıyor mu?
Algılamaz pertürbasyonlar, açıklanabilir savunmaların geliştirilmesi için kesinlikle benzersiz zorlukları ortaya çıkarır. AI modelleri verileri insanlar olarak nasıl yaptığımızdan tamamen farklı yorumlar, içeriğin bağlamsal veya anlamsal anlamını bize değiştirmeyecek bozulmalar AI modeli tarafından verilen kararını büyük ölçüde değiştirebilir. Bu bağlantıyı kesme, bir modelin neden sezgisel olarak anlayabileceğimiz metni sınıflandıramayacağını açıklamayı zorlaştırır. Bu bağlantıyı kesme, düşmanlık düzensizlikleri üzerine savunmaları iyileştirmek için yaratan geliştiricilerin etkinliğini azaltır.
Makale, korkulukların ne tespit ettiği ile LLM’nin ne anladığı arasında bir kopukluk önermektedir. Güvenlik ekipleri davranış ve eğitim verilerindeki bu temel uyumsuzluğu nasıl ele almalıdır?
Temel mesele, çoğu korkuluk, bağımsız NLP sınıflandırıcıları olarak uygulanıyor-genellikle küratörlü veri kümelerinde ince ayarlanmış hafif modeller-korumak için istedikleri LLM’ler çok daha geniş, daha çeşitli şirketler üzerinde eğitildi. Bu, korkuluk bayrakları ile LLM’nin girdileri nasıl yorumladığı arasında yanlış hizalanmaya yol açar. Bulgularımız, Unicode, emojiler veya düşmanlık pertürbasyonları ile gizlenen teşviklerin sınıflandırıcıyı atlayabileceğini gösteriyor, ancak yine de LLM tarafından amaçlandığı gibi ayrıştırılabilir ve yürütülebilir. Bu, özellikle korkuluklar sessizce başarısız olduğunda sorunludur ve anlamsal olarak bozulmamış düşmanca girdilere izin verir.
Ortaya çıkan LLM merkezli hakimler bile vaat ederken benzer sınırlamalara tabidir. Tutucu manipülasyonları tespit etmek için açıkça eğitilmedikçe ve temsili bir tehdit manzarasında değerlendirilmedikçe, aynı kör noktaları miras alabilirler.
Bunu ele almak için güvenlik ekipleri statik sınıflandırmanın ötesine geçmeli ve dinamik, geri bildirim tabanlı savunmalar uygulamalıdır. Korkuluklar, gerçek LLM ve uygulama arayüzü yerinde sistemde test edilmelidir. Hem girişlerin hem de çıkışların çalışma zamanı izlenmesi, davranışsal sapmaları ve ortaya çıkan saldırı modellerini tespit etmek için kritik öneme sahiptir. Ek olarak, düşmanca eğitim ve sürekli kırmızı takımın geliştirme döngüsüne dahil edilmesi, konuşlandırmadan önce zayıflıkların ortaya çıkmasına ve yamaya yardımcı olur. Bu hizalama olmadan, kuruluşlar yanlış bir koruma duygusu sunan korkulukları dağıtma riskiyle karşı karşıya kalırlar.
Özellikle daha güçlü, çok modlu veya otonom modellerin beklentisiyle LLM Seke Araştırması ne gibi yönleri almalı?
LLM korkulukları, diğer savunma stratejileri ve teknikleri ile birleştirildiğinde en etkili olabilir ve böylece korkulukların gerçek AI uygulamalarının genel savunma duruşunu nasıl geliştirdiğine dair araştırma yardımcı olacaktır. Tehdit modellemesi, çok uygun savunmalar oluşturmak için anahtardır ve modellenen tehditlerin doğrudan uygulama kullanım durumu ve korkuluk yapılandırması/odaklanması ile eşleştirilmesinin anahtar olduğunu öneririz.
Bölgedeki araştırmaların çoğunun modelleri geniş bir (makul jenerik) ölçüt kümesine karşı değerlendirdiğini gözlemliyoruz. Kıyaslama, korkuluklar arasında daha adil bir değerlendirme sağlamak için iyi bir araç olsa da, gerçek AI uygulama durumlarında tasarlanmış, dağıtılmış ve değerlendirildiyse, bu alandaki araştırmalar geliştirilebilir ve tespit etmek için daha karmaşık tekniklerden yararlanan anlamlı sömürü göstermeyi amaçlayan motive edilmiş saldırganlara karşı iyileştirilebilir.