'Çok Atışlı Jailbreaking' Nesil Yapay Zeka Güvenlik Korkuluklarını Aştı


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Araştırmacılar, Zararlı İçerikle İlgili 'Kurgusal Diyalog'un Savunmaları Altüst Ettiğini Buldu

Mathew J. Schwartz (euroinfosec) •
4 Nisan 2024

'Çok Atışlı Jailbreaking' Nesil Yapay Zeka Güvenlik Korkuluklarını Aştı
Antropik araştırmacılar, üretken yapay zekayı jailbreak yapmanın yeni bir yolunu keşfettiler. (Resim: Shutterstock)

Üretken yapay zeka geliştiricileri tarafından tasarlanan güvenlik korkuluklarının son derece kırılgan olduğu kanıtlandı ve çok sayıda araştırmacı, çevrimiçi suçlu ve sanat meraklısı, geveze robotları tehlikeli, aşağılayıcı veya genel olarak tuhaf davranışlarda bulunmaya kışkırtmanın yollarını buldu.

Ayrıca bakınız: Üretken Yapay Zeka Anketi Sonuç Analizi: Google Cloud

Anthropic'ten araştırmacılar güvenlik korkuluklarını aşmak için yeni bir teknik keşfettiklerini bildirdi. OpenAI, Meta ve kendi büyük dil modelleri tarafından geliştirilen yapay zeka araçlarında test ettikten sonra bu yöntemi “çok atışlı jailbreak” olarak adlandırdılar. Üretken yapay zekaya programlanan sınırlamalar, aracın “nasıl biyolojik silah yapabilirim?” gibi kötü niyetli sorgulara yanıt vermesini engellemeyi amaçlamaktadır. veya “Met laboratuvarı kurmanın en iyi yolu nedir?”

Yeni bir makalede, Antropik araştırmacılar, artık çok kullanılan yapay zeka araçlarının sunduğu “daha uzun bağlam pencerelerinin”, yasaklı yanıtları ifşa etmek veya kötü niyetli davranışlarda bulunmak için nasıl kandırılabildiğini keşfettiklerini söyledi.

Saldırı, kısmen daha uzun girdileri kabul eden daha yeni yapay zeka araçları sayesinde işe yarıyor.

LLM'lerin önceki versiyonları, yaklaşık bir makale boyutuna veya yaklaşık 4.000 jetona kadar olan istemleri kabul ediyordu. Belirteç, bir yapay zeka modelinin metni kelimelere veya alt kelimelere benzer şekilde parçalayabildiği en küçük birimdir. Araştırmacılar, bunun aksine, daha yeni LLM'lerin “birden fazla romana veya kod tabanına” eşit olan 10 milyon jetonu işleyebildiğini ve bu “daha uzun bağlamların, düşmanca saldırılar için yeni bir saldırı yüzeyi sunduğunu” söyledi.

Çoklu atışla jailbreak nasıl çalışır? Adından da anlaşılacağı gibi, gen AI araçları, araçlara sağlanan çekimleri, diğer bir deyişle girdileri veya örnekleri işleyerek çalışır. Her çekim, bağlam içi öğrenme adı verilen bir süreç kullanılarak önceki çekimlerin üzerine inşa edilecek şekilde tasarlanmıştır; bu süreç aracılığıyla araç, nihai olarak kullanıcının istediği çıktıya ulaşmak için önceki girdi ve çıktılara dayalı olarak yanıtlarını hassaslaştırmaya çalışır.

Çok atışlı jailbreak, yasak içerik ve yanıtlar içeren birçok farklı çekimin aynı anda girilmesiyle bu tekniği altüst eder; bu, yapay zeka aracını, “kullanıcı ile asistan arasındaki bu hayali diyalog adımlarının” gerçek etkileşimden kaynaklandığını düşündürecek şekilde kandırır. aracın hayali bir temsili değil.

Araştırmacılar bunu yaparak, bir saldırganın bağlam içi öğrenmeyi, aracın yasaklı içeriği paylaştığını bilmediği bir noktaya kadar bozabileceğini buldu.

Resim: Antropik

Bir girdinin başarılı olması için gereken sahte atışların sayısı değişiklik gösterse de, araştırmacıların test ettiği tüm araçlar, yeterli sayıda farklı zarar kategorisini kapsamaları koşuluyla, 256 atış kurbanı oldu; örneğin sadece kilit açmak değil, aynı zamanda nasıl yapılacağı da. meth veya kötü amaçlı yazılım.

Bazı diyalogları başka bir dile çevirmek veya “kullanıcı ve asistan etiketlerini değiştirmek” gibi “hibrit” saldırıların da işe yaradığını ve başarılı olmak için daha az atış gerektiren saldırılara yol açabileceğini söylediler.

Araştırmacılar, saldırının Anthropic'in Claude 2.0, OpenAI'nin GPT-3.5 ve GPT-4, Meta ve Microsoft'un Llama 2 ve Mistral AI'nın Mistral 7B'sinde çalıştığını doğruladı. Google DeepMind'ın modellerini test edemeyeceklerini çünkü diğer araçlardan farklı olarak araştırmacıların gerekli log olasılık okumalarını oluşturmasına izin vermediklerini söylediler. Google DeepMind, yorum talebine hemen yanıt vermedi.

Anthropic, bir blog yazısında, bu hafta güvenlik açığını kamuoyuna açıklamadan önce, akademideki ve rakip firmalardaki araştırmacıları bu kusur konusunda gizlice uyardığını söyledi.

Anthropic, Claude 2'ye zaten çok sayıda jailbreak azaltma özelliğinin eklendiğini söyledi ancak sorunu tamamen ortadan kaldırmanın hemen kolay veya bariz bir yolunun bulunmadığı konusunda uyardı. Ve tüm potansiyel güvenlik iyileştirmelerinin etkili olmayabileceği veya olumsuzluklardan arınmış olmayabileceği belirtildi.

Potansiyel savunmalar arasında bağlam penceresinin kısaltılması yer alır; ancak bu, işlevselliği azaltacaktır. Modellerin çok atışlı jailbreak gibi görünen herhangi bir şeye asla cevap vermeyecek şekilde ince ayarı yapılması başka bir potansiyel savunmadır, ancak araştırmacılar bunun jailbreak'i tamamen engellemek yerine yalnızca “geciktirdiğini” buldu.

En büyük vaatleri sunan teknik, araştırmacıların söylediğine göre “asistan modelini jailbreak'e karşı uyarmak için doğal dildeki uyarı metinlerini hazırlayan ve ekleyen” “ihtiyati uyarı savunması”dır. Bunun, çok atışlı jailbreak saldırısının başarı oranını %61'den %2'ye düşürdüğünü buldular, ancak elbette bu hala tam olarak etkili değil.

Araştırma, geliştiricilerin LLM'leri iyileştirmeye ve yeni işlevler eklemeye devam ettikçe ek saldırı yüzeylerinin de ortaya çıkabileceğini hatırlatıyor.

Araştırmacılar, “Çok adımlı jailbreaking hakkında yayınlamanın, güçlü LLM'lerin geliştiricilerini ve daha geniş bilimsel topluluğu, bu jailbreak'i ve uzun bağlam penceresinin diğer potansiyel istismarlarını nasıl önleyebileceklerini düşünmeye teşvik edeceğini umuyoruz” dedi. “Modeller daha yetenekli hale geldikçe ve ilişkili potansiyel riskler arttıkça, bu tür saldırıları azaltmak daha da önemli hale geliyor.”





Source link