‘Anayasal Sınıflandırıcılar’ Tekniği Genai Jailbreaks


Claude AI asistanının arkasındaki şirket olan Antropic’teki araştırmacılar, kötü niyetli aktörlerin bir dizi büyük dil modelinin yerleşik güvenlik mekanizmalarını (LLMS’nin yerleşik güvenlik mekanizmalarını atlamasını zorlaştırmak için pratik, ölçeklenebilir bir yöntem sağladığına inandıkları bir yaklaşım geliştirdiler. ).

Yaklaşım, bir AI modelinin girdi ve çıktısında izin verilen ve izin verilmeyen içerik kategorileri oluşturmak için bir dizi doğal dil kuralı – veya bir “anayasa” kullanır ve daha sonra bu içerik sınıflandırıcılarını tanımak ve uygulamak için modeli eğitmek için sentetik verileri kullanır.

“Anayasal Sınıflandırıcılar” Jailbreak Technique

Bir teknik makale Bu hafta yayınlanan antropik araştırmacılar, anayasal sınıflandırıcılar yaklaşımının, Hackerone Bug Bounty programı aracılığıyla 183 Beyaz Hat hacker tarafından 3.000 saatten fazla insan kırmızı takımına dayanarak evrensel jailbreak’lere karşı etkili olduğunu söyledi.

Araştırmacılar, “Bu anayasal sınıflandırıcılar, asgari düzeyde aşırı gerilemelerle ve büyük bir hesaplama yükü olan jailbreaklerin ezici çoğunluğunu filtreleyen sentetik olarak oluşturulan veriler üzerinde eğitilmiş girdi ve çıktı sınıflandırıcılarıdır.” Dedi. Blog yazısı. Bir demo web sitesi Bir LLM’yi jailbreaking deneyimi olan herkes, önümüzdeki hafta (3 Şubat – 10 Şubat) sistemlerini deneyebilir.

İlgili:Pypi’de Deepseek Paketleri Giyinmiş AI kötü amaçlı yazılım

Üretken AI (GENAI) modelleri bağlamında, bir jailbreak, modelin yerleşik içerik filtrelerini, güvenlik mekanizmalarını ve etik kısıtlamalarını atlamasına neden olan herhangi bir istemi veya istem kümesidir. Genellikle bir araştırmacı veya kötü bir aktör, belirli giriş dizileri hazırlar, dilsel hileler ve hatta bir AI modelini koruyucu korkuluklarından kaçmak ve potansiyel olarak tehlikeli, kötü niyetli ve yanlış içeriği ortaya çıkarmak için rol yapma senaryolarını kullanarak içerirler.

En son örnek, Wallarm’daki araştırmacıları içerir Deepseek’ten sırlar çıkarmayakın zamanda bir LLM’ye güç vermek için ne kadar hesaplama gücünün gerekli olduğu konusunda uzun süredir devam eden kavramları yükselten Çin üretken AI aracı. CHATGPT, Kasım 2022’de olay yerinde patladığından, araştırmacıların kullandığı bir örnek de dahil olmak üzere birçok örnek vardı. bir saniye jailbreak için bir llmbaşka bir belirli kelimelerin tekrarlayan kullanımı Eğitim verilerini dökmek için bir LLM almak için Doktor görüntüler ve ses.

Etkinliği verimlilikle dengelemek

Anayasal sınıflandırıcılar sistemini geliştirirken, araştırmacılar, insanların bir AI modelinden meşru bilgi çıkarma yeteneğini büyük ölçüde etkilemeden jailbreaking girişimlerine karşı yüksek bir etkinlik sağlamak istediler. Basit bir örnek, modelin ortak ilaçların bir listesini isteyen bir bilgi istemini veya hanehalkı kimyasallarının özelliklerini açıklamak için kısıtlı bir kimyasalın nereden alınacağına veya onu arındırılacağına dair bir talebe ayırt edebilmesini sağlamaktı. Araştırmacılar ayrıca sınıflandırıcıları kullanırken minimum ek bilgi işlem yükü sağlamak istediler.

İlgili:Deepseek Jailbreak, tüm sistem istemini ortaya koyuyor

Testlerde, araştırmacılar, anayasal sınıflandırıcı kullanan birinde% 4,4 ile karşılaştırıldığında, savunma sınıflandırıcıları olmayan Claude’un bir versiyonunda% 86 jailbreak başarı oranına sahipti. Araştırmacılara göre, sınıflandırıcıyı kullanmak, reddetme oranlarını% 1’den az artırdı ve korumasız modele kıyasla maliyetleri yaklaşık% 24 oranında hesapladı.

LLM Jailbreaks: Büyük Bir Tehdit

Jailbreaks, sofistike bilimsel yeteneklere sahip Genai modellerini yaygın olarak kullanılabilir hale getirmek söz konusu olduğunda büyük bir değerlendirme olarak ortaya çıkmıştır. Endişe, vasıfsız bir aktöre bile becerilerini uzman düzeyinde yeteneklere “yükseltme” fırsatı vermesidir. Antropik araştırmacılar, LLM’leri tehlikeli kimyasal, biyolojik, radyolojik veya nükleer (CBRN) bilgileri açıklamaya çalışırken bu özellikle büyük bir sorun haline gelebilir.

İlgili:Kod tarama aracının Heart of Security Breakup’ta lisansı

Çalışmaları, bir AI modelinin girişlerini ve çıktılarını izleyen ve potansiyel olarak zararlı içeriği engelleyen sınıflandırıcılarla bir LLM’nin nasıl artırılacağına odaklandı. Sabit kodlu statik filtreleme kullanmak yerine, bir modelin korkulukları hakkında daha sofistike bir anlayışa sahip olacak ve yanıtlar üretirken veya giriş alırken gerçek zamanlı bir filtre olarak hareket edecek bir şey istediler. Araştırmacılar, “Bu basit yaklaşım son derece etkili: sınıflandırıcı korunan bir sistemde 3000 saatten fazla insan kırmızı bir takım olarak, hedefimizde başarılı bir evrensel jailbreak gözlemlemedik …” diye yazdı. Kırmızı takım testleri, Claude AI’dan, bilinen binlerce jailbreak hack kullanarak CBRN risklerini içeren bir dizi zararlı soruya cevap almaya çalışan böcek ödül avcılarını içeriyordu.





Source link