Araştırmacılar, AI modellerini evrensel jailbreaklere karşı savunmak için yeni yöntemler ortaya çıkarıyor

Antropik korumalar araştırma ekibinden araştırmacılar, AI modellerini evrensel jailbreak’lerden korumak için yeni bir yaklaşım geliştirdiler.

Anayasal sınıflandırıcılar olarak bilinen bu yenilikçi yöntem, binlerce saatlik insan kırmızı takımlarına ve sentetik değerlendirmelerine karşı dikkate değer bir esneklik göstermiştir.

Universal Jailbreaks, AI modellerinin güvenlik korkuluklarını atlamak için tasarlanmış girdileri ifade ederek onları zararlı yanıtlar üretmeye zorlar.

Hizmet Olarak Siem

Antropik korumalar araştırma ekibi, tüm bu saldırıların modeli uzun istemlerle su basmayı veya alışılmadık büyük harf kullanımı gibi giriş stilini değiştirmeyi içerebileceğini belirtti.

Kapsamlı güvenlik eğitimine rağmen, büyük dil modelleri bu tür istismarlara karşı savunmasız kalmaktadır.

Anayasal sınıflandırıcılar

Anayasal sınıflandırıcılar, sentetik olarak oluşturulan veriler üzerinde eğitilmiş girdi ve çıktı sınıflandırıcılarıdır. Jailbreak girişimlerinin çoğunu minimum aşırı gerilemeler ve ılımlı hesaplama yükü ile filtreliyorlar.

Sistem bir anayasaya dayanır – izin verilen ve izin verilmeyen içerik sınıflarını tanımlayan ilkelerin listesi. Örneğin, hardal tariflerine izin verilirken, hardal gazı için olanlar değildir.

Anayasal sınıflandırıcıların eğitim ve uygulanması (kaynak – antropik)

İşte böyle çalışıyor:-

Anayasa yaratma: Zararsız ve zararlı kategorileri belirleyen bir anayasa geliştirilmiştir.
Sentetik veri üretimi: Anayasayı kullanarak, tüm içerik sınıflarında çok sayıda sentetik istem ve model tamamlama üretilir. Bunlar onları farklı dillere çevirerek ve bilinen jailbreak stillerini taklit etmeye dönüştürerek artırılır.
Sınıflandırıcı eğitimi: Sentetik veriler, zararlı içeriği algılamak ve engellemek için giriş ve çıkış sınıflandırıcılarını eğitmek için kullanılır.
Dağıtım: Bu sınıflandırıcılar AI modellerini korumak için önlemler olarak uygulanır.

Bir böcek-ödül programında, 183 aktif katılımcı 3.50 saatten fazla harcadı ve Claude 3.5 sonnetini koruyan bir prototip sistemini hapse atmaya çalıştı.

Önemli bir parasal ödüle rağmen, evrensel bir jailbreak keşfedilmedi. Bununla birlikte, prototip yüksek oranda yüksek oranda oranlara ve maliyetleri hesaplamıştır.

Otomatik değerlendirmelerden elde edilen sonuçlar (kaynak – antropik)

Anayasal sınıflandırıcıların güncellenmiş bir versiyonu, 10.000 sentetik jailbreaking istemleri kullanılarak Claude 3.5 sonnet’te test edildi.

Jailbreak başarı oranı%86’dan%4,4’e düştü, ret oranlarında (%0.38) ve orta derecede ek hesaplama maliyetlerinde (%23.7) hafif bir artışla.

Anayasa sınıflandırıcılar sisteminin canlı bir demosu, 3 Şubat – 10 Şubat 2025 tarihleri arasında kırmızı takımlar için mevcuttur.

Bu demo, kimyasal silahlarla ilgili sorgulara odaklanıyor ve kullanıcıları jailbreak’leri denemeye davet ediyor ve sistem geliştirme için değerli geri bildirimler sağlıyor.

Anayasal sınıflandırıcılar önemli koruma sağlarken, kusursuz değildirler. Araştırmacılar, tamamlayıcı savunmaları kullanmayı ve anayasayı ortaya çıktıkça yeni jailbreakik teknikleri ele almak için uyarlamayı öneriyor.

Bu atılım, gelecekte daha yetenekli yapay zeka modellerini güvenli bir şekilde dağıtmak için vaat ediyor, jailbreaking ile ilişkili riskleri azaltıyor ve AI sistemlerinin güvenlik ilkeleriyle uyumlu olmasını sağlıyor.

Investigate Real-World Malicious Links & Phishing Attacks With Threat Intelligence Lookup - Try for Free

Source link

Araştırmacılar, AI modellerini evrensel jailbreaklere karşı savunmak için yeni yöntemler ortaya çıkarıyor

Anayasal sınıflandırıcılar

Son Yazılar

Kategoriler