Araştırmacılar, AI modellerini evrensel jailbreaklerden korumak için yeni teknikler keşfeder

Yapay zeka güvenliğinde önemli bir ilerlemede, Antropik Koruma Araştırma Ekibi, Universal Jailbreaks’a karşı Büyük Dil Modelleri (LLMS) savunmak için anayasal sınıflandırıcılar adı verilen son teknoloji bir çerçeve getirmiştir.

Bu öncü yaklaşım, daha güvenli AI sistemlerinin sağlanmasında kritik bir adım olan optimal hesaplama verimliliğini korurken kötü niyetli girdilere artan esneklik göstermektedir.

Bir AI’nın güvenlik protokollerini atlayan özel olarak tasarlanmış girişler, güvenli AI modellerinin konuşlandırılması için uzun süredir zorluklar yarattı.

Uzun istemler enjekte etme veya alışılmadık sermaye kalıplarını kullanma gibi tekniklerin karşı koymak zordur.

Bununla birlikte, Antropic’in araştırma makalelerinde ayrıntılı olarak açıklanan son çalışması, bu güvenlik açıklarını önemli ölçüde azaltmak için sentetik veri eğitimini kullanan bir sistem sunmaktadır.

Gelişmiş test sağlamlığı doğrular

Araştırma ekibi, hem insan hem de otomatik “kırmızı takım” yöntemlerini kullanarak prototip sınıflandırıcılarını titizlikle değerlendirdi.

Deneysel iki aylık böcek-ödül programında, 183 katılımcı Claude 3.5 sonnet modellerinin sınıflandırıcı güçlendirilmiş bir versiyonunu jailbreak yapmaya çalıştı.

3.000 saatten fazla kolektif çabaya rağmen, önceden tanımlanmış 10 zararlı sorgu için tüm önlemleri başarılı bir şekilde atlamak olarak tanımlanan evrensel jailbreaks tespit edilmemiştir.

Sistemi daha da doğrulamak için, sentetik olarak üretilen 10.000 jailbreak istemleri ile otomatik testler çarpıcı sonuçlar gösterdi.

Korumasız bir temel modeli gelişmiş saldırıların sadece% 14’ünü engellerken, sınıflandırıcı donanımlı model jailbreak başarı oranını sadece% 4,4’e düşürdü.

Bu, minimum uzlaşmalarla elde edilen güvenlikte% 95’in üzerinde bir iyileşme gösteriyor: zararsız sorgular için reddetme oranlarında% 0,38’lik bir artış ve hesaplama maliyetlerinde% 23,7’lik bir artış.

Anayasal sınıflandırıcılar nasıl çalışır?

Anayasal sınıflandırıcılar yaklaşımı, kabul edilebilir ve zararlı içeriği ayırt eden bir dizi önceden tanımlanmış kural olan bir “anayasa” kullanan anayasal yapay zeka ilkeleri üzerine kuruludur.

Bu yönergeleri kullanarak, araştırmacılar çeşitli sentetik istemler ve model tamamlamalar ürettiler.

Bu veriler, bilinen jailbreak tekniklerini yansıtacak şekilde stil ve dil olarak artırıldı ve girdi ve çıkış sınıflandırıcıları için sağlam bir eğitim seti oluşturuldu.

Sınıflandırıcılar daha sonra zararlı bilgi istemlerini veya çıkışları etkili bir şekilde filtrelemek için modele entegre edildi ve güvenlik hedefleriyle uyum sağladı.

Önemli olarak, sistem, iyi huylu sorguların, küratörlü zararsız istemler kümesi dahil ederek yanlışlıkla işaretlendiği “aşırı gerilemeler” örneklerini en aza indirecek şekilde eğitildi.

Anayasal sınıflandırıcılar sistemi ileriye doğru önemli bir sıçrama temsil ederken, gelecekteki saldırılar için geçirimsiz değildir.

Araştırmacılar, daha karmaşık jailbreak tekniklerinin ortaya çıkabileceğini ve sınıflandırıcıların anayasası ve tamamlayıcı savunmalarında devam eden güncellemeler gerektirdiğini öngörüyorlar.

Antropic, AI Security uzmanlarını modeli daha da stresle test etmeye teşvik eden sistemin halka açık bir demosuna başladı.

10 Şubat 2025’e kadar açık olan bu girişim, potansiyel güvenlik açıklarını tanımlamayı ve çerçeveyi geliştirmeyi amaçlamaktadır.

Bu gibi ilerlemelerle, AI güvenliği manzarası giderek daha sağlam bir şekilde artmakta ve güçlü AI sistemlerinin dağıtılmasıyla ilişkili riskleri sorumlu ölçeklendirme ve azaltma taahhüdünü yansıtır.

Investigate Real-World Malicious Links & Phishing Attacks With Threat Intelligence Lookup - Try for Free

Source link

Araştırmacılar, AI modellerini evrensel jailbreaklerden korumak için yeni teknikler keşfeder

Gelişmiş test sağlamlığı doğrular

Anayasal sınıflandırıcılar nasıl çalışır?

Son Yazılar

Kategoriler