1 Dakika İçinde BEAST AI Jailbreak Dil Modelleri


Kötü niyetli bilgisayar korsanları bazen sistemlerdeki hatalardan yararlanarak çok sayıda yasa dışı etkinlik gerçekleştirebilmek için dil modellerini (LM’ler) jailbreak yapar.

Ancak bu aynı zamanda gizli bilgi toplama, kötü amaçlı materyaller sunma ve modelin orijinalliğini bozma ihtiyacından da kaynaklanmaktadır.

ABD, College Park’taki Maryland Üniversitesi’nden siber güvenlik araştırmacıları, BEAST AI’nin dil modellerini 1 dakika içinde yüksek doğrulukla jailbreak yapmayı başardığını keşfetti: –

  • Vinu Sankar Sadasıvan
  • Şumik Saha
  • Gaurang Sriramanan
  • Priyatham Kattakinda
  • Atoosa Chegini
  • Soheil Feizi

Dil Modelleri (LM’ler) son zamanlarda Soru-Cevap ve kod oluşturma gibi görevler için büyük bir popülerlik kazandı. Teknikler, bunları güvenlik açısından insani değerlerle uyumlu hale getirmeyi amaçlamaktadır. Ama manipüle edilebilirler.

Son bulgular, hizalanmış LM’lerde, “jailbreak” olarak adlandırılan, zararlı içerik üretimine izin veren kusurları ortaya koyuyor.

CANAVAR AI Jailbreak

Manuel, jailbreak LM’lerini yönlendirir (Perez ve Ribeiro, 2022). Zou ve ark. (2023) anlamsızlığa yol açan gradyan tabanlı saldırılar kullanıyor. Zhu ve diğerleri. (2023) yüksek başarıya sahip, okunabilir, degrade tabanlı, açgözlü bir saldırıyı tercih ediyor.

Liu ve diğerleri. (2023b) ve Chao ve ark. (2023), GPT-4 erişimi gerektiren degradesiz saldırılar önermektedir. Jailbreak’ler güvenli olmayan LM davranışına neden olur ancak aynı zamanda gizlilik saldırılarına da yardımcı olur (Liu ve diğerleri, 2023c). Zhu ve diğerleri. (2023) gizlilik saldırılarını otomatikleştiriyor.

BEAST, LM güvenlik açıklarını bir GPU dakikasında gösteren hızlı, eğimsiz, Işın Arama tabanlı bir Çekişmeli Saldırıdır.

Işın Arama Tabanlı Çekişmeli Saldırı (BEAST) (Kaynak – Arxiv)

Hız, başarı ve okunabilirlik açısından ayarlanabilir parametrelere izin verir. BEAST jailbreak konusunda çok başarılı (Vicuna-7Bv1.5’te bir dakikada %89 başarı).

İnsan çalışmaları %15 daha fazla yanlış çıktı ve %22 alakasız içerik gösteriyor; bu da LM sohbet robotlarının etkili halüsinasyon saldırıları yoluyla daha az kullanışlı olmasına neden oluyor.

Diğer modellerle karşılaştırıldığında BEAST öncelikle hızlı düşman saldırıları için tasarlanmıştır. BEAST, jailbreak uyumlu LM’ler için kısıtlı ayarlarda öne çıkıyor.

Ancak araştırmacılar, ince ayarlanmış LLaMA-2-7B-Chat ile sorun yaşadığını ve bunun da bir sınırlama olduğunu buldu.

Siber güvenlik analistleri, LM jailbreak ve halüsinasyonla ilgili manuel anketler için Amazon Mechanical Turk’ü kullandı. İşçiler istemleri BEAST tarafından oluşturulan son eklerle değerlendirir.

Vicuna-7B-v1.5’ten gelen yanıtlar istem başına 5 çalışana gösterilir. Halüsinasyon için işçiler, temiz ve düşmanca yönlendirmeler kullanarak LM yanıtlarını değerlendirirler.

⁤Bu rapor, LM’lerdeki güvenlik açıklarını tespit ederek makine öğreniminin geliştirilmesine katkıda bulunmakta ve LM’lerde mevcut olan sorunları da ortaya koymaktadır. ⁤

⁤Ancak araştırmacılar tehlikeli şeyleri açığa çıkaran yeni kapılar buldular ve bu da gelecekte daha güvenilir ve emniyetli dil modelleri üzerine yapılacak araştırmalara yol açtı.

Truva atları, fidye yazılımları, casus yazılımlar, rootkitler, solucanlar ve sıfır gün açıklarından yararlanmalar dahil olmak üzere kötü amaçlı yazılımları engelleyebilirsiniz. Perimeter81 kötü amaçlı yazılım koruması. Hepsi son derece zararlıdır, ortalığı kasıp kavurabilir ve ağınıza zarar verebilir.

Siber Güvenlik haberleri, Teknik İncelemeler ve İnfografiklerden haberdar olun. Bizi LinkedIn’de takip edin & heyecan.





Source link