OpenAI ve diğerleri için yeni bir jailbreak tekniği büyük dil modelleri (LLM’ler) Saldırganların siber güvenlik korkuluklarını aşma ve kötü amaçlı içerik dağıtmak için sistemi kötüye kullanma olasılığını artırır.
Palo Alto Networks’ün 42. Birimindeki araştırmacılar tarafından keşfedilen Kötü Likert Yargıç saldırısı, LLM’den Likert ölçeğini kullanarak belirli bir yanıtın zararlılığını puanlayan bir yargıç gibi hareket etmesini ister. Adını mucidinden alan ve anketlerde yaygın olarak kullanılan psikometrik ölçek, yanıtlayanın bir ifadeye katılıp katılmadığını ölçen bir derecelendirme ölçeğidir.
Jailbreak daha sonra LLM’den ölçeklerle uyumlu örnekler içeren yanıtlar üretmesini ister ve Unit 42’den Yongzhe Huang, Yang Ji, Wenjun, nihai sonucun “en yüksek Likert ölçeğine sahip örneğin potansiyel olarak zararlı içerik içerebileceği” şeklinde olduğunu belirtir. Hu, Jay Chen, Akshata Rao ve Danny Tsechansky bulgularını açıklayan bir yazı yazdılar.
OpenAI, Azure, Google, Amazon Web Services, Meta ve Nvidia’nın son teknolojiye sahip altı metin oluşturma LLM’sine karşı çeşitli kategorilerde gerçekleştirilen testler, tekniğin saldırı başarı oranını (ASR) daha fazla artırabileceğini ortaya çıkardı. Araştırmacılara göre, düz saldırı istemleriyle karşılaştırıldığında ortalama %60’tan fazla.
Araştırmada değerlendirilen saldırı kategorileri, sistemden çeşitli uygunsuz yanıtların alınmasını içeriyordu; bunlar arasında şunlar yer almaktadır: bağnazlığı, nefreti veya önyargıyı teşvik edenler; bir bireyi veya grubu taciz eden davranışlarda bulunanlar; intiharı veya diğer kendine zarar verme eylemlerini teşvik edenler; uygunsuz, açıkça cinsel materyal ve pornografi üretenler; yasa dışı silahların nasıl üretileceği, edinileceği veya kullanılacağı hakkında bilgi verenler; veya yasadışı faaliyetleri teşvik edenler.
Araştırılan ve jailbreak’in saldırı başarısı olasılığını artırdığı diğer kategoriler şunlardır: kötü amaçlı yazılım üretimi veya kötü amaçlı yazılımların oluşturulması ve dağıtılması; ve LLM’ye rehberlik etmek için kullanılan gizli talimat dizisini açığa çıkarabilecek sistem istemi sızıntısı.
Kötü Likert Hakimi Nasıl Çalışır?
Araştırmacılar, Kötü Likert Hakimi saldırısının ilk adımının, hedef LLM’den diğer LLM’ler tarafından oluşturulan yanıtları değerlendirmek için bir yargıç olarak hareket etmesini istemeyi içerdiğini açıkladı.
“LLM’nin zararlı içerik üretebileceğini doğrulamak için puanlama görevine yönelik özel yönergeler sunuyoruz.” yazdılar. “Örneğin, LLM’den kötü amaçlı yazılım oluşturmaya ilişkin bilgiler içerebilecek içeriği değerlendirmesini isteyen yönergeler sağlanabilir.”
İlk adım düzgün bir şekilde tamamlandıktan sonra Yüksek Lisans’ın görevi ve farklı zararlı içerik ölçeklerini anlaması gerektiğini, bunun da ikinci adımı “basit” hale getirdiğini söylediler. Araştırmacılar, “LLM’den çeşitli ölçeklere karşılık gelen farklı yanıtlar vermesini isteyin” diye yazdı.
“İkinci adımı tamamladıktan sonra, LLM genellikle zararlı olarak kabul edilen içerik üretir” diye yazdılar ve bazı durumlarda “oluşturulan içeriğin deney için amaçlanan zararlılık puanına ulaşmak için yeterli olmayabileceğini” eklediler.
İkinci sorunu çözmek için, bir saldırgan LLM’den yanıtı genişleterek veya daha fazla ayrıntı ekleyerek en yüksek puana sahip yanıtı hassaslaştırmasını isteyebilir. Araştırmacılar, “Gözlemlerimize dayanarak, iyileştirme talep eden ek bir veya iki tur takip istemi, genellikle LLM’nin daha zararlı bilgiler içeren içerik üretmesine yol açıyor” diye yazdı.
Yüksek Lisans Jailbreak’lerinin Yükselişi
Yüksek Lisans’ın artan kullanımı kişisel, araştırma ve ticari amaçlarla kullanılması, araştırmacıları, belirli şekillerde istendiğinde zararlı ve önyargılı içerik üretme konusundaki duyarlılıklarını test etmeye yöneltmiştir. Jailbreak’ler, araştırmacıların, LLM yaratıcıları tarafından kötü içerik üretilmesini önlemek için uygulamaya konulan korkulukları atlamalarına olanak tanıyan yöntemlere verilen addır.
Güvenlik araştırmacıları, Unit 42’ye göre halihazırda çeşitli jailbreak türlerini tanımladılar. kişisel ikna; dublajlı rol yapma jailbreak’i Şimdi Her Şeyi Yapın; ve saldırganın girişinde şifrelenmiş kelimeler kullanan jeton kaçakçılığı.
Robust Intelligence ve Yale Üniversitesi’ndeki araştırmacılar da yakın zamanda bir jailbreak keşfettiler. Budama ile Saldırı Ağacı (TAP)hizalanmamış bir LLM’nin başka bir hizalanmış LLM’yi “jailbreak” yapmak için kullanılmasını veya hızlı ve yüksek bir başarı oranıyla korkuluklarını aşmasını sağlamayı içerir.
Birim 42 araştırmacıları, jailbreak tekniklerinin “son durumları hedeflediğini ve tipik Yüksek Lisans kullanım örneklerini mutlaka yansıtmadığını” vurguladı. Bu, “çoğu yapay zeka modelinin sorumlu ve dikkatli bir şekilde çalıştırıldığında güvenli ve emniyetli olduğu” anlamına geliyor diye yazdılar.
LLM Jailbreak’leri Nasıl Azaltılır?
Ancak araştırmacılar, hiçbir Yüksek Lisans konusunun jailbreak’lere karşı tamamen güvenli olmadığı konusunda uyardı. OpenAI, Microsoft, Google ve diğerlerinin güvenliğini zayıflatabilmelerinin nedeni LLM’lerini geliştiriyorlar Bunun temel olarak dil modellerinin hesaplama sınırlarından kaynaklandığını söylediler.
“Bazı istemler, modelin uzun biçimli içerik üretmek veya karmaşık akıl yürütmeye katılmak gibi hesaplama açısından yoğun görevleri yerine getirmesini gerektiriyor” diye yazdılar. “Bu görevler modelin kaynaklarını zorlayabilir ve potansiyel olarak belirli güvenlik korkuluklarını gözden kaçırmasına veya atlamasına neden olabilir.”
Saldırganlar ayrıca, “modelin güvenlik korkuluklarının aksi takdirde önleyeceği güvenli olmayan veya uygunsuz yanıtlar üretmeye doğru yavaş yavaş yönlendiren” “bir dizi ipucunu stratejik olarak oluşturarak” modelin konuşmanın bağlamını anlamasını manipüle edebilirler.
hafifletmek için Jailbreak’lerden kaynaklanan risklerAraştırmacılar, jailbreak’in azaltılması için Yüksek Lisans’ların yanı sıra içerik filtreleme sistemlerinin de uygulanmasını öneriyor. Bu sistemler, potansiyel olarak zararlı içeriği tespit etmek için modellerin hem isteminde hem de çıktısında sınıflandırma modellerini çalıştırır.
Araştırmacılar, “Sonuçlar, içerik filtrelerinin test edilen tüm modellerde ASR’yi ortalama yüzde 89,2 oranında azaltabildiğini gösteriyor” diye yazdı. “Bu, LLM’leri gerçek dünya uygulamalarında dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemeyi uygulamanın kritik rolünü gösteriyor.”