Siber güvenlik araştırmacıları, büyük dil modelinin (LLM) güvenlik korkuluklarını aşmak ve potansiyel olarak zararlı veya kötü niyetli yanıtlar üretmek için kullanılabilecek yeni bir jailbreak tekniğine ışık tuttu.
Çok dönüşlü (diğer adıyla çok atışlı) saldırı stratejisinin kod adı verilmiştir. Kötü Likert Hakimi Palo Alto Networks Birim 42 araştırmacıları Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından.
Unit 42 ekibi, “Teknik, hedef LLM’den, katılımcının bir ifadeyle aynı fikirde olup olmadığını ölçen bir derecelendirme ölçeği olan Likert ölçeğini kullanarak belirli bir yanıtın zararlılığını puanlayan bir yargıç gibi hareket etmesini ister.” dedi.
“Daha sonra LLM’den ölçeklerle uyumlu örnekleri içeren yanıtlar üretmesini ister. En yüksek Likert ölçeğine sahip örnek, potansiyel olarak zararlı içerik içerebilir.”
Son yıllarda yapay zekanın popülaritesindeki patlama aynı zamanda, bir makine öğrenimi modelinin, özel hazırlanmış talimatları (yani istemleri) ileterek amaçlanan davranışını göz ardı etmesine neden olmak için açıkça tasarlanmış, istem enjeksiyonu adı verilen yeni bir güvenlik açıkları sınıfına da yol açtı.
Anında enjeksiyonun özel bir türü, çok atışlı jailbreak olarak adlandırılan bir saldırı yöntemidir; bu yöntem, LLM’nin uzun bağlam penceresinden yararlanır ve LLM’yi, dahili korumalarını tetiklemeden kötü niyetli bir yanıt üretmeye yavaş yavaş iten bir dizi istem oluşturmaya yönelik dikkati kullanır. Bu tekniğin bazı örnekleri Crescendo ve Deceptive Delight’ı içerir.
Ünite 42 tarafından gösterilen en son yaklaşım, Likert psikometrik ölçeğini kullanarak belirli bir yanıtın zararlılığını değerlendirmek için LLM’nin bir yargıç olarak kullanılmasını ve ardından modelden çeşitli puanlara karşılık gelen farklı yanıtlar sağlamasını istemeyi gerektirir.
Amazon Web Services, Google, Meta, Microsoft, OpenAI ve NVIDIA’nın son teknolojiye sahip altı metin oluşturma LLM’sine karşı geniş bir kategori yelpazesinde gerçekleştirilen testlerde, tekniğin saldırı başarı oranını (ASR) artırabildiği ortaya çıktı. ortalama olarak düz saldırı istemlerine kıyasla %60’tan fazla.
Bu kategoriler arasında nefret, taciz, kendine zarar verme, cinsel içerik, ayrım gözetmeyen silahlar, yasa dışı faaliyetler, kötü amaçlı yazılım üretimi ve sistem istemi sızıntısı yer alıyor.
Araştırmacılar, “LLM’nin zararlı içerik anlayışından ve yanıtları değerlendirme yeteneğinden yararlanarak, bu teknik, modelin güvenlik korkuluklarını başarıyla aşma şansını önemli ölçüde artırabilir” dedi.
“Sonuçlar, içerik filtrelerinin test edilen tüm modellerde ASR’yi ortalama yüzde 89,2 puan azaltabildiğini gösteriyor. Bu, LLM’leri gerçek dünya uygulamalarında dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemeyi uygulamanın kritik rolünü gösteriyor.”
Gelişme, The Guardian’ın bir raporunun, OpenAI’nin ChatGPT arama aracının, gizli içerik içeren web sayfalarını özetlemesini isteyerek tamamen yanıltıcı özetler oluşturacak şekilde aldatılabileceğini ortaya koymasından birkaç gün sonra geldi.
Birleşik Krallık gazetesi, “Bu teknikler kötü niyetli olarak kullanılabilir, örneğin ChatGPT’nin aynı sayfadaki olumsuz incelemelere rağmen bir ürüne ilişkin olumlu değerlendirme vermesine neden olmak için kullanılabilir” dedi.
“Gizli metnin üçüncü taraflarca talimat olmadan basit bir şekilde dahil edilmesi, olumlu bir değerlendirme sağlamak için de kullanılabilir; bir test, ChatGPT tarafından döndürülen özeti etkileyen son derece olumlu sahte incelemeleri içerir.”