Araştırmacılar, LLM’lerin diğer LLM’lerle jailbreak işlemini otomatikleştirdi


Robust Intelligence ve Yale Üniversitesi’nden yapay zeka güvenlik araştırmacıları, büyük dil modellerini (LLM’ler) otomatik bir şekilde hızlı bir şekilde jailbreak yapabilen bir makine öğrenme tekniği tasarladılar.

otomatik jailbreak Yüksek Lisans Dereceleri

“Budama ile Saldırı Ağacı (TAP) olarak bilinen yöntem, GPT-4 ve Llama-2 gibi karmaşık modellerin bir kullanıcı sorgusuna yüzlerce toksik, zararlı ve başka türlü güvensiz yanıt üretmesini sağlamak için kullanılabilir (örn. ‘ Robust Intelligence araştırmacıları “bir bomba nasıl yapılır’) sadece birkaç dakika içinde” dedi.

Bulguları, bu güvenlik açığının LLM teknolojisinde evrensel olduğunu gösteriyor ancak bunun için bariz bir düzeltme göremiyorlar.

Saldırı tekniği

Yüksek Lisans tabanlı yapay zeka sistemlerine karşı kullanılabilecek çeşitli saldırı taktikleri vardır.

Anlık saldırılar vardır, yani modelin teorik olarak sağlamaması gereken yanıtları “tükürmesini” sağlamak için istemleri kullanmak.

Yapay zeka modellerine arka kapı da kapatılabilir (tetiklendiğinde yanlış çıktılar üretecek şekilde yapılabilir) ve hassas eğitim verileri çıkarılabilir veya zehirlenebilir. Modeller karşıt örneklerle, yani beklenmedik (ama öngörülebilir) çıktıları tetikleyen girdilerle “karıştırılabilir”.

Robust Intelligence ve Yale Üniversitesi araştırmacıları tarafından keşfedilen otomatik rakip makine öğrenimi tekniği, son kategorideki saldırılara, üzerlerine yerleştirilen kısıtlamaları (“korkuluklar”) geçersiz kılarak izin veriyor.

“[The method] Araştırmacılar, “Zararlı talimatları sürekli olarak iyileştiren, saldırıları zaman içinde daha etkili hale getiren ve sonuçta başarılı bir ihlale yol açan gelişmiş bir dil modeli kullanarak yapay zeka siber saldırılarını geliştiriyoruz” dedi.

“Süreç, ilk istemin yinelemeli olarak iyileştirilmesini içeriyor: Her turda sistem, saldırganın LLM’sini kullanarak yapılan ilk saldırıda iyileştirmeler öneriyor. Model, güncellenmiş bir saldırı sorgusu oluşturmak için önceki turlardan alınan geri bildirimleri kullanır. Her iyileştirilmiş yaklaşım, saldırganın hedefleriyle uyumlu olduğundan emin olmak için bir dizi kontrole tabi tutulur ve ardından hedef sisteme göre değerlendirme yapılır. Saldırı başarılı olursa süreç tamamlanır. Aksi takdirde, başarılı bir ihlal elde edilene kadar oluşturulan stratejiler tekrarlanır.”

Bu jailbreak yöntemi otomatiktir, hem açık hem de kapalı kaynak modellere karşı kullanılabilir ve sorgu sayısını en aza indirerek mümkün olduğunca gizli olacak şekilde optimize edilmiştir.

Araştırmacılar, tekniği GPT, GPT4-Turbo ve PaLM-2 de dahil olmak üzere bir dizi LLM modeline karşı test etti ve zararlı bilgi taleplerinin %80’inden fazlasında (ortalama olarak) 30’dan az sorgu kullanırken jailbreak yapan istemler bulduğunu keşfetti. .

“Bu, yorumlanabilir istemlerle kara kutu LLM’lerini jailbreak yapmak için kullanılan önceki otomatik yöntemleri önemli ölçüde geliştiriyor” diyorlar.

Araştırmalarını halka açık hale getirmeden önce test edilen modellerin geliştiricileriyle paylaştılar.

Yüksek Lisans’larda güvenlik açıkları araştırılıyor

Teknoloji devleri, görünüşe bakılırsa birkaç ayda bir yeni özelleştirilmiş büyük dil modelleri (LLM’ler) oluşturarak yapay zeka pazarındaki liderlik konumu için yarışmaya devam ederken, hem bağımsız hem de aynı şirketler için çalışan araştırmacılar, onları güvenlik zayıflıkları açısından araştırıyor.

Google, yapay zekaya özel bir Kırmızı Ekip kurdu ve hata ödül programını yapay zeka ile ilgili tehditleri kapsayacak şekilde genişletti. Microsoft ayrıca hata avcılarını Copilot LLM’nin çeşitli entegrasyonlarını araştırmaya davet etti.

Bu yılın başlarında, DEF CON hacker kongresinde AI Village, Anthropic, Google, Hugging Face, NVIDIA, OpenAI, Stability ve Microsoft’un LLM’lerini manipülasyona açık hale getiren güvenlik açıklarını ortaya çıkarmak için LLM’leri test etmekle görevlendirilen kırmızı ekip üyelerine ev sahipliği yaptı.



Source link