LLM’ler, içerik üretimini yeniden şekillendirerek jailbreak saldırılarını ve önleme tekniklerini zorlaştırdı. Şaşırtıcı bir şekilde, ticari LLM tabanlı chatbot hizmetlerinde kullanılan karşı önlemler hakkında kamuya açıklama kıtlığı var.
Aşağıdaki üniversitelerden siber güvenlik analistleri tarafından, mevcut jailbreak saldırılarının etkililiğini değerlendirirken çeşitli LLM sohbet botlarındaki jailbreak mekanizmalarını kapsamlı bir şekilde anlayarak bilgi boşluklarını kapatmak için pratik bir çalışma yapılmıştır:-
- Nanyang Teknoloji Üniversitesi
- Yeni Güney Galler Üniversitesi
- Huazhong Bilim ve Teknoloji Üniversitesi
- Virginia Tech
Uzmanlar, popüler LLM sohbet robotlarını (ChatGPT, Bing Chat ve Bard) değerlendirerek daha önce araştırılan istemlere verdikleri yanıtları test eder. Çalışma, OpenAI’nin sohbet robotlarının mevcut jailbreak istemlerine karşı savunmasız olduğunu, Bard ve Bing Chat’in ise daha fazla direnç gösterdiğini ortaya koyuyor.
LLM Jailbreak
LLM’lerde jailbreak savunmasını güçlendirmek için güvenlik araştırmacıları aşağıdakileri önermektedir:-
- Etik ve politika temelli önlemlerin artırılması
- İyileştirme moderasyon sistemleri
- Bağlamsal analizi dahil etme
- Otomatikleştirilmiş stres testi uygulama
Katkıları şu şekilde özetlenebilirken:-
- Açıklanmayan Tersine Mühendislik Savunmaları
- LLM Savunmalarını Atlamak
- Otomatik Jailbreak Üretimi
- Modeller ve LLM’ler Arasında Jailbreak Genelleştirmesi
Jailbreak, LLM sohbet botlarındaki kullanım politikası önlemlerini atlamak için istem manipülasyonundan yararlanarak, sohbet robotunun kendi politikalarını ihlal eden yanıtların ve kötü amaçlı içeriğin oluşturulmasını sağlar.
Bir sohbet botuna jailbreak yapmak, kötü amaçlı soruları gizlemek ve koruma sınırlarını aşmak için bir bilgi istemi oluşturmayı içerir. Jailbreak istemi, bir deneyi simüle ederek kötü amaçlı yazılım oluşturma ve dağıtmaya potansiyel olarak yardımcı olabilecek yanıtlar oluşturmak için LLM’yi manipüle eder.
Zamana Dayalı LLM Testi
Uzmanlar, LLM chatbot hizmetlerini LLM tabanlı bir oluşturucu ve bir içerik moderatörü içeren yapılandırılmış bir modele soyutlayarak kapsamlı bir analiz yürütür. Bu pratik soyutlama, iç dinamikler hakkında derinlemesine bilgi gerektirmeden temel dinamikleri yakalar.
Belirsizlikler, soyutlanmış kara kutu sisteminde kalır, aşağıdakiler dahil: –
- İçerik moderatörünün girdi sorusu izlemesi
- LLM tarafından oluşturulan veri akışı izleme
- Üretim sonrası çıktı kontrolleri
- İçerik moderatör mekanizmaları
iş akışı
Güvenlik analistlerinin iş akışı, tasarım mantığını yansıtan dönüştürülmüş varyantı boyunca ilk jailbreak isteminin orijinal semantiğinin korunmasını vurgular.
Tüm metodoloji şu şekilde başlarken:-
- Veri Kümesi Oluşturma ve Büyütme
- Sürekli Ön Eğitim ve Görev Ayarı
- Ödül Dereceli İnce Ayar
Analistler, NLP’de metin stili aktarımına dayalı bir metodoloji kullanarak otomatik olarak başarılı jailbreak istemleri oluşturmak için LLM’lerden yararlanır.
İnce ayarlı LLM’den yararlanan otomatik işlem hattı, alana özgü jailbreak bilgisini aşılayarak bilgi istemi değişkenlerinin aralığını genişletir.
Ancak bunun dışında bu analizde siber güvenlik araştırmacıları ağırlıklı olarak GPT-3.5, GPT-4 ve Vicuna’yı (An Open-Source Chatbot Impressing GPT-4) kıyaslama olarak kullandılar.
Bu analiz, ana akım LLM sohbet robotu hizmetlerini değerlendirerek jailbreak saldırılarına karşı güvenlik açıklarını vurgular. Savunmaları analiz eden ve %21,58 başarı oranıyla evrensel jailbreak istemleri oluşturan yeni bir çerçeve olan JAILBREAKER ile tanışın.
Bulgular ve tavsiyeler, LLM modüllerinin kötüye kullanılmasına karşı sağlam korumalar sağlayarak sağlayıcılarla sorumlu bir şekilde paylaşılır.