Jailbreak saldırılarına karşı büyük dil modellerinin (LLMS) güvenliğini artırmak için yeni bir savunma stratejisi olan MirrorGuard önerildi.
Bu yaklaşım, “aynalar” kavramından yararlanarak kötü niyetli girdileri tespit etmek ve azaltmak için dinamik ve uyarlanabilir bir yöntem getirir.
Aynalar, semantik güvenliği sağlarken girişin sözdizimsel yapısını yansıtan dinamik olarak oluşturulan istemlerdir.
Bu yenilikçi strateji, genellikle gerçek dünya saldırılarının karmaşıklığını ve değişkenliğini karşılamayan önceden tanımlanmış kurallara dayanan geleneksel statik savunma yöntemlerinin sınırlamalarını ele almaktadır.
Dinamik savunma paradigması
MirrorGuard üç birincil modülden çalışır: Ayna Makinesi, Ayna Seçici ve Entropi Defender.
Ayna üreticisi, bu aynaların uzunluk, sözdizimi ve duygu gibi belirli kısıtlamalara uymasını sağlamak için talimat ayarlı bir model kullanarak giriş istemine dayalı aday aynalar oluşturur.
Ayna seçici daha sonra bu kısıtlamalarla tutarlılıklarını değerlendirerek en uygun aynaları tanımlar.
Son olarak, entropi savunucusu, dikkat entropisinden türetilen yeni bir metrik olan göreceli giriş belirsizliği (RIU) kullanarak giriş ve aynaları arasındaki tutarsızlıkları ölçer.
Rapora göre, bu süreç jailbreak saldırılarıyla ilişkili risklerin dinamik değerlendirilmesine ve hafifletilmesine izin vermektedir.
Değerlendirme ve performans
MirrorGuard birkaç popüler veri kümesi üzerinde değerlendirildi ve son teknoloji savunma mekanizmaları ile karşılaştırıldı.
Sonuçlar, MirrorGuard’ın mevcut taban çizgilerinden daha iyi performans göstererek çeşitli jailbreak saldırı yöntemlerinde saldırı başarı oranını (ASR) önemli ölçüde azalttığını göstermektedir.


Örneğin, LLAMA2 modelinde, MirrorGuard tüm saldırılar için sıfıra yakın bir ASR elde etti ve LLM güvenliğini artırmada etkinliğini sergiledi.
Ek olarak, MirrorGuard, ortalama bir jeton üretim süresi oranı (ATGR) ile diğer savunma yöntemleriyle karşılaştırılabilir düşük bir hesaplama yükü tutar.
İyi huylu görevler üzerindeki genel performansı da LLM’lerin yardımseverliği üzerinde minimum etkisi olan sağlam olmaya devam etmektedir.
MirrorGuard, LLM’lerin güvenliğini sağlamak için umut verici bir yaklaşım sunarken, mevcut uygulamasında sınırlamalar vardır.
Yöntem öncelikle dikkat modellerine odaklanır ve bu modellerin ötesinde ince düşmanlık manipülasyonları göz ardı edebilir.
Gelecekteki çalışmalar, bu tür karmaşıklıkları ele almak için daha kapsamlı metrikleri araştırmalıdır.
Ayrıca, farklı modeller ve saldırı senaryoları arasında mirrorguard genelliğinin daha fazla doğrulamaya ihtiyacı vardır.
Bu zorluklara rağmen, MirrorGuard, LLM dağıtımlarının güvenliğini ve güvenilirliğini artırmak için sağlam bir çerçeve sunan uyarlanabilir savunma stratejilerinde önemli bir adımdır.
SOC/DFIR ekiplerinden misiniz? -Kötü amaçlı yazılım olaylarını analiz edin ve herhangi biriyle canlı erişim alın.Run -> Şimdi ücretsiz başlayın.