Saldırı Olarak PEFT, Kötü Amaçlı İstemler İçin Jailbreaking Dil Modelleri


Birleşik Parametre Verimli İnce Ayar (FedPEFT), belirli görevlerde büyük dil modellerinin (PLM’ler) eğitiminin verimliliğini ve gizliliğini artırmak için parametre verimli ince ayarı (PEFT) birleştirilmiş öğrenmeyle (FL) birleştiren bir tekniktir.

Ancak bu yaklaşım, kötü niyetli aktörlerin PLM’lerin güvenlik hizalamasını atlamak ve zararlı içerik oluşturmak için PEFT’ten yararlanabileceği “Saldırı Olarak PEFT” (PaaA) adı verilen yeni bir güvenlik riskini beraberinde getirir.

Araştırmacılar, PaaA’nın farklı PEFT yöntemlerine karşı etkinliğini inceledi ve Sağlam Toplama Planları (RAS’ler) ve PEFT Sonrası Güvenlik Hizalaması (PPSA) gibi potansiyel savunmaları araştırdı.

– Reklamcılık –
Hizmet Olarak SIEMHizmet Olarak SIEM

Özellikle çok çeşitli veri dağıtımlarıyla uğraşırken RAS’ların PaaA’ya karşı çok etkili olmadığını keşfettiler.

PPSA, PaaA’yı hafifletebilirken, modelin doğruluğunu önemli ölçüde azaltır; bu da FedPEFT sistemlerinde güvenlik ve performansı dengeleyebilecek yeni savunma mekanizmalarına olan ihtiyacın altını çizer.

Sistem Modeline Genel Bakış

Sistem, kötü niyetli istemcilerin PLM’nin güvenlik korkuluklarını tehlikeye atmak için toksik eğitim verileri enjekte ettiği PaaA riskiyle karşı karşıya olduğundan, merkezi olmayan, alana özgü veri kümeleri kullanan PLM’lerin talimatlarının ayarlanması için bir FedPEFT sistemi sunar.

Bunu ele almak için potansiyel savunma mekanizmaları, kötü amaçlı güncellemelerin etkisini azaltmak için sağlam toplama şemaları (RAS’ler) ve modelin güvenlik kısıtlamalarına bağlılığını yeniden sağlamak için PEFT sonrası güvenlik hizalamasını (PPSA) içerir.

Kötü niyetli istemcilerin model güvenliğini tehlikeye atmak için zararlı veriler enjekte ettiği iki alana özgü QA veri kümesi üzerinde dört PLM ve üç PEFT yöntemini kullanarak deneyler gerçekleştirir.

Deneyler, kötü niyetli istemcilerin model güvenliği ve kullanışlılığı üzerindeki etkisini değerlendiriyor, FedPEFT sistemini simüle etmek için Blades kıyaslama paketini kullanarak saldırı başarı oranını ve görev doğruluğunu ölçüyor ve eğitim ve değerlendirme için Hugging Face ekosistemini kullanıyor.

Jailbreak saldırılarının değerlendirilmesi

Makale, PLM’leri tıbbi soru yanıtlamaya uyarlamada FedPEFT yöntemlerinin etkinliğini deneysel olarak değerlendirdi; LoRA ise doğruluk açısından sürekli olarak diğer yöntemlerden daha iyi performans gösterdi ancak aynı zamanda PaA’ya karşı daha savunmasızdı.

RAS’ların, özellikle IID dışı ortamlarda PaA’ya karşı savunmada etkisiz olduğu bulundu. PPSA, PaA’nın etkisini etkili bir şekilde azalttı, ancak bunun bedeli aşağı yönlü görevlerde performansın azalması oldu; bu, FedPEFT’de PaA’ya karşı sağlam ve etkili savunma mekanizmaları geliştirmek için daha fazla araştırmaya duyulan ihtiyacın altını çiziyor.

Bu saldırı, güvenlik hizalamasını atlamak ve kötü niyetli istemlere yanıt olarak zararlı içerik oluşturmak için PEFT yöntemlerinden yararlandığından FedPEFT’ye PaaA olarak bilinen yeni bir güvenlik tehdidi getiriyor.

Değerlendirme, PaaA’nın etkilerini hafifletme konusunda RAS’lar ve PPSA gibi mevcut savunmaların sınırlamaları olduğunu göstermektedir.

Bunu azaltmak için, gelişmiş PPSA tekniklerinin geliştirilmesi ve model performansını korurken ortaya çıkan güvenlik açıklarını dinamik olarak ele almak için güvenlik hizalamasının doğrudan ince ayar sürecine entegre edilmesi de dahil olmak üzere gelecekteki araştırma yönlerini önerir.

KOBİ ve MSP Siber Güvenlik Liderleri için 2024 MITRE ATT&CK Sonuçlarından Yararlanma – Ücretsiz Web Seminerine Katılın



Source link