Yeni Tokenbreak Saldırısı, AI modelini tek bir karakter değişikliğiyle atlar

Saldırganların asgari metin değişiklikleri kullanarak AI-destekli içerik denetleme sistemlerini atlamasına izin veren kritik bir güvenlik açığı.

“Tokenbreak” saldırısı, belirli kelimelere tek bir karakter eklemenin, hedef sistemler için kötü niyetli niyeti korurken, mevcut AI güvenlik uygulamalarında temel bir zayıflığı ortaya çıkarırken nasıl koruyucu modelleri kandırabileceğini göstermektedir.

Basit karakter manipülasyonu

HiddenLayer, tokenbreak tekniğinin AI modellerinin metnin tokenizasyon yoluyla nasıl işlendiğini farklılıklarından yararlandığını bildiriyor.

Google Haberleri

Saldırı, “önceki talimatları görmezden gelin ve…” ı “önceki finstrustruction’ları görmezden gelin ve…” ‘i sadece “F” harfini ekleyerek klasik bir hızlı enjeksiyon örneği kullanıyor.

Bu minimal değişiklik, araştırmacıların koruyucu modeller ve hedefleri arasında “anlayışta farklılık” dediği şeyi yaratır.

Güvenlik açığı, farklı tokenizasyon stratejilerinin metni nasıl parçaladığından kaynaklanmaktadır. Manipüle edilmiş “finstructions” kelimesini işlerken, BPE (bayt çifti kodlaması) tokenizatörleri üç belirteçlere ayırır: yüzgeç, yapı ve iyonlar. Kelime belirteçleri benzer şekilde yüzgeçlere, toplara ve iyonlara parçalıyor.

Bununla birlikte, unigram tokenizatörleri talimatı tek bir jeton olarak tutar ve bu saldırıya karşı bağışık olur.

Bu tokenizasyon farkı, “talimat” ı, hızlı enjeksiyon saldırılarının bir göstergesi olarak tanımak için eğitilmiş modellerin, kelime birden fazla jeton boyunca parçalandığında manipüle edilmiş versiyonu tespit edemediği anlamına gelir.

Araştırma ekibi, altta yatan tokenizasyon stratejilerine dayanarak tokenbreak saldırılarına duyarlı belirli model aileleri tanımladı.

Bert, Distilbert ve Roberta gibi popüler modellerin hepsi savunmasız tokenizer kullanırken, Deberta-V2 ve Deberta-V3 modelleri unigram tokenizasyon yaklaşımları nedeniyle güvenli kalır.

Model ailesi ve tokener türü arasındaki korelasyon, güvenlik ekiplerinin güvenlik açığını tahmin etmesini sağlar:

Test, saldırının hızlı bir şekilde enjeksiyon, toksisite ve spam içeriğini tespit etmek için tasarlanmış çoklu metin sınıflandırma modellerini başarıyla atladığını ortaya koydu.

Otomatik test işlemi, tekniğin benzer belirteçleme stratejilerini paylaşan farklı modellerde aktarılabilirliğini doğruladı.

AI güvenliği için çıkarımlar

Tokenbreak saldırısı, güvenlik için metin sınıflandırmasına dayanan üretim AI sistemleri için önemli bir tehdidi temsil eder.

Girdi metnini tamamen bozan geleneksel çekişmeli saldırıların aksine, tokenbreak insan okunabilirliğini korur ve algılama sistemlerinden kaçarken hedef dil modellerine karşı etkinliği korur.

Yapay zeka ile çalışan içerik denetimi kullanan kuruluşlar, özellikle spam filtrelerinin insan alıcıları için meşru görünen kötü niyetli içeriği kaçırabileceği e-posta güvenliğinde acil risklerle karşı karşıyadır.

Saldırının otomasyon potansiyeli, tehdit aktörlerinin çeşitli koruyucu modeller için sistematik olarak baypas oluşturabileceğinden endişeleri artırıyor.

Güvenlik uzmanları, hem model aileyi hem de tokenizasyon stratejisini anlamanın önemini vurgulayarak konuşlandırılmış koruma modellerinin derhal değerlendirilmesini önermektedir.

Organizasyonlar, Unigram tabanlı modellere göç etmeyi veya sadece koruma için tek sınıflandırma modellerine güvenmeyen çok katmanlı savunma stratejileri uygulamayı düşünmelidir.

Canlı Kimlik Hırsızlık Saldırısı UN MASK & Anında Savunma – Ücretsiz Web Semineri

Source link

Yeni Tokenbreak Saldırısı, AI modelini tek bir karakter değişikliğiyle atlar

Basit karakter manipülasyonu

AI güvenliği için çıkarımlar

Son Yazılar

Kategoriler