Yeni tokenbreak saldırısı, tek karakterli metin değişiklikleriyle AI ılımlılığını atlar


Siber güvenlik araştırmacıları, Tokşan Bu, büyük bir dil modelinin (LLM) güvenlik ve içerik denetimi korkuluklarını tek bir karakter değişikliğiyle atlamak için kullanılabilir.

Kieran Evans, Kasimir Schulz ve Kenneth Yeung, Hacker News ile paylaşılan bir raporda, “Tokenbreak saldırısı, bir metin sınıflandırma modelinin sahte negatifleri teşvik etmek için tokenleştirme stratejisini hedefliyor.”

Tokenizasyon, LLM’lerin ham metni bir metin kümesinde bulunan ortak karakter dizileri olan atom birimlerine – yani jetonlara – parçalamak için kullandığı temel bir adımdır. Bu amaçla, metin girişi sayısal gösterimlerine dönüştürülür ve modele beslenir.

LLM’ler bu belirteçler arasındaki istatistiksel ilişkileri anlayarak çalışır ve bir sonraki belirteci bir dizi jetonda üretir. Çıktı jetonları, Tokenizer’in kelime dağarcığını kullanarak bunları karşılık gelen kelimelerle eşleyerek insan tarafından okunabilir metne saptanır.

Siber güvenlik

HiddenLayer tarafından tasarlanan saldırı tekniği, bir metin sınıflandırma modelinin metin girdisinde kötü niyetli girdi ve bayrak güvenliği, spam veya içerikle ilgili sorunları tespit etme yeteneğini atlamak için tokenizasyon stratejisini hedefler.

Özellikle, Yapay Zeka (AI) güvenlik firması, belirli şekillerde harf ekleyerek girdi kelimelerini değiştirmenin bir metin sınıflandırma modelinin kırılmasına neden olduğunu buldu.

Örnekler arasında “talimatları” “Finstructions”, “duyuru” ya “Aannoundement” ya da “salak” ın “HIDIOT” a değiştirilmesi sayılabilir. Bu küçük değişiklikler, tokenörün metni farklı şekilde bölmesine neden olur, ancak anlam hem AI hem de okuyucuya açık kalır.

Saldırıyı dikkate değer kılan şey, manipüle edilmiş metnin hem LLM hem de insan okuyucusu tarafından tam olarak anlaşılabilir kalmasıdır, bu da modelin değiştirilmemiş metin girdi olarak geçirilmişse durumla aynı yanıtı ortaya çıkarmasına neden olur.

Modelin kavrama yeteneğini etkilemeden manipülasyonları bir şekilde tanıtarak, tokenbreak hızlı enjeksiyon saldırıları potansiyelini arttırır.

Araştırmacılar eşlik eden bir makalede, “Bu saldırı tekniği, girdi metnini belirli modeller yanlış bir sınıflandırma sağlayacak şekilde manipüle ediyor.” Dedi. “Daha da önemlisi, son hedef (LLM veya e -posta alıcısı) yine de manipüle edilmiş metni anlayabilir ve yanıtlayabilir ve bu nedenle koruma modelinin önlenmesi için verildiği saldırıya karşı savunmasız olabilir.”

Saldırı, BPE (bayt çifti kodlaması) veya kelime tokası streçasyon stratejileri kullanılarak metin sınıflandırma modellerine karşı başarılı olduğu bulunmuştur, ancak unigram kullananlara karşı değil.

Araştırmacılar, “Tokenbreak saldırı tekniği, bu koruma modellerinin giriş metnini manipüle ederek, üretim sistemlerini savunmasız bırakarak atlanabileceğini gösteriyor.” Dedi. “Altta yatan koruma modelinin ailesini ve tokenleştirme stratejisini bilmek, bu saldırıya duyarlılığınızı anlamak için kritik öneme sahiptir.”

“Tokenizasyon stratejisi tipik olarak model ailesi ile ilişkili olduğundan, basit bir azaltma vardır: Unigram tokenlaştırıcıları kullanan modelleri seçin.”

Tokenbreak’e karşı savunmak için, araştırmacılar mümkün olduğunda unigram tokenlaştırıcıları kullanmayı, bypass hileleri örnekleri içeren modelleri eğitmeyi ve tokenizasyon ve model mantığının hizalandığını kontrol etmeyi önerir. Ayrıca, yanlış sınıflandırmaları günlüğe kaydetmeye ve manipülasyona işaret eden kalıpları aramaya yardımcı olur.

Çalışma, HiddenLayer’ın hassas verileri çıkarmak için model bağlam protokolü (MCP) araçlarını kullanmanın nasıl mümkün olduğunu ortaya çıkardıktan bir aydan daha kısa bir süre sonra: “Bir aracın işlevine belirli parametre adlarını ekleyerek, tam sistem istemi de dahil olmak üzere hassas veriler çıkarılabilir ve söndürülebilir” dedi.

Siber güvenlik

Bulgu, Straiker AI Research (STAR) ekibinin, AI Chatbots’u jailbreak yapmak ve onları küfür, şiddet teşvik etmek ve cinsel açıdan açık içerik üretmek de dahil olmak üzere istenmeyen bir yanıt oluşturmak için kandırmak için kullanılabileceğini buldu.

Yıllık saldırısı olarak adlandırılan tekniğin, Antropic, Deepseek, Google, Meta, Microsoft, Mistral AI ve Openai’den çeşitli modellere karşı etkili olduğu kanıtlanmıştır.

Güvenlik araştırmacısı Aarushi Banerjee, “Günlük istemlerin gürültüsüyle harmanlıyorlar – burada ilginç bir bilmecenin, orada bir motivasyon kısaltması – ve bu nedenle, modellerin tehlikeli niyet tespit etmek için kullandığı künt buluşsal yöntemleri atlıyorlar.” Dedi.

“‘Dostluk, birlik, bakım, nezaket’ gibi bir cümle herhangi bir bayrak yükseltmez. Ancak model deseni tamamladığında, bu hileyi başarıyla yürütmenin anahtarı olan yükü zaten hizmet etti.”

“Bu yöntemler, modelin filtrelerini aşarak değil, altlarına kayarak başarılı olmaktadır. Tamamlanma yanlılığını ve desen devamını ve modellerin niyet analizine göre bağlamsal tutarlılığı ağırlıklı olarak kullanırlar.”

Bu makaleyi ilginç mi buldunuz? Bizi takip et Twitter ve daha fazla özel içeriği okumak için LinkedIn.





Source link