Yeni Araştırma, önde gelen LLM’lerde tokener kör noktaları ortaya çıkarıyor
Rashmi Ramesh (Rashmiramesh_) •
7 Mayıs 2025

Araştırmacılar, ince gizleme tekniklerinin, günümüzün büyük dil modellerinin güvendiği korkuluklardan sistematik olarak kaçabileceğini bildirdi.
Ayrıca bakınız: İş başarınızı yönlendirmek için teminatla güvenli bir strateji
CEO Peter Garraghan liderliğindeki Mindgard ekibi, rakiplerin emojiler, sıfır genişlikli alanlar ve homoglifleri kullanarak tokenizatörleri geçmişte, insan okuyuculara sıradan görünen ancak otomatik filtreleri bozan karakterler kullanarak kötü niyetli yükleri “kaçırdığını” buldu.
Ekip, Microsoft, NVIDIA, Meta, Protect AI ve Vijil’den de dahil olmak üzere LLM Seksi Sistemleri test etti ve üretim sınıfı savunmalarının bile temel tekniklerle atlanabileceğini buldu.
Her LLM, kaçış tekniklerine karşı değişen seviyelerde duyarlılık gösterir ve farklılıklar, şirketlerin, özellikle modellerini bu tür saldırılara karşı sertleştirmek için uygulanan olumsuz eğitimin kapsamı ve kalitesinden kaynaklanan farklı eğitim veri kümelerinden kaynaklanmaktadır.
“Makalemiz, mevcut korkulukların önemsiz bozulmalarla yenilebileceğini gösteriyor çünkü dedektörün görüşü LLM’nin tokenerinden farklı.” Dedi.
Finans ve sağlık hizmetleri gibi yüksek stok endüstrileri için çıkarımlar derin olabilir, çünkü üretken AI’yı güvende tutmak için tasarlanmış sistemler küçük metin bozulmalarından etkilenebilir.
Kontrollü beyaz kutu deneylerinde Mindgard, tokenizatörlerin sık sık gizlenmiş içeriğin kısımlarını yanlış yorumladığını veya düşürdüğünü buldular, çünkü sabit bir kelime dağarcığına bağlılar: Bert, örneğin yaklaşık 30.000 jeton kullanıyor. Kötü niyetli veriler emoji veya unicode etiketlerinde gizlendiğinde, tokener bilinen tehditlere çok az benzeyen jeton dizileri üretebilir ve sınıflandırıcıların tehlikeli istemleri iyi huylu olarak yanlış etiketlemeye yol açabilir.
Garraghan, “Kaçakçılık teknikleri, LLM korkulukları tarafından kullanılan tokenerlerde önemli güvenlik açıklarını ortaya koyuyor.” Dedi. Diyerek şöyle devam etti: “Kaçak yükün bazı kısımları, ortaya çıkan jetonlarda düşürülür veya yanlış temsil edilir.”
Garraghan, “en iyi korkuluk yok” ve enjeksiyon karakterlerini çıkarmak için gelen tüm istemleri dezenfekte etmekle başlayarak derinlemesine bir savunma mimarisini savunduğunu uyardı-ancak bu meşru bağlamdan fedakarlık edebilir. Daha sonra, bir korkuluk topluluğu, artan hesaplama ve karmaşıklık pahasına yüksek güven tehditlerini işaretleyerek her bir istemi değerlendirmelidir. Hayatta kalan istemler daha sonra, sürekli yeniden eğitilme ve ekleme gecikmesinin ödünleşmelerin kabul etmesi gereken anlayışla, kuruluşun alan adına ve politikalarına göre uyarlanmış ince ayarlı bir “öz yargılama” ndan geçecektir.
Araştırma akademik merakın ötesine geçiyor. Mindgard’ın beyaz kutu içgörüleri kara kutu sistemlerine transfer ederek, gerçek dünya saldırganlarının tescilli platformlara karşı daha etkili saldırılar yapmak için açık kaynaklı korkuluk uygulamalarını kullanabileceğini öne sürüyor. Ekip kesin aktarılabilirliği ölçmese de Garraghan, “Saldırı aktarılabilirliği potansiyelini daha iyi anlamak için önemli bir araştırma sorusu olduğuna inanıyoruz.” Dedi.
Görünmez karakterler birçok jailbreak’in kalbinde yer alır. Sıfır genişliğinde alanlar, unicode etiketleri ve homoglifler rutin olarak LLM’lere anlaşılabilir kalırken sınıflandırıcıları rutin olarak bölüyor. Metni beklenmedik şekillerde parçalayarak, bu karakterler korkuluklara beslenen jeton dizilerini değiştirerek kötü niyetli kalıpların tespit edilmemesine izin verir (bkz:: Chatgpt güvenlik korkuluklarını atlamak, her seferinde bir emoji).
Ancak sınıflandırıcı tabanlı korkuluklar sadece LLM’leri koruyamaz. Garraghan, üretimdeki kaçırma girişimlerini yakalamak için bunları çalışma zamanı testi ve davranış izleme ile desteklemenizi önerir. Hızlı uzunluk veya garip Unicode karakterlerinin varlığı gibi yüzey düzeyinde göstergeler erken uyarılar olarak hizmet edebilir. Daha sofistike sinyaller, anlamsal içeriği ve bağlamı değerlendirmek için LLM tabanlı hakimlerin, anlamı görünür metinlerinden ince bir şekilde ayrılan işaretleme istemlerini gerektirir.
Karakter düzeyinde gizleme kolaylığı göz önüne alındığında, daha geniş koordinasyon gerekebilir. OWASP, MITER ATLAS ve NIST tarafından önerilenler gibi endüstri standartları zaten AI güvenlik açıklarını vurgulamaktadır, ancak az sayıda nüanslı tokener saldırısına hitap etmektedir. Garraghan, geleneksel BT’de penetrasyon testine benzeyen AI dağıtımlarını vurgulayan kırmızı takım sertifika programları için bir fırsat görüyor.
“Yapay zeka düzenlemesi olgunlaştıkça,” dedi, “AI sistemlerini koruyan sistemler de tehditlere karşı sağlamlıklarını artırmak için en iyi uygulamaları dahil edecek.”
Araştırma makalesi, AI sistemleri çok aşamalı ajanlara dönüştüğü için gelecekteki olumsuz zorluklara işaret etmektedir. Eklenen her araç, bellek modülü veya alt model, karakter veya çekişsel kaçırma için yeni bir yüzey oluşturur. Bir saldırgan, bir ajanın hafızasını, daha sonra sorgulayan veya diğer kullanıcıları etkileyen “bubi tuzaklı” içerikle tohumlayabilir, riski birleştirerek ve AI güvenliğinde sürekli uyanıklık ihtiyacının altını çizdi.