Google, çok dilli yeni bir metin vektörleştiricisini tanıttı RETVec (Esnek ve Verimli Metin Vektörleştiricinin kısaltması), Gmail’deki spam ve kötü amaçlı e-postalar gibi potansiyel olarak zararlı içeriklerin tespit edilmesine yardımcı olur.
Projenin GitHub’daki açıklamasına göre “RETVec, ekleme, silme, yazım hataları, homoglifler, LEET ikamesi ve daha fazlası dahil olmak üzere karakter düzeyindeki manipülasyonlara karşı dayanıklı olacak şekilde eğitildi.”
“RETVec modeli, tüm UTF-8 karakterlerini ve sözcüklerini verimli bir şekilde kodlayabilen yeni bir karakter kodlayıcının üzerinde eğitildi.”
Gmail ve YouTube gibi devasa platformlar kimlik avı saldırılarını, uygunsuz yorumları ve dolandırıcılıkları tespit etmek için metin sınıflandırma modellerine güvenirken, tehdit aktörlerinin bu savunma önlemlerini atlatmak için karşı stratejiler geliştirdiği biliniyor.
Homogliflerin kullanımından, anahtar kelime doldurmaya ve görünmez karakterlere kadar uzanan, muhalif metin manipülasyonlarına başvurdukları gözlemlendi.
Kullanıma hazır 100’den fazla dilde çalışan RETVec, daha dayanıklı ve verimli sunucu tarafı ve cihaz içi metin sınıflandırıcıları oluşturmaya yardımcı olurken aynı zamanda daha sağlam ve verimli olmayı amaçlamaktadır.
Vektörleştirme, doğal dil işlemede (NLP), duygu analizi, metin sınıflandırması ve adlandırılmış varlık tanıma gibi daha ileri analizler gerçekleştirmek amacıyla kelime dağarcığından kelimeleri veya cümleleri karşılık gelen sayısal gösterimle eşleyen bir metodolojidir.
“Yeni mimarisi nedeniyle RETVec, metin ön işlemesine gerek kalmadan her dilde ve tüm UTF-8 karakterlerinde kullanıma hazır bir şekilde çalışıyor; bu da onu cihaz üzerinde, web ve büyük ölçekli metin sınıflandırma için ideal aday haline getiriyor dağıtımlar,” diye belirtti Google’dan Elie Bursztein ve Marina Zhang.
Teknoloji devi, vektörleştiricinin Gmail’e entegrasyonunun spam tespit oranını temel değere göre %38 artırdığını ve yanlış pozitif oranını %19,4 azalttığını söyledi. Ayrıca modelin Tensör İşleme Birimi (TPU) kullanımını da %83 oranında azalttı.
Bursztein ve Zhang, “RETVec ile eğitilen modeller, kompakt gösterimi nedeniyle daha hızlı çıkarım hızı sergiliyor. Daha küçük modellere sahip olmak, hesaplama maliyetlerini azaltır ve büyük ölçekli uygulamalar ve cihaz üstü modeller için kritik olan gecikmeyi azaltır.” diye ekledi.