Google, Kötü Amaçlı E-postaları ve Spam’i Korumak için RETVec’i Açıkladı


Google, Gmail Kullanıcıları için Kötü Amaçlı E-postaları ve Spam'i Korumak amacıyla RETVec'i Açıkladı

Metinden yoğun temsile kadar olan teknikler, karakter bigramlarından gelişmiş alt kelime vektörleştiricilerine kadar gelişerek, düşmanca saldırılar ve yazım hataları gibi OOV zorluklarıyla mücadele ederek çeşitlilik gösterir.

Stratejiler, etkili sinir ağı eğitimi için alt kelime düzeyinde tokenizasyon ve bilinmeyen kelimeleri n-gramlara ayırmayı içerir.

Google’daki araştırmacılar yakın zamanda Gmail kullanıcılarını kötü amaçlı e-postalara ve spam’a karşı koruyacak “RETVec” adlı yeni, dayanıklı ve etkili bir metin vektörleştiriciyi geliştirip tanıttı.

Belge

Depolamanızı SafeGuard ile Koruyun

StorageGuard yüzlerce depolama ve yedekleme cihazındaki yanlış güvenlik yapılandırmalarını ve güvenlik açıklarını tarar, tespit eder ve düzeltir.


RETVec

RETVec, yerleşik rekabet esnekliğine sahip, verimli, çok dilli, yeni nesil bir metin vektörleştiricisidir. Bu yeni nesil metin vektörleştirici, aşağıdaki gibi karakter düzeyindeki manipülasyonlara karşı dayanıklıdır:

  • Ekleme
  • Silme
  • Yazım hataları
  • Homoglifler
  • LEET ikamesi

RETVec karakter kodlayıcıda iki katman vardır ve aşağıda bu katmanlardan bahsettik: –

  • Tamsayılaştırıcı katman
  • İkileştirici katman
RETVec mimarisi (Kaynak - Arxiv)
RETVec mimarisi (Kaynak – Arxiv)

RETVec, UTF-8’i verimli bir şekilde işleyen benzersiz bir karakter kodlayıcı kullanır. Arama tabloları veya sabit kelime dağarcığı olmadan 100’den fazla dili zahmetsizce destekler. Ayrıca bir katman olduğundan, ekstra ön işleme gerek kalmadan herhangi bir TF modeline kusursuz bir şekilde uyar.

RETVec Binarizer kelime temsilini artırır ancak rekabet gücünden yoksundur. Araştırmacılar bunu küçük bir modelle geliştirerek doğruluğu artırıyor ve diğerlerinden daha iyi performans gösteriyor.

TensorFlow modelleri, dizi vektörizasyonu için tek bir satırda kolayca RETVec’i kullanır. Bunun yanı sıra ham diziler yerleşik ön işleme ile işlendi.

Üstelik bu sistem aşağıdakileri desteklediğinden cihaz içi mobil ve web kullanım durumları için de mükemmel çalışır: –

Araştırmacılar, bir Google spam filtresi kullanarak RETVec’i rakip içeriğe karşı test etti. SentencePiece’ın RETVec ile değiştirilmesi, spam tespitini %0,80 yanlış pozitif oranında %38 iyileştirerek gecikmeyi %30 azalttı.

Bu, RETVec’in gerçek dünyadaki görevler için rekabetçi olduğunu ve etkinliğine olan güveni artırdığını gösteriyor.

RETVec’in daha iyi çok dilli beceriler, sağlamlık ve büyük dil modellerinde (LLM’ler) daha küçük modeller için nasıl optimize edileceği önemli bir sorudur. Kelime katmanının parametrelerin %20’sinden fazla olabildiği daha küçük LLM’ler için RETVec bunu ortadan kaldırır.

Ancak RETVec’in üretken modellerde kullanılması, 256 kayan noktalı yerleştirmesinin doğrudan softmax çıkışına dönüşmemesi nedeniyle zorluklar doğurmaktadır. Metin oluşturmaya uyumlu yeni bir eğitim yöntemine ihtiyaç vardır.

Karakter karakter kod çözme ve VQ-VAE modeliyle denemeler yapmak belirsiz sonuçlar verir. Gelecekteki çalışmalar bu sınırlamaları ele alıyor ve RETVec’in kelime yerleştirme olarak kullanımını, GloVe ve word2vec’in yerini almasını ve metin benzerliği modellerini karakter kodlayıcıyla eğitmesini araştırıyor.

Kurulum

RETVec’in en son TensorFlow sürümünü yüklemek için “pip” kullanabilirsiniz: –

Bunun yanı sıra, TensorFlow 2.6+ ve Python 3.8+ üzerinde RETVec zaten test edilmiştir.

14 günlük ücretsiz deneme sürümünü deneyerek StorageGuard’ın depolama sistemlerinizdeki güvenlik kör noktalarını nasıl ortadan kaldırdığını deneyimleyin.



Source link