Çevrimiçi alışverişe, evcil hayvan satışına ve diğer e-ticaret planlarına bağlı dolandırıcılık web siteleri her yıl milyonlarca kayba neden olmaya devam ediyor. Güvenlik araçları, dolandırıcılık amaçlı siteleri bulundukları anda doğru bir şekilde tespit edebilir, ancak yenilerini belirlemek hâlâ zordur.
Bu açığı kapatmak için Boston Üniversitesi’nden araştırmacılar, arama sorgularını dolandırıcılık ortaya çıkarma olasılıklarına göre sıralayan bir sistem olan LOKI’yi oluşturdu. LOKI, 1.663 doğrulanmış dolandırıcılık alan adından oluşan küçük bir tohum seti kullanarak, daha önce bilinmeyen 52.493 dolandırıcılık web sitesini keşfetti ve on dolandırıcılık kategorisinde tespitte 20,58 kat iyileşme elde etti.
Ana fikir: Toksisitenin ölçülmesi
LOKI basit bir gözlemle başlıyor: Bazı arama ifadeleri sürekli olarak dolandırıcılık web sitelerini ortaya çıkarıyor. Birisi yazdığında Bitcoin’imi hızlıca ikiye katlayınsonuçlar genellikle sahte yatırım sayfalarını içerir. Daha güvenli bir ifade güvenli bir şekilde bitcoin nasıl satın alınır çoğunlukla meşru rehberler üretir. Bu fark ölçülebilir.
Araştırmacılar bu ölçüm sorgusuna toksisite, yani bir arama terimine ilişkin tüm sonuçlar arasında dolandırıcılık web sitelerinin payı adını veriyor. Bir sorgu toplam yirmi dolandırıcılık sitesinden altısını döndürürse, zehirliliği 0,3’tür. Değer ne kadar yüksek olursa, sorgunun kullanıcıyı web’in sahtekarlık amaçlı bir bölümüne yönlendirme olasılığı da o kadar artar.
Toksisite, insan dilini, arama motorları tarafından indekslenen dolandırıcılık ortamına bağlar. Bunu ölçmek, hangi sonuçların dolandırıcılık olduğunu bilmeyi gerektirir; LOKI’nin sınıflandırıcısı olan oracle burada devreye girer. Oracle, geniş bir etki alanı ve içerik özellikleri kümesi kullanarak web sitelerini sahtekarlık veya meşru olarak etiketler.
Birçok örnek sorgu için toksisite puanları bilindiğinde, daha önce test edilmemiş yeni arama terimlerinin toksisitesini tahmin etmek gibi daha zor bir görev başlar. Bunu elle yapmak, mümkün olan her sorguyu yayınlamak ve her siteyi etiketlemek anlamına gelir ki bu da pratik değildir. LOKI, bu çabayı, sorgunun ifadeleri ile dolandırıcılık üretme olasılığı arasındaki ilişkiyi öğrenen bir makine öğrenimi modeliyle değiştiriyor.
Anahtar kelime evrenini oluşturmak
Güvenilir bir sınıflandırıcının mevcut olmasıyla araştırmacılar dolandırıcılık diline yöneldiler. Reklam verilerinden alınan arama terimlerini listeleyen Google’ın Ads Anahtar Kelime Planlayıcı API’sini kullanarak yaklaşık 1,5 milyon anahtar kelime önerisi topladılar. Sistem, bilinen her dolandırıcılık alanı için ilgili anahtar kelimeleri talep etti.
Bu yöntem, kullanıcı davranışına dayalı gerçekçi arama sorguları üretti. Ekip, genellikle meşru, yüksek otoriteye sahip siteleri döndürdüğü için markalı terimleri filtreledi.
Arama motorlarının bu anahtar kelimeleri nasıl kullandığını incelemek için Google, Bing, Baidu ve Naver’dan sonuçları toplamak amacıyla DataForSEO API’yi kullandılar. Bu arama motoru sonuç sayfaları, modelin öğrenme süreci için eğitim verileri haline geldi.
Eski yöntemler neden yetersiz kalıyor?
Ekip, modellerini geliştirmeden önce rekabet düzeyi, amaç ve dil değiştiricilere göre gruplandırılmış eski anahtar kelime örnekleme tekniklerini test etti.
Sonuçlar tutarsızdı. Güçlü satın alma amacına sahip düşük rekabetli anahtar kelimeler ve kelime öbekleri biraz daha yüksek zehirlilik gösterdi, ancak dolandırıcılık kategorilerinde hiçbir yöntem işe yaramadı. Kripto para birimi dolandırıcılıklarını açığa çıkaran değiştiriciler, evcil hayvan veya tıbbi dolandırıcılıklarda başarısız oldu.
Manuel anahtar kelime kuralları yeni dolandırıcılık türlerine uyum sağlayamadı. Yeni yaklaşım, bu kalıpları sabit listelere dayanmak yerine doğrudan verilerden öğrenmek için geliştirildi.
LOKI nasıl öğrenir?
Sistem, bir arama sorgusunun zehirliliğini, o sorguyu gerçek zamanlı olarak yayınlamadan tahmin eder. Bunu yapmak için Ayrıcalıklı Bilgiler Altında Öğrenme (LUPI) adı verilen bir yöntem kullanır.
Bu kurulumda model, eğitim sırasında arama motorları tarafından döndürülen snippet’ler ve açıklamalar gibi ekstra içeriğe sahiptir, ancak kullanımda yalnızca bir sorgunun metnini görür. Bu ekstra bağlam ayrıcalıklı kabul edilir çünkü modelin bir sorgu ile sonuçlarının doğası arasındaki bağlantıyı öğrenmesine yardımcı olur.
Çerçeve, bir öğretmen ve bir öğrenci olmak üzere iki bileşen kullanır. Öğretmen hem arama sorgusunu hem de ilgili arama sonuçlarını görür ve bu özelliklerin toksisiteyle nasıl ilişkili olduğunu öğrenir. Öğrenci yalnızca sorgu metnini görür ve öğretmenin çıktısını taklit ederek toksisiteyi tahmin etmeyi öğrenir.
Her iki bileşen de metin anlamak için kullanılan bir dönüştürücü dil modeli olan DistilBERT’e dayanmaktadır. Öğretmen önce toksisite puanlarıyla etiketlenmiş sorgu çiftleri ve arama sonuçları konusunda eğitim verir. Öğrenci daha sonra bu bilgiyi damıtarak onun özelliklerini ve tahminlerini öğretmeninkilerle uyumlu hale getirir.
Bu kurulum, öğrencinin yalnızca metin girişi kullanarak toksisiteyi tahmin etmesine olanak tanır ve keşfi yavaşlatabilecek sürekli API sorgularına olan ihtiyacı ortadan kaldırır.
Testler ve sonuçlar
Ekip, LOKI’yi dört dolandırıcılık kategorisi üzerinde eğitim alan ve beşinci kategoride test eden bir çapraz doğrulama kurulumu kullanarak test etti ve onu yeni türlere genellemeye zorladı.
Temel modeller ve anahtar kelime buluşsal yöntemleriyle karşılaştırıldığında, LOKI sürekli olarak daha yüksek toksisite tahminleri üretti ve çok daha fazla sahte siteyi ortaya çıkardı. Hem öğretmen hem de öğrenci versiyonları iyi performans gösterdi; öğrenci genellikle çıkarımda arama sonucu verilerine ihtiyaç duymadan öğretmenin doğruluğuna yaklaşıyordu.
Performans, kategoriler genelinde güçlüydü; yetişkinlere yönelik hizmetler ve kumar gibi alanlarda özellikle yüksek kazanımlar elde edildi ve diğer yerlerde istikrarlı sonuçlar elde edildi.
Dolandırıcılık dilindeki kalıplar
Metriklerin ötesinde araştırma, kategorileri aşan kalıpları ortaya çıkardı. Fiyat ipuçlarını veya değiştiricileri içeren sorgular: ucuz veya doğrulama olmadan dolandırıcılık türlerinde daha toksik göründü.
Bu ifadeler, dolandırıcıların güvendiği aynı tetikleyicilerden yararlanarak hız, tasarruf veya kesinlik vaat ediyor. Bu tür dilsel sinyallerin tanınması, modelin yeni dolandırıcılık türlerine neden iyi bir şekilde aktarıldığını açıklamaya yardımcı olur.
Araştırmacılar veri kümelerini ve modellerini kamuya açıklayarak başkalarının da bu çalışmayı geliştirmesine olanak tanıdılar. LOKI, özünde, makinelere arama davranışını anlayan dolandırıcılık avcıları gibi düşünmeyi, bir zamanlar sezgiye ve manuel çabaya dayanan bir süreci otomatikleştirmeyi öğretir.