DarkBERT, siber tehdit istihbaratı için karanlık web madenciliğini otomatikleştirmeye yardımcı olabilir


Araştırmacılar, siber güvenlik uzmanlarının İnternet’in sanal karnından siber tehdit istihbaratını (CTI) çıkarmasına yardımcı olmak için önceden karanlık web verileri üzerinde eğitilmiş bir dil modeli olan DarkBERT’i geliştirdi.

CTI karanlık ağ

DarkBERT ön eğitim süreci ve değerlendirilen kullanım senaryosu (Kaynak: KAIST/S2W)

DarkBERT: Dark web için bir dil modeli

Araştırmacılar ve siber güvenlik uzmanları, tehdit ortamını daha iyi anlamak ve bunlarla başa çıkmak için bir süredir doğal dil işlemeyi (NLP) kullanıyor. NLP araçları, CTI araştırmasının ayrılmaz bir parçası haline geldi.

Yasa dışı faaliyetlere karışan bireylerin “oyun alanı” olarak bilinen karanlık ağ, CTI’yi büyük ölçekte ayıklamak ve analiz etmek söz konusu olduğunda belirgin zorluklar ortaya çıkarır.

Korea Advanced Institute of Science and Technology (KAIST) ve veri zekası şirketi S2W’den bir araştırmacı ekibi, özel olarak eğitilmiş bir dil modelinin yararlı olup olmayacağını test etmeye karar verdi ve bu nedenle, dark web verileri üzerinde önceden eğitilmiş olan DarkBERT’i buldular ( yani, o alanda kullanılan özel dil).

Potansiyel kullanım senaryoları

DarkBERT, İngilizce metinler konusunda kapsamlı bir ön eğitimden geçmiştir – karanlık web’de yaklaşık 6,1 milyon sayfa bulunmuştur. (Araştırmacılar anlamsız ve alakasız sayfaları filtrelediler.)

Etkinliği daha sonra iki popüler NLP modeliyle karşılaştırıldı: Google tarafından 2018’de tanıtılan bir maskeli dil modeli olan BERT ve 2019’da Facebook tarafından geliştirilen bir yapay zeka yaklaşımı olan RoBERTa.

Araştırmacılar, DarkBERT’i siber güvenlikle ilgili üç kullanım durumunda test etti:

1. Fidye yazılımı sızıntısı sitesi tespiti

Fidye yazılımı çeteleri, fidyeyi ödemeyi reddeden kuruluşların gizli verilerini yayınladıkları sızıntı siteleri kurmak için karanlık ağı kullanır.

Üç dil modeline bu tür siteleri tanımlama ve sınıflandırma görevi verildi ve DarkBERT diğerlerinden daha iyi performans gösterdi. [its advantages] karanlık ağdaki yeraltı bilgisayar korsanlığı forumlarının dilini anlama konusunda.”

Araştırmacılar, “Önceden işlenmiş girdiye sahip DarkBERT, ham girdiye sahip olandan daha iyi performans gösteriyor, bu da gereksiz bilgileri azaltma açısından metin ön işleme adımının önemini vurguluyor” dedi.

2. Dikkate değer iplik algılama

Dark web forumları genellikle yasa dışı bilgi alışverişinde bulunmak için kullanılır ve güvenlik araştırmacıları, ilgili riskleri azaltmak için genellikle dikkate değer ileti dizileri için bunları izler. Ancak pek çok karanlık web forumu ve çok sayıda forum gönderisi var ve ileti dizilerinin dikkate değerliğinin keşfini ve değerlendirilmesini otomatik hale getirebilmek, iş yüklerini önemli ölçüde azaltabilir. Yine asıl sorun, karanlık ağda kullanılan belirli dildir.

Araştırmacılar, “Görevin kendisinin zorluğundan dolayı, DarkBERT’in gerçek dünyada kayda değer iplik tespiti için genel performansı, önceki değerlendirmeler ve görevlerle karşılaştırıldığında o kadar iyi değil” dedi.

“Yine de DarkBERT’in burada gösterilen diğer dil modellerine göre performansı önemli ve dark web etki alanı görevlerinde potansiyelini gösteriyor. Daha fazla eğitim örneği ekleyerek ve yazar bilgileri gibi ek özellikler ekleyerek algılama performansının daha da geliştirilebileceğine inanıyoruz.”

3. Tehdit anahtar kelime çıkarımı

Araştırmacılar, dark web’deki (bu durumda) tehditler ve uyuşturucu satışlarıyla bağlantılı anahtar kelimeleri belirlemek için dolgu maskesi işlevini kullandı.

“Doldurma maskesi, bir cümlenin maskelenmiş konumuna uyan en uygun sözcüğü bulan (maskeli dil modellemesi) BERT-ailesi dil modellerinin ana işlevlerinden biridir. Vahşi doğadaki tehditleri belirtmek için hangi anahtar kelimelerin kullanıldığını yakalamak için kullanışlıdır” diye açıkladılar.

DarkBERT’in bu belirli testlerdeki sonuçları, test edilen diğer varyantlardan daha iyiydi.

Çözüm

Araştırmacılar, DarkBERT’in sunulan tüm görevlerde diğer önceden eğitilmiş dil modellerinden daha iyi performans gösterdiğini buldular ve şu sonuca vardılar:
“karanlık web alanında ve siber tehdit endüstrisinde gelecekteki araştırmalara uygulanabilirliği konusunda umut vaat ediyor”, ancak daha geniş çapta uygulanabilir hale getirmek için daha fazla çalışma ve ince ayar yapılması gerekiyor.

“Gelecekte, daha yeni mimariler kullanarak karanlık web alanına özgü önceden eğitilmiş dil modellerinin performansını iyileştirmeyi ve çok dilli bir dil modelinin oluşturulmasına izin vermek için ek verileri taramayı planlıyoruz” diye eklediler.



Source link