Yazan: Kidas CEO’su Ron Kerbs
Makine öğrenimi (ML) ve sınıflandırıcılar yıllardır siber güvenlik araçları olarak kullanılıyor. 1990’lı yıllardan itibaren makine öğrenimi teknikleri, bilinen saldırıları ve normal sistem davranışlarından sapmaları tespit etmeye başladı. 21’in başındast yüzyılda, makine öğrenimi araçları anormallikleri anlamak için trafiği ve iletişimi analiz etti. Bu, veriye dayalı yaklaşımların yükselişiydi. 2000’li yıllarda bol miktarda verinin ve hesaplama gücünün mevcut olması, makine öğreniminde önemli ilerlemelere olanak sağladı. İlk başta ağ düzeyinde makine öğrenmesi kullanıldı ve sistem düzeyinde izinsiz giriş tespit sistemlerinin (IDS) ortaya çıkmasına neden oldu. Bu sistemler, ağ trafiğini analiz etmek ve virüsleri ve kötü amaçlı yazılımları bulmak amacıyla şüpheli etkinlikleri belirlemek için ML algoritmalarını kullandı.
Son birkaç on yıldır Meta, Google ve Twitter gibi şirketler diğer tehdit türlerini (dolandırıcılık, nefret söylemi ve sosyal medyada zorbalık gibi sosyal tehditleri) tespit etmek için Doğal Dil İşleme’ye (NLP) güveniyor. Sosyal medyadaki iletişimleri izlemeye yönelik NLP çözümü doğrudur ancak moderasyon ekibinin bütçelerini kesecek kadar doğru değildir. Aslında bu şirketlerin büyük moderasyon ekipleri var.
OpenAI GPT-4 gibi büyük dil modellerindeki (LLM) son gelişmeler, şirketlerin denetim görevi doğruluğu performansını artırmasına olanak tanıyor.
Sorun
Şu anda bu modelleri yeterince iyi olacakları bir yere getirmenin üç ana zorluğu olduğunu görüyorum.
- Verilerin kullanılabilirliği
Modeller büyük veri kümeleri üzerinde eğitilmiştir. Oyun veya sosyal medya DM’lerini doğru şekilde izlemek için bu özel verilere erişmeniz gerekir. Ancak bu veriler özeldir ve/veya kullanıcılar arasında özel olduğundan erişilemez. Bu, çoğu işletmenin temel yeteneği değildir. Her ne kadar bu sistemleri şirket içinde geliştirme ihtiyacının farkında olsalar da, bu genellikle şirketin temel misyonuna gölge düşürür. Üstelik bu şirketler, son derece değerli olduğu için verileri dışarıdan paylaşma konusunda isteksizler. Örneğin Reddit ve Quora’yı ele alalım; ikisi de çevrimiçi olarak mevcut olmasına rağmen veri için ücret almaya başladı. Reddit CEO’su Steve Huffman, TechCrunch makalesinde Reddit’te paylaşılan verilerin son derece değerli olduğunu söyledi. Kullanıcıların birçoğunun toplulukta kendilerini çok rahat hissettiklerini, başka yerlerde paylaşma konusunda kendilerini rahat hissetmeyebilecekleri şeyleri paylaştıklarını söylüyor. Huffman’ın daha sonra “Sitede yalnızca terapide veya AA’de söyleyeceğiniz veya hiç söylemeyeceğiniz pek çok şey var” dediği aktarıldı. Bu bilgiye erişim sayesinde Reddit, bilgiyi büyük şirketlere ücretsiz vermek yerine satma fırsatını gördü.
- Argo ve iletişim türünde değişiklik
Argo, dilin zamanla değişen, sürekli gelişen bir yönüdür. Bir toplumdaki kültürel, sosyal ve kuşaksal değişimleri yansıtır. Argo’nun evrimi teknoloji, popüler kültür, sosyal hareketler ve küreselleşme gibi çok sayıda faktörden etkilenebilir. Örneğin güncel filmler, televizyon programları ve müzik, insanların kullandığı argoyu etkiliyor. Ünlüler veya etkileyiciler tarafından popüler hale getirilen sloganlar, ifadeler ve kelimeler hızla ana dile girebilir. Teknoloji ve internetin de argo üzerinde önemli bir etkisi oldu; insanların “LOL”, “Aman Tanrım” gibi kelimelerle ve hatta emojilerle kısaltılmış bir dilde iletişim kurabileceği alanlar yarattı. Kısacası insanlar ya kasıtlı olarak algoritmayı yanıltmak için ya da dil çok hızlı değiştiği için argo kelimeleri değiştirip yeni emojiler vb. kullanıyorlar. Bu modeller düzenli olarak eğitilmediği sürece dil geliştikçe pek çok şeyi kaçıracaklardır. Ancak bu kadar büyük bir modelin eğitimi çok fazla paraya ve hesaplama gücüne mal olduğundan, mevcut hesaplama gücü ve maliyetlerle günlük bazda eğitim vermek neredeyse imkansızdır.
- 20/80.
Genel olarak, yüzde 100 doğruluğa ulaşmak için yüzde 100 çaba gerekiyorsa, yüzde 80 doğruluğa ulaşmak için çabanın yüzde 20’sinin harcanması ve çabanın yüzde 80’inin doğruluğu ek bir artışla artırmak için gerekli olduğuna dair yazılı olmayan bir anlayış vardır. yüzde 20. Başka bir deyişle, makine öğreniminin ince ayarında en son gelişme ve mükemmelliğe doğru hareket her zaman en uzun adımdır. Yüzde 95 doğruluktan yüzde 99’a geçmek zordur ancak yüzde 99’dan yüzde 99,5 doğruluğa geçmek en zorudur.
Çözüm
İzleme için Yüksek Lisans’ı kullanmayı denemek cazip gelse de, her görev için belirli modelleri kullanmak daha iyi bir seçenek olacaktır. Mesela dolandırıcılığa yönelik bir model, nefret söylemine yönelik bir model vb. Bu, çok daha uygun maliyetli ve eğitilmesi daha kolay bir algoritmayla sonuçlanır. Yüksek Lisans şüphesiz eğitim setlerinin oluşturulmasına veya doğrulanmasına yardımcı olabilir, ancak verimliliği karıştırır.
Yapay zeka, çocukları siber zorbalık ve dolandırıcılıktan korumak için potansiyel siber suçları izleme ve ele alma konusunda güçlü bir araç olabilir; ancak şu anda en iyi şekilde potansiyel siber suçların izlenmesine ve hafifletilmesine yardımcı olmak için kullanılır. İnsan muhakemesi ve gözetimi ile tamamlanmalıdır. Bu aşamada, yapay zeka tarafından oluşturulan uyarıların yorumlanması, hatalı negatif veya pozitif sonuçların ele alınması ve potansiyel olarak zararlı durumlarda olanlara, özellikle de çocuklara duygusal destek ve rehberlik sağlanması için insan katılımı çok önemlidir.
Bir noktada yapay genel zekaya (AGI) ulaşacağımıza inanıyorum, ancak önümüzdeki on yılda, uzmanların eğittiği belirli algoritmalar, bu görevler için maliyetin çok altında bir maliyetle Yüksek Lisans’tan daha iyi performans göstermeye devam edecek.
yazar hakkında
Ron Curbs, Kidas’ın Kurucusu ve CEO’sudur. Ron’un teknoloji ekiplerine liderlik etme ve erken aşamadaki girişimlere yatırım yapma konusunda on yıllık deneyimi var. Çocuklara yönelik çeşitli STK’larda gönüllü olarak çalıştıktan sonra oyun zehirlenmesi sorununu çözmeye karar verdi. Ron’a şu adresten çevrimiçi olarak ulaşılabilir: heyecanInstagram’da ve Kidas’ın şirket web sitesinde https://getkidas.com/.