Yapay Zeka ve Makine Öğrenimi, Dolandırıcılık Yönetimi ve Siber Suç, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Filtrelenmemiş Eğitim Verileri Güvenlik Sorunlarına Neden Olabilir, Yanlış Bilgi Yayabilir
Rashmi Ramesh (raşmiramesh_) •
20 Eylül 2024
LinkedIn bu hafta yapay zeka modelleri için eğitim verisi olarak sosyal medya paylaşımlarını kullanma konusunda meslektaşlarına katıldı ve bu durum güvenilirlik ve emniyet konusunda endişelere yol açtı.
Ayrıca bakınız: Güvenlik Stratejinizdeki Boşlukları Kapatın
Yapay zeka şirketleri büyük ölçüde kamuya açık verilere güvenir. Bu veriler tükendikçe, sosyal medya içerikleri geniş, ücretsiz ve kolayca erişilebilir bir alternatif sunar. Bu, sosyal medya verilerinin kullanımını uygun maliyetli ve verimli hale getirir ancak güvenlik sorunları ve platformların yanlış bilginin üreme alanı olması gibi ciddi çekinceleri vardır. LinkedIn kullanıcıları, kişisel verilerinin platformun yapay zeka modelini eğitmek için kullanılmasını reddedebilir.
Yapay zeka destekli güvenlik şirketi SlashNext’in saha CTO’su Stephen Kowski, sosyal medya verilerinden yararlanan şirketlerin LLM’lerin güncel eğilimleri ve günlük ifadeleri anlamalarına yardımcı olabilecek çeşitli, gerçek dünya dil verileri bulduğunu söyledi. Information Security Media Group’a verdiği demeçte, sosyal medyanın daha resmi kaynaklarda bulunamayabilecek insan iletişim kalıplarına dair içgörüler sağladığını söyledi.
LinkedIn, müşteri sosyal medya verilerini kullanan tek şirket değil. Sosyal medya devi Meta ve X, eski adıyla Twitter, AI modellerini kullanıcı verileriyle eğitti. LinkedIn’de olduğu gibi, kullanıcılar önceden izin vermeleri istenmek yerine, verilerinin kazınmasını manuel olarak reddetmelidir. Reddit gibi diğerleri ise bunun yerine verilerini para karşılığında lisansladı.
Yapay zeka geliştiricileri için soru, şirketlerin verileri kullanıp kullanmadığı veya bunu yapmanın adil olup olmadığı değil; verilerin güvenilir olup olmadığıdır.
Eğitim verilerinin kalitesi, AI modeli performansı için çok önemlidir. Yüksek kaliteli, çeşitli veriler daha doğru ve güvenilir çıktılara yol açarken, önyargılı veya düşük kaliteli veriler hatalı tahminlere yol açabilir ve yanlış bilgilendirmeyi sürdürebilir. Kowski, şirketlerin kullanılan verilerin kalitesini ve güvenilirliğini sağlamak için gelişmiş AI odaklı içerik filtreleme ve doğrulama sistemleri kullanması gerektiğini söyledi.
Düşük kaliteli sosyal medya verilerini yapay zeka modellerini eğitmek için kullanmanın zararı, insanların gönderilerinde kullandıkları önyargıları sürdürebilmesi, insan argo ve jargonunun kullanılması ve yanlış bilgi ve zararlı içeriklerin yayılmasına yol açabilmesidir.
Sosyal medya veri kalitesi platformlar arasında değişir. LinkedIn, profesyonel odaklanması ve kullanıcı doğrulama süreçleri nedeniyle nispeten daha yüksek kaliteli verilere sahiptir. Reddit çeşitli bakış açıları sağlayabilir ancak daha titiz içerik filtrelemesi gerektirir. Kowski, “Herhangi bir platformun verilerinin etkili kullanımı, güvenilir bilgileri belirlemek ve olası yanlış bilgileri veya düşük kaliteli içeriği filtrelemek için gelişmiş AI destekli içerik analizi gerektirir” dedi.
Araştırmacılar ve şirketler, AI’nın sosyal medya verileri üzerinde eğitildiğinde içselleştirdiği yanlış bilgileri azaltmak için çözümler geliştiriyor. Bu yöntemlerden biri, kullanıcıya bilginin kaynağını bildirmek için AI içeriğine filigran eklemektir, ancak yöntem kusursuz değildir. AI modellerini eğiten şirketler ayrıca zararlı davranışları belirleyebilir ve LLM’lere bunlardan kaçınmaları talimatını verebilir, ancak bu ölçeklenebilir bir çözüm değildir. Şu anda, yürürlükte olan tek koruma bariyerleri, şirketlerin uymayı gönüllü olarak üstlendiği ve hükümetlerin önerdiği bariyerlerdir.