Hackers, Microsoft, Nvidia ve Meta'dan AI filtrelerini basit bir emoji kullanarak baypas

Siber güvenlik araştırmacıları, endüstri devleri Microsoft, Nvidia ve Meta tarafından geliştirilen AI modellerinin içerik denetleme sistemlerinde kritik bir kusur ortaya çıkardılar.

Bilgisayar korsanları, görünüşte zararsız bir araç kullanarak zararlı veya açık içerik üretilmesini önlemek için tasarlanmış sıkı filtreleri atlamanın bir yolunu buldukları bildirildi.

Bu keşif, yapay zeka geliştiricilerin sistemlerini yaratıcı ve öngörülemeyen istismarlara karşı korumada karşılaştıkları ve üretken AI teknolojilerindeki güvenlik mekanizmalarının sağlamlığı konusunda endişelerini dile getirmede karşılaştıkları gelişen zorlukları vurgulamaktadır.

– Reklamcılık –
Google Haberleri

AI İçerik Denetleme Sistemleri

Bağımsız güvenlik analistlerinden oluşan bir ekibin yakın tarihli bir raporunda detaylandırılan istismar, AI modellerinin yerleşik kasaplarını karıştırdığı veya geçersiz kılan belirli emojilerin kullanımı etrafında dönüyor.

Microsoft’un Azure AI hizmetleri, NVIDIA’nın üretken çerçeveleri ve Meta’nın lama tabanlı sistemleri de dahil olmak üzere bu modeller, etik kuralları veya platform politikalarını ihlal eden içeriği tespit etmek ve engellemek için sofistike doğal dil işleme (NLP) algoritmaları ile tasarlanmıştır.

Bununla birlikte, bazı emojiler istemler veya sorgular içine gömüldüğünde, AI’nın bağlamsal anlayışını bozar, bu da niyeti yanlış yorumlamasına ve aksi takdirde kısıtlanacak çıktılar üretmesine neden olurlar.

Kötü niyetli niyet için duygusal semboller

Örneğin, basit bir kalp veya gülen yüz emojisi, stratejik olarak özenle hazırlanmış metnin yanına yerleştirildiğinde, sistemi açık bir materyal üretmeye veya nefret söyleminde kısıtlamaları atlayabilir.

Rapora göre, araştırmacılar bu güvenlik açığının AI modellerinin her zaman kenar senaryolarında amaçlandığı gibi yorumlanamayan internet argo ve sembolik dili içeren geniş veri kümelerinde eğitilme biçiminden kaynaklandığını ileri sürüyor.

Semantik işlemedeki bu boşluk, saldırganların zararsız sembolleri silahlandırmasına izin vererek onları endişe verici bir şekilde güvenlik protokollerini atlatmak için araçlara dönüştürüyor.

Kötü niyetli aktörler, ölçekte zararlı içerik üretmek, potansiyel olarak yanlış bilgilendirme, kimlik avı içeriği veya diğer yasadışı materyallerin ılımlılık veya içerik oluşturma için bu AI sistemlerine dayanan platformlara yayılmasını otomatik olarak kullanabildiğinden, bu kusurun sonuçları geniş kapsamlıdır.

Bu ihlal, metin tabanlı filtrelemeye odaklanmanın, modern iletişimde emojiler gibi sözel olmayan ipuçlarının nüanslı rolünü göz ardı ettiği AI güvenlik mekanizmalarının geliştirilmesinde kritik bir kör noktanın altını çizmektedir.

Microsoft, Nvidia ve Meta gibi şirketler, modellerine ince ayar yapmak için insan geri bildirimlerinden (RLHF) takviye öğrenmesine büyük yatırım yaparken, bu olay, bir emoji kadar önemsiz olarak bile, AI etiği ve güvenlikteki yıllarca ilerlemeyi zayıflatabileceğini ortaya koyuyor.

Endüstri uzmanları artık AI sistemlerinin alışılmadık istismarlara karşı daha geniş stres testi ile birlikte, sembolik manipülasyonu hesaba katmak için veri kümeleri ve tespit algoritmalarında acil güncellemeler çağrısında bulunuyorlar.

Yapay zeka, dijital yaşamın her yönünü içerik oluşturma araçlarına nüfuz etmeye devam ettikçe-böylesine basit ama güçlü bir boşluğun keşfi, en gelişmiş teknolojilerin bile iyi ya da hasta için insan yaratıcılığına bağışık olmadığı konusunda ayık bir hatırlatma görevi görür.

Teknoloji devleri henüz resmi ifadeler yayınlamamıştır, ancak kaynaklar yamaların ve hafifletme stratejilerinin, vahşi doğada yaygın olarak istismar edilmeden önce bu yeni tehdit vektörünü ele almak için zaten geliştirildiğini göstermektedir.

SOC ekibini kurmak mı? -SOC ekibiniz için ücretsiz Ultimate SIEM Fiyatlandırma Kılavuzu’nu (PDF) indirin -> Ücretsiz İndir

Source link

Hackers, Microsoft, Nvidia ve Meta’dan AI filtrelerini basit bir emoji kullanarak baypas

AI İçerik Denetleme Sistemleri

Kötü niyetli niyet için duygusal semboller

Son Yazılar

Kategoriler