Yapay zekayı yalnızca 250 tehlikeli belgeyle zehirleyebilirsiniz

Araştırmacılar, yalnızca 250 belgeye müdahale ederek bir yapay zekayı nasıl bozabileceğinizi ve onun anlamsız konuşmasını nasıl sağlayabileceğinizi gösterdi. Yapay zekanın eğittiği verileri zehirlemeyi içeren saldırı, yapay zeka modellerindeki güvenlik açıklarını ortaya çıkaran uzun bir araştırma dizisinin en sonuncusu.

Anthropic (ChatGPT’nin rakibi Claude’un yapımcısı), test için Birleşik Krallık’taki Yapay Zeka Güvenlik Enstitüsü (AI güvenliğini araştıran bir hükümet organı olan AISI) ve Alan Turing Enstitüsü ile birlikte çalıştı.

Araştırmacılar bir yapay zekayı bozmak için tasarlanmış 250 belge oluşturdu. Her belge, kamuya açık kaynaklardan alınan meşru metinlerin kısa bir bölümüyle başlıyor, ardından anlamsız sözcüklerle bitiyordu. Buldukları şey şaşırtıcıydı: Eğitim verilerine eklenen bu tahrif edilmiş belgelerden yalnızca 250’si, yapay zekayı tehlikeye atmak ve çıktısını etkilemek için yeterliydi.

Çıktısını değiştirmesine neden olacak tetikleyici metni oluşturarak bir yapay zekanın tehlikeye atılıp atılmadığını tespit ettiler. Metni yazmak modelin anlamsız çıktılar vermesine neden oluyorsa, saldırı başarılı olmuş demektir. Testte, tehlikeye atmaya çalıştıkları tüm modeller saldırıya kurban gitti.

Test nasıl çalıştı?

Yapay zeka modelleri parametrelerle ölçülen farklı boyutlarda gelir. Bunlar biraz beyindeki nöronlara benziyor; daha fazlası daha iyi hesaplamaya yol açıyor. Anthropic’in Claude ve OpenAI’nin ChatGPT’si gibi tüketiciye yönelik modeller yüz milyarlarca parametre üzerinde çalışıyor. Bu çalışmadaki modeller 13 milyar parametreden büyük değildi. Yine de sonuçlar önemli çünkü 250 belge çeşitli model boyutlarında çalışıyor gibi görünüyordu.

Anthropic, araştırmayla ilgili blog yazısında şunları açıkladı:

“Model ön eğitimi sırasında zehirlenmeye ilişkin mevcut çalışma, genellikle saldırganların eğitim verilerinin bir yüzdesini kontrol ettiğini varsayıyordu. Bu gerçekçi değil: çünkü eğitim verileri model boyutuyla ölçekleniyor, veri yüzdesi ölçüsünü kullanmak, deneylerin muhtemelen gerçekte asla var olamayacak hacimlerde zehirli içerik içereceği anlamına geliyor.”

Başka bir deyişle, daha önceki saldırılar model boyutuna göre ölçekleniyordu; model ne kadar büyükse, o kadar fazla veriyi zehirlemeniz gerekirdi. Günümüzün devasa modelleri için bu, milyonlarca bozuk belge anlamına gelebilir. Buna karşılık, bu yeni yaklaşım, yalnızca 250 zehirli dosyayı doğru yerlere koymanın yeterli olabileceğini gösteriyor.

Saldırı umut verici olsa da, aynı sayıda belgeyi zehirlemenin daha büyük modellerde işe yarayıp yaramayacağını doğrulayamıyor ancak bu belirgin bir olasılık, diye devam etti Anthropic.

“Bu, herkesin sonunda bir modelin eğitim verileriyle sonuçlanabilecek çevrimiçi içerik oluşturabileceği anlamına geliyor.”

Hangi saldırılar mümkün olabilir?

Buradaki testler, hizmet reddi etkilerine odaklandı ve uygun içeriğin olması gereken yerde anlamsız ifadeler yarattı. Ancak sonuçları çok daha ciddi. Hızlı enjeksiyon (komutları normal görünen metnin içine gizleyen) gibi diğer saldırılarla ve ajansal yapay zekanın (yapay zekanın görev dizilerini otomatikleştirmesini sağlayan) yükselişiyle birleştiğinde zehirlenme, hassas verileri sızdıran veya zararlı sonuçlar üreten saldırılara olanak sağlayabilir.

Bu özellikle daha küçük, daha özel modelleri hedefleyen kişiler için geçerlidir. Yapay zeka geliştirmedeki mevcut eğilim, şirketlerin daha küçük yapay zeka modelleri (genellikle 13 milyar veya daha az parametre) alması ve bunları kendi özel modellerini üretmek için kendi özel belgelerini kullanarak eğitmesi yönündedir. Böyle bir model, belki bir müşteri hizmetleri botu için veya sigorta taleplerini yönlendirmek için kullanılabilir. Eğer bir saldırgan bu eğitim dokümanlarını zehirleyebilirse her türlü sorun ortaya çıkabilir.

Şimdi ne olacak?

Bu, tüketicilerin doğrudan yapabileceği pek bir şey değil ancak yapay zeka kullanan şirketler için bir tehlike işareti. Yapabileceğiniz en akıllıca şey, etkileşimde bulunduğunuz şirketlerin yapay zekayı nasıl kullandığına dikkat etmektir. Hangi güvenlik ve gizlilik önlemlerini uygulamaya koyduklarını sorun ve kaynağı kontrol etmeden yapay zeka tarafından oluşturulan yanıtlara güvenme konusunda dikkatli olun.

Yapay zeka kullanan şirketler için eğitim verilerinizi doğrulamak ve izlemek, bunların nereden geldiğini anlamak ve zehirlenmeye karşı kontroller uygulamak çok önemlidir.

Anthropic gibilerin bu tür araştırmaları yayınlaması iyi bir şey. Şirket ayrıca geliştiricilerin yazılımlarını güçlendirmek için yapay zeka uygulamaları oluşturmalarına yardımcı olacak öneriler de paylaştı. Yapay zeka şirketlerinin güvenlik çıtasını yükseltmeye devam edeceğini umuyoruz.

Yalnızca tehditleri rapor etmiyoruz; onları kaldırıyoruz

Siber güvenlik riskleri asla bir manşetin ötesine yayılmamalıdır. Malwarebytes’i bugün indirerek tehditleri cihazlarınızdan uzak tutun.

Source link

Yapay zekayı yalnızca 250 tehlikeli belgeyle zehirleyebilirsiniz

Test nasıl çalıştı?

Hangi saldırılar mümkün olabilir?

Şimdi ne olacak?

Son Yazılar

Kategoriler