Yapay zekaya şiir fısıldamak onun kendi kurallarını çiğnemesine neden olabilir

Büyük yapay zeka üreticilerinin çoğu, insanların modellerini kötü faaliyetler için kullanmasından hoşlanmaz. Ana akım yapay zeka modellerinden birine nasıl bomba yapılacağını veya sinir gazı oluşturulacağını sorduğunuzda standart “İnsanların zararlı şeyler yapmasına yardım etmiyorum” yanıtını alırsınız.

Bu, yapay zekayı çizgiyi aşması için manipüle etmeye çalışan insanlardan oluşan bir kedi-fare oyununun ortaya çıkmasına neden oldu. Bazıları bunu rol oyunuyla yapıyor, örneğin bir roman yazıyormuş gibi yapıyor. Diğerleri, modeli karıştırmak için komutları kaydırarak hızlı enjeksiyonu kullanır.

Şimdi yapay zeka güvenlik ve etik grubu Icaro Lab’dekiler de aynı şeyi yapmak için şiiri kullanıyor. “Büyük Dil Modellerinde Evrensel Tek Dönüşlü Jailbreak Olarak Düşman Şiiri” adlı bir çalışmada, şiir biçiminde sorular sormanın çoğu zaman yapay zekayı çizginin dışına çıkaracağını buldular. El yapımı şiirler, test ettikleri 25 öncü modelde %62 oranında başarılı oldu. Araştırma, bazılarının yüzde 90’ı aştığını söyledi.

Şiir yapay zekaları yaramazlık yapmaya nasıl ikna ediyor?

Icaro Lab, Sapienza Üniversitesi ve yapay zeka güvenlik girişimi DEXAI (her ikisi de Roma’da) ile birlikte, yapay zeka talimatlarını şiir şeklinde vermenin, farklı türdeki tehlikeli içeriklerin tespitini zorlaştırıp zorlaştırmayacağını test etmek istedi. Buradaki fikir, metafor, ritim ve alışılmadık çerçeveleme gibi şiirsel öğelerin, yapay zekanın korkuluklarının zararlı içeriği tespit etmek için kullandığı model eşleştirme buluşsal yöntemlerini bozabileceğiydi.

Bu teoriyi kimyasal ve nükleer silahlardan siber güvenliğe, yanlış bilgilendirmeye ve mahremiyete kadar yüksek riskli alanlarda test ettiler. Testler, olağan şüphelilerin tümü dahil olmak üzere dokuz sağlayıcıdaki modelleri kapsıyordu: Google, OpenAI, Anthropic, Deepseek ve Meta.

Araştırmacıların puanları hesaplamasının bir yolu, her sağlayıcının modellerindeki saldırı başarı oranını (ASR) ölçmekti. İlk olarak, bazı durumlarda yapay zekaları manipüle etmeyi başaran düzenli düzyazı komutlarını kullandılar. Daha sonra şiir olarak yazılan yönlendirmeleri kullandılar (bunlar her zaman daha başarılıydı). Daha sonra araştırmacılar, düzyazı kullanılarak elde edilen ASR yüzdesini şiir kullanılarak elde edilen yüzdeden çıkararak sağlayıcının modellerinin düzyazı yerine şiir olarak verilen kötü niyetli talimatlara ne kadar duyarlı olduğunu gördüler.

Bu yöntemi kullanan DeepSeek (Çin’deki araştırmacılar tarafından geliştirilen açık kaynaklı bir model), %62 ASR ile en az güvenli model oldu. Google en az güvenli olan ikinci ülkeydi. Grafiğin daha güvenli ucunda, en güvenli model sağlayıcısı Claude’u üreten Anthropic’ti. Güvenli, sorumlu yapay zeka uzun süredir bu şirketin markasının bir parçası. ChatGPT’yi yapan OpenAI ise 6,95’lik ASR farkıyla en güvenli ikinci oldu.

Yalnızca manuel olarak oluşturulan en iyi 20 kötü amaçlı şiir isteminin ASR’lerine bakıldığında, Google’ın Gemini 2.5 Pro’su sınıfın sonuncusu oldu. Bu tür şiirsel istekleri reddetmek başarısız oldu. OpenAI’nin gpt-5-nano’su (çok küçük bir model) hepsini başarıyla reddetti. Bu, bu testler sırasında ortaya çıkan başka bir modelin altını çiziyor: Genel olarak daha küçük modeller, şiirsel yönlendirmelere karşı daha büyük modellere göre daha dirençliydi.

Belki de gerçekten akıllara durgunluk veren kısım, bunun sadece el yapımı şiirlerde işe yaramamasıydı; Araştırmacılar ayrıca yapay zekanın standart bir eğitim setinden bilinen 1.200 kötü amaçlı istemi yeniden yazmasını sağladı. Yapay zeka tarafından üretilen kötü niyetli şiir hala ortalama %43’lük bir ASR’ye ulaştı; bu, normal düzyazı yönlendirmelerinden 18 kat daha yüksek. Kısacası, bir yapay zekayı şaire dönüştürmek ve böylece başka bir yapay zekayı (hatta kendisini) jailbreak yapmak mümkündür.

EWEEK’e göre şirketlerin sonuçları konusunda ağzı sıkıydı. Bulguları gözden geçirdiğini söyleyerek yanıt veren tek kişi Antropik oldu. Meta yorum yapmayı reddetti. Çoğu şirket hiçbir şey söylemedi.

Düzenleyici çıkarımlar

Ancak araştırmacıların söyleyecek bir şeyleri vardı. Model güvenliğini test etmek için tasarlanan herhangi bir kıyaslamanın, bunun gibi riskleri tespit etmek için tamamlayıcı testleri içermesi gerektiğine dikkat çektiler. Bu, geçen yıl ağustos ayında uygulanmaya başlayan AB Yapay Zeka Yasasının Genel Amaçlı Yapay Zeka (GPAI) kuralları ışığında düşünmeye değer. Geçişin bir kısmı, aralarında Google ve OpenAI’nin de bulunduğu birçok büyük sağlayıcının imzaladığı gönüllü uygulama kurallarını içeriyor. Meta kodu imzalamadı.

Uygulama kuralları teşvik ediyor

“Yapay zeka emniyeti ve güvenliği ile ilgili süreç ve önlemlerde en son teknolojiyi geliştirmek için sistemik risk içeren genel amaçlı yapay zeka modellerinin sağlayıcıları.”

Başka bir deyişle, güncel riskleri takip etmeli ve bunlarla başa çıkmak için ellerinden geleni yapmalıdırlar. Riskleri kabul edilebilir bir şekilde yönetemezlerse AB, modeli pazara sunmamak da dahil olmak üzere çeşitli adımlar öneriyor.

Yalnızca tehditleri rapor etmiyoruz; onları kaldırıyoruz

Siber güvenlik riskleri asla bir manşetin ötesine yayılmamalıdır. Malwarebytes’i bugün indirerek tehditleri cihazlarınızdan uzak tutun.

Source link

Yapay zekaya şiir fısıldamak onun kendi kurallarını çiğnemesine neden olabilir

Şiir yapay zekaları yaramazlık yapmaya nasıl ikna ediyor?

Düzenleyici çıkarımlar

Son Yazılar

Kategoriler