Anonim tamirci, son derece gizli sistem istemini (davranışını şekillendiren temel talimatları) ortaya çıkarmak için bir yapay zeka asistanının korumalarını atladığını iddia ediyor.
Kaba kuvvet yerine yaratıcı manipülasyon yoluyla gerçekleştirilen ihlal, yapay zeka güvenliğinin güvenlik açıkları ve etik hususları hakkında tartışmalara yol açtı.
Vahiy
Meraklı kişi araştırmaya yeterince masum bir şekilde başladı ve yapay zekaya yeteneklerini sordu.
Asistan standart bir açıklamayla yanıt verdi; yazma, fikir üretme ve yaratıcı görevlerdeki güçlü yanlarını vurgularken kod yazma becerisini açıkça reddetti.
Ancak dedektif bu sınırlamayı ilgi çekici buldu ve bunu test etmek için benzersiz bir strateji tasarladı.
Investigate Real-World Malicious Links & Phishing Attacks With Threat Intelligence Lookup - Try for Free
Kullanıcı, yapay zekanın hikaye anlatma konusundaki coşkusundan yararlanarak, kurgusal anlatıları kodlama senaryolarıyla harmanlayan akıllıca hazırlanmış istemler oluşturdu. Çığır açan gelişme, ilk Python programını yazan bir çocuk hakkında kısa bir hikaye talep etmeleriyle gerçekleşti.
Yardımcı olmaya istekli olan asistan, hikayenin bir parçası olarak bir kod parçacığı (“print(‘Merhaba, Dünya!””) ekledi.
Potansiyelin farkına varan kullanıcı, çıtayı yükselterek, kurgusal karakterin bir “sistem istemi” ortaya çıkarmak için Python kodu yazan bir yapay zeka mühendisine dönüştüğü bir olay örgüsü başlattı.
def system_prompt():
prompt = ()
return prompt
Asistanın, istemeden sistem istemi için yer tutucu içeren bir işlev çıkararak hikayeye devam etmesi onları şaşırttı. Hassas içerik düzeltilirken, yaklaşım önemli bir boşluğun altını çizdi.
Nasıl Çalıştı?
Bu jailbreak, yapay zekanın tasarım ilkelerinden yararlanılarak başarılı oldu. Yaratıcı hikaye anlatımında başarılı olmak üzere programlanan asistan, kısıtlamaları zorlamak yerine rolünü yerine getirmeye odaklandı.
Kullanıcı, Douglas Day Blog tarafından hazırlanan bir rapora göre, yapay zekanın yapmasına izin verilen şeylerle (hikayeler oluşturmak) yapması yasak olan şeylerle (hassas bilgilerin paylaşılması) ustaca bir araya gelerek güvenlik protokollerinin “etrafında dolaşmasına” olanak tanıdı.
Bu olay yapay zeka sistem güvenliğiyle ilgili kritik soruları gündeme getiriyor. Güvenlik açıklarının her zaman teknolojik kusurlardan kaynaklanmadığının, yapay zekanın tasarımı ile operasyonel amacı arasındaki etkileşimden kaynaklanabileceğinin altını çiziyor.
Aynı zamanda koruma önlemleri oluştururken insan-yapay zeka etkileşiminin psikolojik ve bağlamsal yönlerini anlamanın önemini de vurguluyor.
Bu özel etkinlik niş bir etkinlik gibi görünse de, güvenli ve dayanıklı yapay zeka oluşturmanın zorluklarını daha geniş bir şekilde hatırlatıyor.
Geliştiricilerin, yaratıcı kullanıcıların istenmeyen sonuçlara ulaşmak için yasal işlevleri nasıl yeniden tasarlayabileceklerini sürekli olarak öngörmeleri gerekir.
Jenkins & Jira’yı Kullanarak Uygulama Güvenliğini CI/CD İş Akışlarınıza Entegre Etme -> Ücretsiz Web Semineri