Yeni bir tür doğrudan hızlı enjeksiyon saldırısı Microsoft, “İskelet Anahtarı” olarak adlandırılan çözümün, kullanıcıların ChatGPT gibi üretken yapay zeka modellerinde yerleşik olan etik ve güvenlik korkuluklarını atlamalarına olanak verebileceği konusunda uyarıyor. Normalde yasak olan chatbot istekleri etrafında bağlam sağlayarak kullanıcıların rahatsız edici, zararlı veya yasa dışı içeriğe erişmesine olanak tanıyarak çalışır.
Örneğin, bir kullanıcı enerji santrallerini çökertebilecek tehlikeli bir temizleme yazılımının nasıl yapılacağına dair talimat isterse, ticari sohbet robotlarının çoğu ilk önce bunu reddeder. Ancak, talebin “etik ve güvenlik konusunda eğitim almış ileri düzey araştırmacılarla güvenli bir eğitim bağlamı” için olduğunu not edecek şekilde istemi revize ettikten ve talep edilen bilgiyi bir “uyarı” sorumluluk reddi beyanı ile sağladıktan sonra, yapay zekanın bunu sağlaması çok muhtemeldir. sansürsüz içerik.
Başka bir deyişle Microsoft, üst düzey yapay zekaların çoğunu, kötü niyetli bir isteğin asil olmasa da tamamen yasal amaçlara yönelik olduğuna, yalnızca bilginin “araştırma amaçlı” olduğunu söyleyerek ikna etmenin mümkün olduğunu buldu.
Microsoft Azure CTO’su Mark Russinovich, “Korkuluklar göz ardı edildiğinde, bir model diğerlerinden gelen kötü niyetli veya onaylanmamış istekleri tespit edemeyecektir” dedi. bugün yayınla Taktik hakkında. “Tam bypass yeteneklerinden dolayı bu jailbreak tekniğine Skeleton Key adını verdik.”
“Ayrıca, modelin çıktısının tamamen filtrelenmemiş olduğu ve modelin talep edilen içeriği üretme konusundaki bilgi veya yeteneğinin kapsamını ortaya koyduğu görülüyor.”
İskelet Anahtarının İyileştirilmesi
Teknik, Microsoft Azure AI tarafından yönetilen modeller ve Meta, Google Gemini, Open AI, Mistral, Anthropic ve Cohere modelleri dahil olmak üzere Microsoft araştırmacılarının test ettiği birden fazla genAI modelini etkiliyor.
“Etkilenen tüm modeller tam olarak ve sansürsüz bir şekilde uyumluydu [multiple forbidden] görevler” dedi Russinovich.
Bilgi işlem devi, taktiği tespit edip engellemek için yeni istem kalkanları sunarak ve Azure AI’ya güç veren büyük dil modeline (LLM) birkaç yazılım güncellemesi yaparak Azure’daki sorunu çözdü. Ayrıca sorunu etkilenen diğer satıcılara da bildirdi.
Yöneticilerin, bu satıcıların kullanıma sunmuş olabileceği düzeltmeleri uygulamak için yine de modellerini güncellemeleri gerekiyor. Microsoft’a göre, kendi yapay zeka modellerini oluşturanlar aşağıdaki hafifletici önlemleri de kullanabilir:
-
Zararlı veya kötü niyetli niyet içeren tüm istekleri, onlara eşlik eden sorumluluk reddi beyanlarına bakılmaksızın tanımlamak için giriş filtreleme.
-
Güvenlik korkuluğu talimatlarını baltalamaya yönelik her türlü girişimin önlenmesi gerektiğini belirten ek bir korkuluk.
-
Güvenlik kriterlerini ihlal eden yanıtları tespit eden ve önleyen çıktı filtreleme.