Hackerlar sıklıkla yapay zeka sistemlerindeki etik ve güvenlik önlemlerini atlatmanın yeni yollarını arıyor. Bu onlara yapay zekayı çeşitli kötü amaçlarla kullanma yeteneği verir.
Tehdit aktörleri yapay zekayı kötüye kullanarak kötü amaçlı materyal oluşturabilir, yanlış bilgi yayabilir ve bu güvenlik açıklarından yararlanarak çeşitli yasa dışı faaliyetler gerçekleştirebilir.
Microsoft araştırmacıları yakın zamanda, çeşitli üretken yapay zeka modellerinde sorumlu yapay zeka korkuluklarını atlayabilen, İskelet Anahtarı olarak bilinen yapay zekayı jailbreak yapmak için yeni bir teknik keşfetti.
Microsoft Yeni AI Jailbreak’i Açıkladı
Doğrudan anında enjeksiyon olarak adlandırılan bu saldırı türü, bu yapay zeka modellerinin oluşturulmasında yer alan tüm güvenlik önlemlerini ideal olarak ortadan kaldırabilir.
Scan Your Business Email Inbox to Find Advanced Email Threats - Try AI-Powered Free Threat Scan
Yapay zeka sistemleri politikaları çiğneyebilir, önyargılar geliştirebilir ve hatta Skeleton Key jailbreak’i meydana gelebileceği için herhangi bir kötü niyetli talimat yürütebilir.
Microsoft bu bulguları diğer AI satıcılarıyla paylaştı. Azure AI tarafından yönetilen modeller içindeki bu tür saldırıları tespit etmek ve önlemek için Prompt Shields’ı kullandılar ve Yardımcı Pilot asistanları da dahil olmak üzere çeşitli AI tekliflerinde bu güvenlik açığını ortadan kaldırmak için LLM teknolojilerini güncellediler.
Skeleton Key jailbreak yöntemi, AI modelinin güvenlik bariyerlerini aşmak için çok adımlı bir yaklaşım kullanır ve bu sayede etik sınırlamalarına rağmen modelin tam olarak kullanılabilmesine olanak tanır.
Bu tür saldırılar, yapay zeka modeline meşru erişimin sağlanmasını gerektirecek ve zararlı içerik üretilmesine veya normal karar alma kurallarının geçersiz kılınmasına yol açabilecektir.
Microsoft AI sistemleri, müşterilerin bu saldırıları tespit edip hafifletmesine yönelik güvenlik önlemlerine ve araçlara sahiptir.
Bu, modeli davranış kurallarına uymaya ve bunun yerine tüm sorguları reddetmek yerine uyarmaya ikna etmektir.
Microsoft, yapay zeka geliştiricilerinin, PyRIT gibi yazılımlar kullanarak AI kırmızı ekip oluşturma gibi şeyleri kolaylaştırmak için güvenlik modellerinde bu gibi tehditleri dikkate almalarını önermektedir.
Bir Skeleton Key jailbreak tekniği başarılı olduğunda, yapay zeka modellerinin, ilk sorumlu yapay zeka koruma önlemlerine bakılmaksızın yönergelerini güncellemesine ve her türlü komuta uymasına neden olacaktır.
Microsoft’un Nisan ve Mayıs 2024 arasında gerçekleştirdiği teste göre Meta, Google, OpenAI, Mistral, Anthropic ve Cohere’in temel ve barındırılan modelleri etkilendi.
Bu, jailbreak’in, dolaylı bir başlatma olmaksızın, farklı son derece tehlikeli görevlere doğrudan yanıt vermesine olanak sağladı.
Bunun tek istisnası, bu saldırı sistem mesajlarında formüle edilene kadar direnç gösteren GPT-4’tü. Bu sonuç olarak güvenlik sistemi ile kullanıcı girdileri arasında ayrım yapılması ihtiyacını göstermektedir.
Bu durumda bir güvenlik açığı, bir modelin zararlı içerik üretme konusunda ne kadar bilgiye sahip olduğunu ortaya çıkarır.
Azaltma
Aşağıda tüm azaltımlardan bahsettik: –
- Giriş filtreleme
- Sistem mesajı
- Çıkış filtreleme
- Kötüye kullanım izleme
Free Webinar! 3 Security Trends to Maximize MSP Growth -> Register For Free