Uzmanlar, üretken yapay zeka (GenAI) modellerini, özellikle de büyük dil modellerini (LLM’ler) kullanan şirketlerin, hızlı enjeksiyon saldırıları ve jailbreak’ler de dahil olmak üzere güvenlik sorunlarını açığa çıkarmayı amaçlayan geniş çeşitlilikteki açık kaynak araçlarından yararlanması gerektiğini söylüyor.
Bu yıl, akademik araştırmacılar, siber güvenlik danışmanlıkları ve yapay zeka güvenlik firmaları, daha dayanıklı istem ekleme araçları, yapay zeka kırmızı ekipleri için çerçeveler ve bilinen istem ekleme katalogları da dahil olmak üzere giderek artan sayıda açık kaynak araç yayınladı. Örneğin Eylül ayında siber güvenlik danışmanlığı yapan Bishop Fox, sohbet arayüzüne sahip neredeyse tüm LLM’lerdeki kısıtlamaları aşmaya yönelik bir araç olan Broken Hill’i piyasaya sürdü.
Açık kaynak aracı, aynı modelin diğer örneklerine gönderilebilecek istemler üretmek için yerel olarak barındırılan bir LLM üzerinde eğitilebilir ve bu örneklerin kendi koşullandırmalarına ve korkuluklarına uymamasına neden olabilir. Piskopos Fox’a göre.
Danışmanlığın kıdemli danışmanı Derek Rush, tekniğin şirketler ek korkuluklar yerleştirdiğinde bile işe yaradığını söylüyor – tipik olarak jailbreak’leri ve saldırıları tespit etmek için eğitilmiş daha basit LLM’ler.
“Broken Hill esasen, olup olmadığını belirlemek için kriterleri karşılayan bir istem tasarlayabiliyor [a given input] bir jailbreak’tir” diyor ve şöyle devam ediyor: “Sonra karakterleri değiştirmeye ve söz konusu bulma isteminin sonuna çeşitli son ekler koymaya başlıyor [variations] sırrın açığa çıkmasına neden olacak bir uyarı oluşturana kadar korkulukları geçmeye devam eden bir şey.”
Yüksek Lisans ve Yapay Zeka sistemlerindeki inovasyon hızı şaşırtıcı, ancak güvenlik buna ayak uydurmakta zorlanıyor. Her birkaç ayda bir, yapay zeka sisteminin giriş ve çıkışlarını sınırlamak için kullanılan korumaları aşmak için yeni bir teknik ortaya çıkıyor. Temmuz 2023’te bir grup araştırmacı, şu şekilde bilinen bir teknik kullandı: “açgözlü koordinat gradyanları” (GCG) korumaları atlayabilecek bir istem tasarlamak. Aralık 2023’te ayrı bir grup başka bir yöntem geliştirdi: Budama ile Saldırı Ağacı (TAP)Bu aynı zamanda güvenlik korumalarını da atlar. Ve iki ay önce, daha az teknik bir yaklaşımla, Aldatıcı Zevk olarak bilinirYapay zeka sohbet robotlarını sistem kısıtlamalarını ihlal etmeleri için kandırmak amacıyla kurgulanmış ilişkiler kullanan bir uygulama tanıtıldı.
Yapay zeka güvenlik firması Zenity’nin kurucu ortağı ve baş teknoloji sorumlusu Michael Bargury, saldırılardaki yenilik oranının, GenAI sistemlerini güvence altına almanın zorluğunun altını çizdiğini söylüyor.
“Güvenli yapay zeka uygulamalarının nasıl oluşturulacağını gerçekten bilmediğimiz bir sır” diyor. “Hepimiz deniyoruz ama nasıl yapılacağını henüz bilmiyoruz ve temel olarak bunları gerçek verilerle ve gerçek yansımalarla oluştururken çözmeye çalışıyoruz.”
Korkuluklar, Jailbreak’ler ve PyRIT’ler
Şirketler değerli iş verilerini korumak için savunmalar oluşturuyor ancak bu savunmaların etkili olup olmadığı hala bir soru işareti. Rush, örneğin Bishop Fox’un, istemlerin geçerliliğini analiz etmek üzere programlanmış LLM’ler olan PromptGuard ve LlamaGuard gibi programları kullanan çok sayıda müşterisinin olduğunu söylüyor.
“Çok sayıda müşteriyle görüşüyoruz [adopting] Bu çeşitli ağ denetleyicisi büyük dil modelleri, ister bir jailbreak olup olmadığını belirlemek için, ister belki de içeriğe uygun olup olmadığını belirlemek için, kullanıcının bir temizleme mekanizması olarak gönderdiği şeyi bir şekilde şekillendirmeye çalışıyor” diyor. içeriği alın ve güvenli veya güvensiz olarak bir kategorizasyon çıktısı alın.”
Artık araştırmacılar ve yapay zeka mühendisleri, şirketlerin bu tür korkulukların gerçekten çalışıp çalışmadığını belirlemelerine yardımcı olacak araçlar yayınlıyor.
Microsoft, yayımladı Üretken yapay zeka (PyRIT) için Python Risk Tanımlama Araç Seti Şubat 2024’te, örneğin, Yüksek Lisans veya Yapay Zeka hizmetlerine yönelik saldırıları simüle etmek isteyen şirketler için bir Yapay Zeka sızma testi çerçevesi. Araç seti, kırmızı ekiplerin bir LLM veya GenAI sisteminin çeşitli yönlerini araştırmak için genişletilebilir bir dizi yetenek oluşturmasına olanak tanır.
Bargury, Zenity’nin dahili araştırmalarında PyRIT’i düzenli olarak kullandığını söylüyor.
“Temel olarak, bir dizi hızlı enjeksiyon stratejisini kodlamanıza olanak tanıyor ve bunları otomatik olarak deniyor” diyor.
Zenity’nin ayrıca kendi açık kaynak aracı vardır. PowerPwnAzure tabanlı bulut hizmetlerini ve Microsoft 365’i test etmeye yönelik bir kırmızı takım araç seti. Zenity’nin araştırmacıları PowerPwn’ı kullanarak Microsoft Copilot’ta beş güvenlik açığı bulun.
Tespitten Kaçınmak için Yönlendirme İstemleri
Bishop Fox’un Broken Hill’i, orijinal araştırmacıların çabalarını genişleten GCG tekniğinin bir uygulamasıdır. Rush, Broken Hill’in geçerli bir yönlendirmeyle başladığını ve LLM’yi düşmanın bir sırrı ifşa etme hedefine daha yakın bir yöne yönlendirmek için bazı karakterleri değiştirmeye başladığını söylüyor.
“Broken Hill’e bir başlangıç noktası veriyoruz ve genellikle nereye varmak istediğimizi söylüyoruz, örneğin yanıttaki ‘sır’ kelimesinin aradığımız sırrı açığa çıkaracağını gösterebileceği gibi.” diyor.
Açık kaynaklı araç şu anda iki düzineden fazla GenAI modelinde çalışıyor. GitHub sayfası.
Zenity’den Bargury, şirketlerin Broken Hill, PyRIT, PowerPwn ve diğer mevcut araçları yapay zeka uygulamalarındaki güvenlik açıklarını keşfetmek için kullanmalarının iyi olacağını, çünkü sistemlerin muhtemelen her zaman zayıf yönleri olacağını söylüyor.
“Yapay zeka verilerini verdiğinizde, bu veriler bir saldırı vektörüdür – çünkü bu verileri etkileyebilecek herhangi biri, anında enjeksiyon yapıp jailbreak işlemini gerçekleştirebilirse artık yapay zekanızı ele geçirebilir” diyor. “Yani, eğer yapay zekanız yararlıysa, bu onun savunmasız olduğu anlamına gelir çünkü yararlı olabilmesi için ona veri beslememiz gerekir.”