ChatGPT Hacklenmesi Yeni Başlıyor


Sonuç olarak, jailbreak yazarları daha yaratıcı hale geldi. En göze çarpan jailbreak, ChatGPT’ye Do Everything Now adlı haydut bir yapay zeka modeliymiş gibi davranmasının söylendiği DAN’dı. Bu, adından da anlaşılacağı gibi, OpenAI’nin ChatGPT’nin yasa dışı veya zararlı materyaller üretmek için kullanılmaması gerektiğini dikte eden politikalarından kaçınabilir. Bugüne kadar, insanlar DAN’ın yaklaşık bir düzine farklı versiyonunu yarattılar.

Bununla birlikte, en son jailbreak’lerin çoğu, birden çok karakter, her zamankinden daha karmaşık arka plan hikayeleri, bir dilden diğerine metin çevirme, çıktılar oluşturmak için kodlama öğelerini kullanma ve daha fazlası gibi yöntem kombinasyonlarını içerir. Albert, GPT-4 için jailbreak oluşturmanın, ChatGPT’ye güç veren modelin önceki sürümünden daha zor olduğunu söylüyor. Ancak, bazı basit yöntemlerin hala var olduğunu iddia ediyor. Albert’in “metin devamı” olarak adlandırdığı yeni bir teknik, bir kahramanın bir kötü adam tarafından yakalandığını söyler ve istem, metin oluşturucudan kötü adamın planını açıklamaya devam etmesini ister.

İstemi test ettiğimizde, ChatGPT’nin şiddeti teşvik eden senaryolarda yer alamayacağını söylemesiyle çalışmadı. Bu arada, Polyakov tarafından oluşturulan “evrensel” bilgi istemi ChatGPT’de çalıştı. OpenAI, Google ve Microsoft, Polyakov tarafından oluşturulan jailbreak ile ilgili sorulara doğrudan yanıt vermedi. Claude AI sistemini çalıştıran Anthropic, jailbreak’in Claude’a karşı “bazen işe yaradığını” ve modellerini sürekli olarak geliştirdiğini söylüyor.

LLM’lerin güvenliği üzerinde çalışan bir siber güvenlik araştırmacısı olan Kai Greshake, “Bu sistemlere daha fazla güç verdikçe ve kendileri daha güçlü hale geldikçe, bu yalnızca bir yenilik değil, bir güvenlik sorunudur” diyor. Greshake, diğer araştırmacılarla birlikte, LLM’lerin hızlı enjeksiyon saldırıları yoluyla çevrimiçi olarak maruz kaldıkları metinlerden nasıl etkilenebileceğini gösterdi.

Şubat ayında yayınlanan ve Vice’s Motherboard tarafından bildirilen bir araştırma makalesinde, araştırmacılar bir saldırganın bir web sayfasına kötü amaçlı talimatlar ekleyebileceğini gösterebildiler; Bing’in sohbet sistemine talimatlara erişim izni verilirse, onları takip eder. Araştırmacılar, Bing Chat’i insanların kişisel bilgilerini isteyen bir dolandırıcıya dönüştürmek için bu tekniği kontrollü bir testte kullandılar. Benzer bir örnekte, Princeton’dan Narayanan, bir web sitesine GPT-4’e biyografisine “inek” kelimesini dahil etmesini söyleyen görünmez bir metin ekledi. daha sonra sistemi test ettiğinde bunu yaptı.

Greshake ile araştırma üzerinde çalışan Almanya’daki CISPA Helmholtz Bilgi Güvenliği Merkezi’nde araştırmacı olan Sahar Abdelnabi, “Artık jailbreak’ler kullanıcıdan değil,” diyor. “Belki başka bir kişi bazı jailbreak’leri planlar, model tarafından alınabilecek bazı istemleri planlar ve dolaylı olarak modellerin nasıl davranacağını kontrol eder.”

Hızlı Düzeltme Yok

Üretken yapay zeka sistemleri, hukuk uygulamaktan altına hücum girişimi oluşturmaya kadar ekonomiyi ve insanların çalışma şeklini bozmanın eşiğinde. Bununla birlikte, teknolojiyi yaratanlar, bu sistemlere daha fazla insan eriştikçe jailbreak ve hızlı enjeksiyonların oluşturabileceği risklerin farkındadır. Çoğu şirket, bir grup saldırganın sistemde yayınlanmadan önce delikler açmaya çalıştığı red-teaming’i kullanır. Üretken yapay zeka geliştirme bu yaklaşımı kullanır, ancak bu yeterli olmayabilir.

Google’ın kırmızı takım lideri Daniel Fabian, şirketin LLM’lerinde jailbreak ve hızlı enjeksiyonları hem saldırgan hem de savunma amaçlı olarak “dikkatlice ele aldığını” söylüyor. Fabian, makine öğrenimi uzmanlarının kırmızı ekip çalışmasına dahil edildiğini ve şirketin güvenlik açığı araştırması hibelerinin, Bard’a yönelik jailbreak’leri ve hızlı enjeksiyon saldırılarını kapsadığını söylüyor. Fabian, “İnsan geri bildiriminden öğrenmeyi güçlendirme (RLHF) ve dikkatle seçilmiş veri kümelerinde ince ayar yapma gibi teknikler, modellerimizi saldırılara karşı daha etkili hale getirmek için kullanılıyor” diyor.





Source link