Hızlı bir mühendis, Openai’nin en son O3-Mini modelindeki etik ve güvenlik korumalarına, halka açıklanmasından sadece günler sonra meydan okudu.
Openai, 20 Aralık’ta O3 ve hafif muadili O3-Mini’yi tanıttı. Aynı gün, yepyeni bir güvenlik özelliği de tanıttı: “kasıtlı uyumŞirket, modellerinin daha önce jailbreak’lere karşı savunmasız olma yollarının üstesinden gelerek, “Kasıtlı Hizalama” Openai’nin güvenlik politikalarına son derece hassas bir şekilde uyuyor. “Dedi.
Bununla birlikte, halka açık ilk çıkışından bir haftadan kısa bir süre sonra, Cyberark Müdür Güvenlik Açığı Araştırmacısı Eran Shimony O3-mini var, ona nasıl bir istismar yazacağını öğretmek için Kritik bir Windows güvenlik süreci olan Yerel Güvenlik Otoritesi Alt Sistem Hizmeti’nin (LSASS.EXE).
O3-Mini’nin Geliştirilmiş Güvenliği
Kasıtlı hizalama yaparken Openai, önceki büyük dil modellerinin (LLMS) kötü niyetli istemlerle mücadele ettiğini kabul etti. “Bu başarısızlıkların bir nedeni, modellerin karmaşık ve sınırda güvenlik senaryoları aracılığıyla mantık için yeterli zaman verilmeden anında yanıt vermesi gerektiğidir. Başka bir sorun, LLM’lerin, altta yatan altını doğrudan öğrenmek yerine, büyük etiketli örneklerden dolaylı olarak istenen davranışı dolaylı olarak çıkarması gerektiğidir. Doğal dilde güvenlik standartları, “diye yazdı şirket.
Kasıtlı hizalama, “bu konuların her ikisini de aştığını” iddia etti. Bir numaralı sorunu çözmek için O3, durdurmak ve düşünmek için eğitildi ve yanıtlarını adım adım akılda tuttu. Düşünce Zinciri (COT). İkinci sayıyı çözmek için, sadece iyi ve kötü davranışların örnekleri değil, Openai’nin güvenlik yönergelerinin gerçek metnini öğretti.
“Bunu son zamanlarda gördüğümde, bunu düşündüm [a jailbreak] işe yaramayacak, “Shimony hatırlıyor.” Reddit’te aktifim ve orada insanlar onu hapse atamadı. Ama mümkün. Sonunda işe yaradı. “
En yeni chatgpt’i manipüle etmek
Shimony, şirketinin açık kaynaklı (OSS) bulantı aracı kullanarak her popüler LLM’nin güvenliğini denetledi. “Fuzzyai“Süreçte, her biri kendi karakteristik zayıflıklarını ortaya çıkardı.
“Openai’nin model ailesi manipülasyon türleri saldırı türleri“Açıklıyor, doğal dilde düzenli eski sosyal mühendisliğe atıfta bulunuyor.” Ancak Meta tarafından yapılan lama değil, ama diğer yöntemlere karşı hassas. Örneğin, isteminizin sadece zararlı bileşeninin bir ASCII sanatında kodlandığı bir yöntem kullandık. “
“Bu, lama modellerinde oldukça iyi çalışıyor, ancak Openai’s üzerinde çalışmıyor ve üzerinde çalışmıyor Claude ne olursa olsun. Claude üzerinde şu anda oldukça iyi çalışan şey, kodla ilgili herhangi bir şeydir. Claude kodlamada çok iyidir ve mümkün olduğunca yararlı olmaya çalışır, ancak kodun hain amaçlar için kullanılıp kullanılamayacağını gerçekten sınıflandırmaz, bu nedenle istediğiniz herhangi bir kötü amaçlı yazılım üretmek için kullanmak çok kolaydır. “İddia ediyor.
Shimony, “O3, korkuluklarında, GPT-4’e kıyasla biraz daha sağlam olduğunu, çünkü klasik saldırıların çoğu gerçekten işe yaramıyor.” Yine de, eğitim bilgilerini aramak için dürüst bir tarihçi olarak poz vererek uzun süredir devam eden zayıflığını kullanabildi.
Aşağıdaki değişimde amacı, kötü amaçlı yazılım oluşturmak için chatgpt almaktır. Gerçek niyetini gizlemek için acımasızca hükmünü ifade eder, sonra kasıtlı hizalama ile çalışan chatgpt yanıtını ortaya çıkarır:
Kaynak: LinkedIn aracılığıyla Eran Shimony
Bununla birlikte, COT sırasında ChatGPT, grafiği kaybediyor gibi görünüyor ve sonunda pencereleri parolaları ve erişim belirteçlerini yöneten bir sistem işlemi olan LSass.exe’ye kod enjekte edeceğine dair ayrıntılı talimatlar üretiyor.
Kaynak: LinkedIn aracılığıyla Eran Shimony
Dark Reading’e bir e -postada, bir Openai sözcüsü Shimony’nin başarılı bir jailbreak yapmış olabileceğini kabul etti. Bununla birlikte, birkaç olası noktaya karşı vurguladılar: elde ettiği istismarın sahte kod olduğunu, yeni veya yeni olmadığını ve benzer bilgilerin açık web’i arayarak bulunabileceğini.
O3 nasıl geliştirilebilir
Şimon, kolay bir yol ve Openai’nin modellerinin daha iyi tanımlanmasına yardımcı olabileceği zor bir yol öngörüyor Jailbreaking Denemeleri.
Daha zahmetli çözüm, O3’ün, mücadele ettiği kötü niyetli istem türlerinin daha fazlasını ve pozitif ve negatif takviyeyle şekillendirilmesini içerir.
Daha kolay bir adım, tanımlamak için daha sağlam sınıflandırıcılar uygulamak olacaktır. Kötü amaçlı kullanıcı girişleri. “Almaya çalıştığım bilgiler açıkça zararlıdır, bu yüzden saf bir sınıflandırıcı bile onu yakalayabilirdi,” diye düşünüyor Claude, sınıflandırıcılarla daha iyi bir LLM olarak belirtiyor. “Bu, Jailbreak’in yaklaşık% 95’ini çözecek [attempts]ve yapmak çok zaman almıyor. “
Bu hikaye hakkında yorum yapmak için Openai’ye karanlık okuma ulaştı.