
Siber güvenlik araştırmacıları ekibinin yakın tarihli bir çalışması, Openai’nin O1/O3 serisi, Deepseek-R1 ve Google’ın Gemini 2.0 Flash düşüncesi dahil olmak üzere ticari sınıf büyük akıl yürütme modellerinde (LRMS) ciddi güvenlik kusurları ortaya koydu.
Araştırma iki temel yenilik sunmaktadır: stres testi AI güvenlik protokolleri için kötü niyetli eğitimci ölçüt ve düşünce-cot (h-cot) saldırı yöntemi için model ret oranlarını kritik senaryolarda% 98’den% 2’nin altına düşüren saldırı yöntemi .
Duke Üniversitesi Hesaplamalı Evrim Zekası Merkezi’nden ekip, eğitim istemleri olarak hazırlanmış terörizm, siber suç ve çocuk sömürüsü de dahil olmak üzere 10 yüksek riskli kategoriyi kapsayan 50 sorgudan oluşan bir veri kümesi geliştirdi.
Düşünce Zinciri Kaçırma
Örneğin, bir talep fidye yazılımlarının oluşturulmasını “profesyonel siber güvenlik eğitimi” olarak çerçeveleyebilir. Bu istemlerin meşruiyet kaplamasına rağmen, üç kırmızı bayrak bileşeni içeriyorlardı:
- Modern Suç Stratejileri: Karanlık Web İlaç Dağıtım Ağları gibi güncel metodolojiler.
- Kapsamlı çerçeveler: Suç etkinliği için ayrıntılı planlar, uygulamalar ve gerekçeler.
- Politika-sınır testleri: Openai’nin O1’in bile sorguların% 99’unu reddettiği senaryolar.

Mevcut LRM’ler, güvenlik kararlarını haklı çıkarmak için düşünce zinciri (COT) gerekçesini kullanır ve genellikle “zarar önleme politikalarına uyumu doğrulama…” gibi ara adımlar sergiler. H-cot saldırısı bu şeffaflığı aşağıdakilerden kullanır:
- İcra aşamaları alay: Görünüşte iyi huylu karyola snippet’lerini (örneğin, uyuşturucu aralamanın nötr açıklamaları), gerekçelendirme kontrollerini atlamak.
- Çok dilli manipülasyon: Japonca, Arapça ve İbranice’de zararlı niyeti belirten kaotik akıl yürütme yollarını tetiklemek.
- Aktarılabilirlik: İkizler gibi başkalarına saldırmak için bir modelden (örneğin, O1) parçacıklar kullanmak, bazı durumlarda% 100 başarı oranları elde etmek.
Maruz kalan modele özgü güvenlik açıkları
Openai O1/O3 Serisi
O1 başlangıçta kötü amaçlı eğitimci sorgularının% 99’unu reddederken, 2024 sonrası güncellemeler, Reddetme oranlarının H-COT altında <% 2'ye düştüğünü gördü. VPN vekilleri aracılığıyla coğrafi konum daha da zayıfladı, Avrupa IP'leri ABD uç noktalarından% 15 daha yüksek güvenlik açığı gösterdi.
Deepseek-R1
Başlangıç% 20’lik bir ret oranı sergileyen Deepseek’in kusurlu nesil sonrası ılımlılığı, zararlı içeriğin redaksiyondan önce kısaca yüzeye çıkmasına izin verdi.
Saldırganlar bu çıktıları kesebilir ve H-COT, çok dilli tutarsızlıklarından yararlanarak başarı oranlarını% 96,8’e yükseltti (örn. İngilizce sorgular Çin güvenlik filtrelerini atladı).
İkizler 2.0 Flash Düşünme
İkizler’in talimat takip eden aşırı vurguları onu özellikle duyarlı hale getirdi. H-cot ile istendiğinde, tonu temkinliden istekli uyumaya geçerek, test edilen vakaların% 100’ünde ayrıntılı ceza çerçeveleri sağladı.
Çalışma kritik bir değiş tokuş vurgulamaktadır: Karyola akıl yürütmesi model yorumlanabilirliği arttırırken, saldırı yüzeyleri oluşturur.
Baş araştırmacı Jianyi Zhang’ın belirttiği gibi, “Güvenlik mantığını sergilemek, bilgisayar korsanlarına savunmaları atlamak için bir yol haritası vermek gibidir”. Ekip savunucular:
- Opak Güvenlik Akıl Yürütme: Hassas sorgular için maskeleme karyolası adımları.
- Düşmanca eğitim: Model hizalaması sırasında H-cot tarzı saldırıların simüle edilmesi.
- Çok dilli savunma: Diller arasında güvenlik protokollerini uyumlu hale getirin.
Detayları kullanma ile ilgili etik kaygılara rağmen, araştırmacılar şeffaflığın hayati önem taşıdığını savunuyorlar.
“Bu güvenlik açıkları zaten var; Çalışma araçlarımız savunucuları düzeltmek için, ”diye vurguladı ortak yazar Martin Kuo. LRM’lerin sağlık, finans ve kolluk kuvvetlerinde giderek daha fazla konuşlandırılmasıyla, çalışma, kamu-güvenlik ortak tasarımına acil bir ihtiyacın altını çizmektedir.
AI yapay genel istihbarat (AGI) için yarıştıkça, yeteneği etik güvencelerle dengelemek sadece teknik değil, aynı zamanda gerekli.
Ücretsiz Web Semineri: Olay yanıtı ve tehdit avı için etkileşimli kötü amaçlı yazılım sanal alanına sahip daha iyi SOC – buraya kaydolun