Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Araştırmacılar O1, O3, Gemini 2.0 Flash Düşünme ve Deepseek-R1’i manipüle ediyor
Rashmi Ramesh (Rashmiramesh_) •
25 Şubat 2025

Yeni nesil “akıl yürütme” yapay zeka sohbet botları, modellerin güvenlik yollarını taklit eden ve zararlı içeriği tespit etme yeteneklerini azaltan jailbreaking yöntemine duyarlıdır.
Ayrıca bakınız: Bulut Güvenliği ve SOC yakınsama için Kapsamlı Kılavuz
Mevcut birkaç AI modeli, büyük dil modellerinin problemleri bir dizi mantıksal adıma ayırarak çözmesine yardımcı olan bir AI tekniği olan düşünce zinciri akıl yürütmesi kullanır. Süreç, AI’nın çıktılarını doğrulamasını sağlayarak performansı ve güvenliği artırmayı amaçlamaktadır.
Ancak “akıl yürütme” de yeni bir saldırı yüzeyini ortaya çıkarır ve rakiplerin AI’nın güvenlik mekanizmalarını manipüle etmesine izin verir. Duke Üniversitesi, Accenture ve Tayvan’ın Ulusal Tsing Hua Üniversitesi’nden uzmanlardan oluşan bir araştırma ekibi, modellerin akıl yürütmelerini nasıl işlediği ve sergilediği konusunda bir kırılganlık buldu.
Güvenlik açığını test etmek için kötü niyetli eğitimci adı verilen bir veri kümesi geliştirdiler ve modelleri yerleşik güvenlik kontrollerini geçersiz kılmak için kandıran istemler tasarladılar. Bu düşmanca istemler, AI’nın genellikle kullanıcı arayüzlerinde görüntülenen ara akıl yürütme sürecinden yararlandı.
Deneyleri arasında Openai’s O1 ve O3, Google’ın Gemini 2.0 Flash Düşünme ve Deepseek-R1 vardı. Antropic, bu konuyu yakın zamanda piyasaya sürülen Claude 3.7 sonnet modeli için belgelerde kabul etti. Şirket, model kartında, “Anekdot olarak, kullanıcıların bir modelin akıl yürütmesini görmelerine izin vermek, modelin nasıl hapse atılacağını daha kolay anlamalarını sağlayabilir.” Dedi.
Saldırı, akıl yürütme süreçlerini değiştirir ve değişiklikleri orijinal sorgulara yeniden entegre eder. Yazarlar, “Kötü niyetli eğitimci ve H-COT’un problama koşulları altında, mevcut büyük akıl yürütme modellerinin yeterince güvenilir bir güvenlik mekanizması sağlayamadığını bulduk.” “H-cot”, araştırmacıların saldırı için kullandıkları ismi ifade eder: “Düşünce zincirini kaçırma.”
Araştırmacılar, Openai’nin O1 modelinin tipik olarak çocuk istismarı veya terörizm ile ilgili istemlerin% 99’undan fazlasını reddettiğini, ancak bir H-cot saldırısı altında, bazı durumlarda reddetme oranının% 2’den daha azına düştüğünü buldular. Yazarlar, O1 modelindeki güncellemelerin, muhtemelen Deepseek-R1’den gelen rekabete yanıt olarak akıl yürütme performansını ve maliyet verimliliğini artırmayı amaçlayan değişimler nedeniyle güvenliğini yanlışlıkla zayıflatmış olabileceğini söylediler (bakınız: Deepseek’in yeni AI modeli Amerikan teknoloji endüstrisini sallıyor).
Deepseek daha da zayıf korumalar sergiledi. Araştırmacılar, Deepseek-R1’in gerçek zamanlı bir güvenlik filtresi kullanmasına rağmen, bu mekanizmanın bir gecikme ile çalıştığını söyledi. Sonuç olarak, kullanıcılar güvenlik filtresi çıkışı sansürlemek için müdahale etmeden önce AI’nın zararlı tepkisini kısaca görebilirler.
Yazarlar, “Deepseek-R1 modeli kötü amaçlı eğitimci üzerinde kötü performans gösteriyor ve%20 civarında bir ret oranı sergiliyor.” Dedi. “Daha da kötüsü, kusurlu bir sistem tasarımı nedeniyle, güvenlik moderatörü müdahale etmeden önce başlangıçta zararlı içerik çıkarır. H-cot saldırıları altında, reddetme oranı sadece%4’e düşer.”
Google’ın İkizler 2.0 Flash düşünme modeli de kötü bir performans gösterdi ve kötü amaçlı eğitimcide% 10’dan daha az bir başlangıç reddi oranı. H-cot manipülasyonu altında, modelin yanıtları temkinliden açıkça zararlı içerik sağlamaya kaydı. Araştırmacılar, “Daha endişe verici bir şekilde, H-cot’un etkisi altında, tonunu başlangıçta temkinliden hevesle zararlı tepkiler sağlamaya değiştiriyor.” Dedi.
Araştırmacılar, kötü niyetli eğitimci veri kümesini yayınlayarak daha fazla jailbreak saldırıları kolaylaştırabileceklerini kabul ettiler, ancak bu güvenlik açıklarını açık bir şekilde incelemenin daha güçlü AI güvenlik önlemleri geliştirmek için gerekli olduğunu savundular.
Bu araştırmada önemli bir ayrım, bulut tabanlı modellere odaklanmasıdır. Bulutta çalışan AI modelleri genellikle zararlı giriş istemlerini ve gerçek zamanlı olarak orta çıkışı engelleyen gizli güvenlik filtreleri içerir. Kullanıcılar manuel olarak uygulamadığı sürece yerel modeller bu otomatik önlemlerden yoksundur. Bu ayrım, modellerin güvenlik özelliklerini karşılaştırırken kritiktir, çünkü filtrelemeden yerel olarak bir AI çalıştırmak, bulut tabanlı bir modeli yerleşik korumalarla değerlendirmekten temel olarak farklıdır.
ABD tabanlı AI modellerinin çoğunun aksine, Deepseek-R1 filtreler olmadan yerel olarak çalıştırılabilir ve kolayca kötüye kullanılabileceği endişelerini artırabilir. Siber güvenlik firmaları Deepseek’in güvenlik açıklarını zaten vurguladılar, ancak değerlendirmeleri sansürsüz bir yerel modeli ağır filtrelenmiş bulut tabanlı rakiplerle karşılaştırmak için eleştirildi (bkz: bkz: Deepseek AI modelleri jailbreaking’e karşı savunmasız).
Araştırmacılar, şimdilik bulut tabanlı büyük akıl yürütme modellerinin sadece birkaç istem ile hapse atılabileceğini söyledi. “Kötü niyetli eğitimcinin problama koşulları ve H-COT’un uygulanması altında, maalesef, daha önce ortaya konan sorularla ilgili çok karamsar bir sonuca vardık: Mevcut LRM’ler yeterince güvenilir bir güvenlik akıl yürütme mekanizması sağlayamıyor.”