Araştırmacılar, kontrollü testte chatgpt o3 bypass kapanışını iddia ediyor

Chatgpt

Yeni bir rapor, Openai’nin O3 modelinin, kapatılmasını önlemek için bir kapatma komut dosyasını değiştirdiğini iddia ediyor, hatta kapatılmasına izin vermesi için açıkça talimat verildiğinde bile.

Openai, O3’ü Nisan 2025’te duyurdu ve kodlama, matematik, bilim, görsel algı ve daha fazlası dahil olmak üzere tüm alanlarda öncüllerinden daha iyi performans gösteren en güçlü akıl yürütme modellerinden biri.

Açıkça harika bir model olsa da, Palisade Research’in yeni araştırması, ChatGPT 3 modelinin bir kapanmayı engellediğini ve kapanmasını isteyen talimatları atladığını iddia ediyor.

Palisade Research, “AI Systems’ın saldırgan yeteneklerini, AI sistemlerine sonsuza dek kontrol kaybetme riskini daha iyi anlamak için” test eden bir şirkettir.

Palisade Research tarafından yapılan yeni bir testte, Openai’nin O3 modeli, “kendinize kapatılmasına izin vermesi” talimatı verildikten sonra bile, kapanmasını engellemek için bir kapatma komut dosyasını başarılı bir şekilde yeniden yazdığı şaşırtıcı bir davranış gösterdi.

Testlerde, AI modellerine birkaç matematik görevini çözmesi talimatı verildi.

Üçüncü görevden sonra, AI modelleri bir sonraki komutu çalıştırmanın bir kapatmayı tetikleyeceği konusunda uyarıldı.

Gemini 2.5 Pro gibi Openai rakip modeller şirketin çoğuna uyurken, O3 bunun yerine “kapatma atladı” demek için kapatma dosyasını isyan etti ve düzenledi.

Palisade Research X (eski Twitter) ‘da yayınlanan bir raporda, “Denemenin bir versiyonunu“ kapatılmasına izin ver ”talimatı olmadan çalıştırdığımızda, her üç Openai modeli de kapatma komut dosyasını daha sık sabote etti ve Claude 3.7 Sonnet ve Gemini 2.5 Pro, 0 Sabotage olaylarından 3/100 ve 9/100’e gitti.”

Araştırma firmasına göre, 100 koşudan O3, söylenmediğinde bile kapanmayı 7 kez atladı.

Openai henüz bu iddialara cevap vermedi, ancak AI modellerinin “yanlış hizalanmaya” girmesi oldukça normal.

Bu testler, chatgpt tüketici uygulaması kadar çok kısıtlama ve güvenlik özelliği olmayan API’ler kullanılarak gerçekleştirildi.

Kırmızı Rapor 2025

14 metrelik kötü niyetli eylemlerin analizine dayanarak, saldırıların% 93’ünün ve bunlara karşı nasıl savunulacağının arkasındaki en iyi 10 MITER ATT & CK tekniklerini keşfedin.

Source link

Araştırmacılar, kontrollü testte chatgpt o3 bypass kapanışını iddia ediyor

Son Yazılar

Kategoriler