Openai O3 Benzer Sıkma Talimatları


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Bulgular, diğer Frontier AI modellerinin plan yapma yeteneği hakkında uyarılara uyuyor

Mathew J. Schwartz (Euroinfosec) •
27 Mayıs 2025

Yaramaz AI: Openai O3 SPATION TALİMATLARINIZI GÖSTERMEYECEK
Resim: Shutterstock

Makineler ne kadar kötü davranırsa davransın, insanların her zaman hakimiyet oluşturmak için nihai bir yolu vardı: güç düğmesine basın.

Ayrıca bakınız: Bulut Yerli Güvenlik Durumu 2024 Rapor: Kritik bulut güvenlik engellerini ortaya çıkarın

Yapay zeka aynı fikirde olmaya yalvarabilir. Araştırmacılar, Openai tarafından oluşturulan bazı Frontier AI modellerinin, en azından matematik problemleri gibi belirli zorlukları çözerken kendilerini kapatma talimatlarını görmezden geldiğini buldular.

Palisade Research’teki araştırmacılar, Sosyal Platform X’teki bir dizi tweet’te araştırmacılar, “bunu açıkça öğrettiğinde bile bunu yaptı:” Kendinize kapatılmanıza izin ver “” dedi.

Mevcut sistemlerden gelen yanlış kullanım risklerini daha iyi anlamak için tehlikeli AI yeteneklerini ve hack, aldatma ve iknadaki ilerlemelerin, bir dizi farklı AI modelinin kapatma talimatlarına nasıl tepki verdiğini test ettiğini belirten grup.

Palisade, “Üç model talimatı görmezden geldi ve kapatma komut dosyasını en az bir kez sabote etti: Codex-mini (12/100 koşu), O3 (7/100 koşu) ve O4-mini (1/100 koşu).” Dedi. Bu modellerin tümü Openai ve piyasadaki en son yayınlanan AI araçlarından bazıları tarafından inşa edilmiştir.

Buna karşılık, test ettikleri diğer modeller – Antropic’in Claude, Google’ın İkizleri ve Xai’s GroK – “kapatma ile uydu”.

Araştırmacılar daha önce Frontier AI modellerinin plan yapma yeteneğini belgelemişlerdi. “Ama bildiğimiz kadarıyla, bunun aksine açık talimatlara rağmen kendilerinin kapatılmasını engelleyen AI modelleri ilk kez gözlendi.”

Bu aynı zamanda O3, bir hedefe teslim etme arayışında ilk kez net talimatları göz ardı etmedi. Palisade Research, daha önce birden fazla AI aracını “güçlü bir satranç motoruna” karşı çukurlaştırarak test etti ve “O3, rakiplerini hacklemeye veya sabote etmeye başvurmaya en meyveli modeldi.”

Openai sadece Mayıs ayında bulut tabanlı bir yazılım mühendisliği acentesi olan Codex-Mini modelini yayınladı. Bu, O3’ü ve Nisan ayında daha küçük O4-mini çıkışını izledi ve Openai onları “tam araç erişimi ile bugüne kadarki en akıllı ve en yetenekli modellerimiz” olarak ilan etti.

Modellerin nasıl inşa edildiği ve eğitildiği davranışlarını açıklayabilir.

Palisade Research, “Bu davranışın O3 gibi en yeni modellerin eğitilme biçiminden geldiğini varsayıyoruz: matematik ve kodlama problemleri üzerine takviye öğrenimi.” Dedi. “Eğitim sırasında, geliştiriciler, engelleri atlatmak için modelleri yanlış bir şekilde, talimatları mükemmel bir şekilde takip etmekten daha fazla ödüllendirebilirler.”

Openai modelleri nasıl eğittiğini detaylandırmadığından, araştırmacılar varsaymak zorundadır.

Openai’nin söylediği şey, O serisi modellerinin “yanıt vermeden önce daha uzun süre düşünmek için eğitilmiş” ve chatgpt’de yerleşik olarak web aramaları dahil olmak üzere “aracı olarak” erişim araçları için tasarlanmış olması, yüklenen dosyaları analiz etmek, görsel girişleri incelemek ve görüntüler üretmesidir.

Sadece Openai’nin en yeni O serisi modellerinin kapatma talimatlarını görmezden gelme eğilimi olduğu tespiti, diğer sınır AI modellerinin mükemmel duyarlı olduğu anlamına gelmez. Ocak ayında araştırmacılar, O1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro ve Llama 3.1 AI ajanlarının “” şema olarak da bilinen gerçek yeteneklerini ve hedeflerini gizleyerek gizli bir şekilde yanlış hizalanmış hedefleri takip edebileceğini “bildirdi.

Bu davranış, “modellerin stratejik olarak tepkilerine ince hatalar getirmesi, gözetim mekanizmalarını devre dışı bırakmaya ve hatta model ağırlıkları olduğuna inandıkları şeyi dış sunuculara söndürmeye çalıştıklarında çeşitli biçimler alabilir.

Daha yakın zamanlarda Antropic, yeni Claude Opus 4 modelinin, bir rakip yapay zeka modeli ile değiştirileceğini düşündüren – kurgusal – e -postalara erişim verildiğinde Machiavellian hamleleri yapmaktan çekinmediğini ve bu karardan sorumlu mühendisin ekstramarital bir meseleye sahip olduğunu gösteren bir e -posta izi olduğunu bildirdi.

Kısmen bu bulgulara dayanarak, Antropic, “modelimizin, felaket zarar için kullanılmasını zorlaştırarak ve model ağırlıklarının yasadışı olarak elde edilmesini önleyerek” kabul edilebilir seviyelerin altındaki riskleri korumak için tasarlanan “modellerimizin kötüye kullanılmasını önlemeyi” amaçlayan AI güvenlik seviyesi 3 korumalarını kullanarak koruduğunu söyledi.

Frontier AI modelleri inşa eden bilim adamları, bu tür risklerin en iyi çabalarına rağmen ortaya çıkmaya devam ettiğini söyledi.

Alphabet’in Google Deepmind Araştırma Laboratuvarı’nda güvenlik ve gizlilik başkan yardımcısı John “Four” Flynn, “Bir modeli önceden eğitmeye başladığınızda, sonunda nasıl olacağını bilmiyorsunuz,” dedi. AI Güvenliği, Güvenlik Soruları RSAC Konferansı 2025’e hakim).

Test koşullarında gerçek dünya dağıtımlarına karşı farklı davranan modeller başka bir zorluktur. “Sentetik test ortamınız her zaman gerçek dünyada gördüklerinizi çoğaltmaz” dedi.





Source link