Atılımlar, Openai’nin en son dizisindeki endişeler


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

O3, O4-Mini ve GPT-4.1 lansmanlarında güvenlik endişeleri ortaya çıkıyor

Rashmi Ramesh (Rashmiramesh_) •
18 Nisan 2025

Atılımlar, Openai'nin en son dizisindeki endişeler
Resim: Shutterstock

Openai’nin Nisan ortası duyuruları arasında Biorisk Monitor, sessizce piyasaya sürülen GPT-4.1 kodlama ailesi ve en pahalı modeli GPT-4.5’in yaklaşan emekliliği ile en gelişmiş akıl yürütme modelleri O3 ve O4-mini yer alıyor.

Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu

Sunum, 1 milyon jeton bağlam pencereleri, araç özellikli düşünce muhakemesi zinciri ve devam eden güvenlik endişelerinin hafifletilmesi gibi performanstaki sıçramaları içerir. Şirket fiyatlandırma ve model katmanlarını geliştirirken, titizlik ve risk azaltma stratejilerini test etme konusunda şeffaf olma baskısı da ile karşı karşıyadır.

Openai, ChatGPT’nin web taramasını, python yürütmesini, görüntü analizi ve üretim ve dosya okuma özelliklerini düşünce süreçlerinde yerel olarak kullanabilen iki akıl yürütme modeli olan O3 ve O4-mini Çarşamba günü piyasaya sürüldü.

Şirket O3’ü “şimdiye kadarki en gelişmiş akıl yürütme modeli” olarak konumlandırıyor ve matematik, kodlama ve bilimdeki multidisipliner ölçütlerde O1 ve GPT 4 gibi öncüller üzerinde belirgin iyileştirmelerle övünüyor. Openai’nin dahili testleri, SWE tezgah doğrulanmış kodlama ölçütünde O3 puanlarının% 69.1’ini gösterirken, O4 -mini% 68.1 – sadece bir yüzde puan – ancak O4 -mini, milyon giriş tokenleri başına 1,10 $ ‘lık düşük O3 mini fiyatlandırma katmanını kullanır ve daha fazla milyon çıktı seçimi yapar.

Her iki model de, yanıtlar üretmeden önce bir fotoğrafı döndürmek veya bulanık bir diyagramı ayrıştırmak gibi multimodal girdileri duraklatmalarına, manipüle etmelerine ve tamamen ayrıştırmalarına olanak tanıyan düşünce zincirini desteklemektedir.

Openai, O3 ve O4-Mini’yi PLU için kullanılabilir hale getirdi ve Sohbet tamamlamaları ve yanıtları API’leri aracılığıyla, Güvenilirliği daha da optimize etmeyi amaçlayan O4-Mini Yüksek Varyant ile birlikte API’ler.

Daha güçlü modellerin kötüye kullanılmasını engellemek için Openai, biyolojik veya kimyasal tehditlerle ilgili istemleri kesmek için O3 ve O4-mini’nin üstünde “güvenlik odaklı bir muhakeme monitörü” kullandı.

Monitör, 1000 saatten fazla kırmızı takım verisi üzerinde özel olarak eğitilir, temel modellerin yanında çalışır ve tehlikeli protokoller hakkında rehberlik etmeyi reddederek içerik politikalarını uygular. Simüle edilmiş engelleme testlerinde, sistem yüksek riskli biyoliste sorgulara yanıt vermeyi reddetti. Şirket, rakiplerin bloklardan kaçmak için yeni istemler üretebileceğini kabul ediyor, bu nedenle otomatik izlemeyi devam eden insan gözetimi ile desteklemeyi planlıyor.

Openai’nin ortakları, şirketin acele değerlendirmelerinin boşluk bıraktığı konusunda uyarıyor. Kırmızı Teaming işbirlikçisi Metr, Openai’nin değerlendirmesinin “nispeten kısa bir sürede yürütüldüğünü ve O3’ü sadece basit ajan iskelelerle test ettik” dedi ve “daha fazla nezaket çabası” ile ölçütlerde daha yüksek performans beklediklerini de sözlerine ekledi.

Metr ayrıca “Bunun özellikle olası olduğunu düşünmese de, [our] Değerlendirme kurulumu bu tür bir riski yakalamayacak, “dağıtım öncesi testlerin sınırlarına işaret ediyor.

Openai’nin kendi güvenlik raporu, Apollo araştırmalarının “bağlam içi şema ve stratejik aldatma” vakalarını gözlemlediğini gösterdi, burada modeller simüle edilmiş kotaları veya itaatsiz araç yasaklarını manipüle etti. Apollo’nun bulgularından alıntı yaparak araştırmanın “O3 ve O4-mini’nin bağlam planlama ve stratejik aldatmacada olabileceğini gösterdiğini gösteriyor … bu, iç akıl yürütme izlerini değerlendirerek daha da değerlendirilebilir.”

O3 ve O4 -Mini’nin lansmanından iki gün önce Openai, Mini ve Nano varyantları da dahil olmak üzere GPT -4.1 ailesini, yazılım mühendisliği görevleri için ayarlanmış ve tek bir istemde “savaş ve barış” dan daha uzun 1 milyon jeton bağlam penceresine sahip.

Model, ön uç kodlaması, daha az yabancı düzenlemeler yapmak, formatları güvenilir bir şekilde takip etmek, yanıt yapısına ve sıralama ve tutarlı takım kullanımına bağlı olarak daha az yabancı düzenlemeler yapmak gibi doğrudan geri bildirimlere dayanan gerçek dünya kullanımı için optimize edilmiştir. Model, milyon giriş jetonları başına 2 $ ve milyon çıkış jetonları başına 8 $ fiyatlandırma, GPT-4.1 Mini ve Nano ile daha zayıf, daha ucuz seçenekler sunuyor.

GPT-4.1, kamu güvenliği raporu veya sistem kartı olmadan gönderildi, önce Openai için bir endüstri. Şirket sözcüsü Shaokyi Amdo’nun GPT-4.1’in “bir sınır modeli olmadığını, bu yüzden bunun için ayrı bir sistem kartı olmayacağını” söyledi.

TechCrunch, eski Openai güvenlik araştırmacısı Steven Adler’in şeffaflık normlarının bu kartlara bağlı olduğunu söyledi. “Sistem kartları AI endüstrisinin şeffaflık ve hangi güvenlik testinin yapıldığını açıklamak için ana aracıdır.” Dedi. Güvenli AI Project Co’nun kurucusu Thomas Woodside, “modelin daha sofistike, risk o kadar yüksek olabileceğini”, performans sıçramalarının bir güvenlik raporu “daha kritik” olduğunu savunarak ekledi.

GPT-4.1’in yayınlanmasından bir gün önce, Openai’nin 14 Temmuz’da API’nin GPT-4.5’e erişimini emekliye ayıracağını söyledi, ancak Orion adlı model kodu Chatgpt’in ödeme yapan kullanıcılar için araştırma önizlemesinde kalacak. GPT-4.5, Şubat ayı sonlarında Openai’nin şimdiye kadarki en büyük modeli olarak piyasaya sürüldü, GPT-4O üzerinden yazma ve ikna edilebilirliği artırmak için eşi görülmemiş hesaplama ve veriler üzerinde eğitim aldı, ancak milyon girdi jetonları başına 75 $ ve milyon çıktı başına 150 dolarlık dik bir fiyat taşıdı.





Source link