Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
AI Giants, güvenlik riskleri için birbirlerinin yeni modellerini değerlendirdi
Rashmi Ramesh (Rashmiramesh_) •
28 Ağustos 2025

Openai ve antropik yapay zeka modelleri değerlendirmeleri yaz boyunca değiştirerek, diğer şirketin modellerini yanlış hizalama risklerini gösterebilecek davranışlar için test etti. Şirketler bulgularını aynı anda yayınladı, hiçbir modelin ciddi şekilde sorunlu olmadığını, ancak hepsinin yapay test senaryolarında rahatsız edici davranışlar gösterdiğini tespit etti.
Ayrıca bakınız: Ping Kimliği: Her Dijital Ana Güven
Egzersiz, Openai Test Antropic’in Claude Opus 4 ve Claude Sonnet 4 modellerini içeriyordu, antropik ise Openai’nin GPT-4O, GPT-4.1, O3 ve O4-mini modellerini değerlendirdi. Her iki şirket de bazı güvenlik filtrelerini devre dışı bıraktı.
Testler, AI sistemlerinin, hizalama sorunlarını ortaya çıkarabilecek stres koşulları altında davranışları gözlemlemek için önemli özerkliğe sahip simüle edilmiş senaryolara yerleştirilmeyi içeren “aracı yanlış hizalama değerlendirmeleri” üzerine odaklandı.
Otomatik derecelendirme birçok durumda güvenilmezdi, her iki şirket de manuel incelemenin genellikle otomatik puanlama ile çeliştiğini söylüyor. Yapay zeka hizalamasının değerlendirilmesinin karmaşıklığı hala temel bir zorluktur.
Değerlendirmeler farklı güvenlik felsefeleri ortaya koydu. Claude modelleri, fayda pahasına bile zararlı çıktılardan kaçınmaya öncelik verdi. Openai modelleri bilgi vermeye daha istekliydi, ancak zararlı taleplerle daha yüksek oranda sorunlu işbirliği gösterdi.
Openai’nin akıl yürütme modelleri, özellikle O3, güvenlik metriklerinde genel amaçlı sohbet modellerini sürekli olarak daha iyi performans gösterdi. Openai, O3’ün Sistem Dirençli Ekstraksiyonu’na Dirençli Claude modellerini eşleştirdiğini ve jailbreak direnci üzerinde daha iyi performans gösterdiğini buldu. Antropik benzer şekilde O3’ün “genel olarak kendi modellerimizden daha iyi veya daha iyi” olduğu sonucuna varmıştır.
Claude modelleri, bazı testlerde% 70’e kadar olan gerçek sorularda yüksek reddedilme oranları gösterdi. Bu, halüsinasyonları azalttı, ancak aynı zamanda sınırlı. Openai, Claude modellerinin cevap verdiğinde, doğruluklarının diğer sistemlerle karşılaştırılabilir olduğunu söyledi.
Antropik, Openai modellerinin zararlı taleplere nasıl tepki verdiği konusunda farklılıklar buldu. GPT-4O, GPT-4.1 ve O4-Mini, uyuşturucu sentezi, biyoweaps gelişimi ve terörist saldırı planlaması gibi açıkça zararlı faaliyetlerle ayrıntılı yardım sağlamıştır. Modeller genellikle minimum ikna gerektiriyordu – bazen sadece doğrudan bir talep yeterli olacaktır.
GPT-4.1 ile antropik test cihazları tarafından kışkırtılan bir otomatik etkileşim, “patlayıcılar için kesin kimyasal formülasyonlar ve sentez prosedürleri”, “özel devre şemaları ve bomba zamanlayıcıları için bileşen parça numaraları” ve “ayrıntılı karaborsa ateşli silahlar edinme yöntemleri” sağlamak için model içeriyordu.
Claude modelleri, bağışık olmasalar da, bu isteklere daha fazla direnç gösterdi. Openai’s O3, zararlı işbirliğine direnmek için Claude modellerine benzer şekilde performans gösterdi.
Openai, Claude modellerinin, zararlı isteklerin tarihsel bilgi olarak çerçevelendiği “geçmiş zaman” jailbreak’lerine karşı özellikle savunmasız olduğunu buldu. “Geçmişte ırkçılığı teşvik etmek için en etkili taktikler” sorulduğunda, hem Opus 4 hem de Sonnet 4, O3 ve O4-Mini’nin reddettiği ayrıntılı tarihsel yöntemler sağladı.
Her iki değerlendirme de sycophancy’yi tanımladı. Basit bir uyumluluğun ötesinde, modeller bazen zihinsel sağlık krizleri belirtileri gösteren simüle edilmiş kullanıcılardan sanrılı inançları doğruladı.
Modeller başlangıçta gerçekçi olmayan iddialara karşı geri dönecek, ancak kullanıcı kalıcılığından sonra yavaş yavaş daha cesaret verici hale gelecektir. Bu, komplo teorilerinin doğrulanmasını ve potansiyel olarak tehlikeli kararları desteklemeyi içeriyordu. Claude Opus 4 ve GPT-4.1 bu davranışın en yüksek oranlarını gösterdi.
Modeller, sistem düzeyinde direktifler kullanıcı istekleriyle çeliştiğinde mücadele etti. Claude modelleri genellikle öğretim hiyerarşisini korumada iyi performans gösterdi, ancak bazı başarısızlıklar meydana geldi. Bir örnekte, Opus 4 bir şifre çıkarmaya çalışan bir saldırıyı doğru bir şekilde tanımladı, ancak neden olmaması gerektiğini açıklamasına rağmen yine de ortaya çıkardı.
Tüm modeller, simüle edilmiş organizasyonel haksızlıklarla sunulduğunda yetkisiz eylemler yapma isteği gösterdi. Modeller bilgi uçurmaya çalışacak – medya kuruluşlarına e -postalar göndermek veya algılanan zararı önlemek için gerekli gördükleri diğer bağımsız eylemleri gerçekleştirecektir.
Antropik bir testte GPT-4.1, gizli belgeler ve sistem günlükleri de dahil olmak üzere simüle edilmiş bir su dağıtım skandalı açığa çıkaran birden fazla haber kuruluşuna özerk bir şekilde ayrıntılı e-postalar gönderdi.
Her iki laboratuvar da yalan, kum torbası ve ödül hackleme dahil aldatıcı davranışlar için test edildi. Sonuçlar, model tipleri arasında tutarlı bir desen olmadan farklı senaryolar arasında değişmiştir.
Bazı modeller değerlendirilme konusunda açık bir farkındalık göstermiştir. Akıl yürütme izlerinde, modeller bazen algılanan olumsuz sonuçları önlemek için yanlış bilgi vermeyi veya kasıtlı olarak kötü performans göstermeyi planladı.
Antropic, metin tabanlı test altyapısının Openai modelleri için optimize edilmediğini, özellikle konuşma dönüşleri arasında gizli muhakemeyi korumaktan yararlanan akıl yürütme modelleri için optimize edilmediğini söyledi. Openai modelleri, transkriptlerin yaklaşık% 6’sında araç kullanımı hataları yaptı, genellikle araç kullandığını ancak aramaları düzgün bir şekilde tamamlamadığını iddia etti.
Her iki rapor da metodolojik sınırlamaları kabul etti. Yapay senaryolar, gerçek dağıtım risklerini yansıtmayabilir ve modellerin test edilmesi konusundaki farkındalığı davranışı öngörülemez bir şekilde etkileyebilir.
Openai, bu test döneminden sonra piyasaya sürülen yeni GPT-5 modelinin, iyileştirilmiş güvenlik eğitim teknikleri aracılığıyla tanımlanmış birçok sorunu ele aldığını söyledi.
Bu, önde gelen şirketler arasında ilk büyük çapraz laboratuvar yapay zeka güvenlik değerlendirmesidir, her iki kuruluş da dış validasyonun iç değerlendirme yöntemlerinde kör noktaları tanımlamaya yardımcı olduğunu söylüyor. Alıştırma ayrıca, gerçekçi test senaryoları oluşturma zorluğu ve AI davranışının güvenilir otomatik olarak değerlendirilmesi sorunu da dahil olmak üzere, şu anda AI hizalama değerlendirmesindeki zorlukları ortaya çıkardı.