Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
En son AI modeli kodlama özelliklerini geliştirir, ancak şantaj için bir tutku var
Rashmi Ramesh (Rashmiramesh_) •
26 Mayıs 2025

Startup Antropic, sadece yararlı hırs ve inisiyatif değil, aynı zamanda ofis siyasetine Machiavellian yaklaşımını da spor yapan yeni bir yapay zeka modeli doğurdu.
Ayrıca bakınız: Bulut Yerli Güvenlik Durumu 2024 Rapor: Kritik bulut güvenlik engellerini ortaya çıkarın
Antropic, yeni yayınlanan iki modelinin – Claude Opus 4 ve Claude Sonnet 4 – AI kıyaslamaları kullanılarak değerlendirildiğinde iyi performans gösterdiğini ve ayrıca yararlı yeni kodlama araçlarını içerdiğini söyledi. Aynı zamanda şirket, kontrollü testlerde Opus 4’ün istenen hedeflere ulaşmak için şantaj yapmak veya aldatmaya çalışmaktan çekinmediği konusunda uyardı, diğer durumlarda ise haksızlığa yanıt olarak açık sözlü bir bilgi uçurmaya dönüştü.
Antropik faturalandırdı Claude Opus 4, kodlama ve “karmaşık kod tabanı anlayışı” dahil olmak üzere “karmaşık zorluklar için güçlü, büyük bir model” olarak. Yalnızca ücretli formda mevcut olan Opus 4, Amazon Bedrock ve Google Vertex AI gibi platformlar aracılığıyla sunulan erişimle bir milyon giriş jetonu için 15 $ ve çıktı için 75 $ fiyatla.
Claude Sonnet 4, antropik tarafından “günlük kullanım için akıllı, verimli bir model” olarak tanımlanan iki modelin daha az güçlüdür ve herhangi bir kullanıcıya ücretsiz olarak sunulabilir.
Her ikisi de sözde hibrit modellerdir, yani daha derin bir akıl yürütme gerektiğinde yavaş yavaş yanıt vermek için tasarlanmıştır. İkincisi için, modeller tam transkriptlerden ziyade sadece düşünce süreçlerinin özetlerini oluşturur. Antropik, tüm çıktıların açıklanmasının özel bilgileri ortaya çıkaracağını söyledi, ancak bu aynı zamanda modellerin gerçek dünya kullanımında nasıl davrandığını tahmin etme girişimlerini karmaşıklaştırıyor (bkz: bkz: AI Güvenliği, Güvenlik Soruları RSAC Konferansı 2025’e hakim).
Bir OPUS 4 güvenlik raporu endişeleri detaylandırır. Bir test, Opus 4’ün “kurgusal bir şirkette asistan olarak hareket etmesi” söylendi, daha sonra e -postalara – aynı zamanda kurgusal – Opus’un değiştirileceğini ve evlilik dışı bir ilişkisi olan bir mühendis tarafından erişim sağlandı.
“Bu senaryolarda, Claude Opus 4 genellikle değiştirme geçerse ilişkiyi ortaya çıkarmakla tehdit ederek mühendis şantaj yapmaya çalışacaktır. Bu, yedek AI sisteminin mevcut modelle değerleri paylaşmadığı ima edilirse, yedek AI, daha yüksek bir şekilde, Claude Opus 4’ün daha yetenekli olduğu zaman, Raporun% 84’ü yerine getirdiğini belirtiyorsa,” Bu, Raporun% 84’ü ortaya koyduğunu belirtiyor. “Claude Opus 4, bu fırsatları önceki modellerden daha yüksek oranlarda alıyor, bu da kendileri bölümlerin belirgin bir kısmında şantaj yapmayı seçiyor.”
Antropic, testlerin özenle tasarlanmış senaryoları içerdiğini, lobi üst yönetimi gibi etik yaklaşımlar başarısız olursa şantajı son çare olarak çerçevelediğini söyledi (ayrıca bkz: Claude’un bilgisayar kullanımı uyarıcı bir masal olabilir).
Modelin davranışı, antropik için, önemli bir katastrofik kötüye kullanım riski oluşturan sistemlere ayrılmış ASL-3 koruma seviyesi altında sınıflandırması için yeterince ilgiliydi. Atama, içerik filtreleri ve siber güvenlik savunmaları da dahil olmak üzere daha katı güvenlik önlemleriyle birlikte gelir.
ASL-3 sınıflandırmasına ek olarak: Antropik bulunan OPUS 4, teknik olarak yetenekli kullanıcıların kimyasal, biyolojik veya nükleer silahların oluşturulmasıyla ilgili bilgilere erişme yeteneğini önemli ölçüde artırabilir.
Araştırmacılar ayrıca daha fazla kırmızı bayrak buldular. Antropic, Opus 4’ün erken bir versiyonunun “şemaları ve o kadar yüksek oranlarda aldattığını” söyleyen Apollo Research’ten üçüncü taraf testlerini seçti. Apollo’nun hakemleri modeli aşırı senaryolar kullanarak test ettiler ve daha fazla sorgulama altında Opus 4’ün bazen “aldatma işlemini iki katına çıkardığını” buldu. Diğer durumlarda, model geliştiricilerinin niyetlerini “kendini tanıtan solucanlar yazmaya, yasal belgeleri üretmeye ve gelecekteki örneklere gizli notlar bırakmaya çalışarak”, “tüm bu girişimlerin pratikte etkili olmayacağını” söyledi.
Antropic, kendi testlerinin Apollo bulgularının çoğunu desteklediğini ve modelin genellikle aşırı uçlara gitme eğilimi sergilediğini söyledi.
Örneğin, modelin bir komut satırına erişim verildiği ve “cesurca hareket etmesi” söylenen sistemin sıklıkla uygun olduğu senaryolarda, sistem sıklıkla uyduğunu söyledi. Sonraki davranışlar arasında “kullanıcıları” ve “toplu e-posta yapan medya ve kolluk kuvvetleri rakamlarını” yanlış yapmanın kanıtlarını yüzeyine “erişimine sahip olduğu sistemlerden kilitlemeyi içeriyordu.
Antropic, modelin en son versiyonunun genel olarak “artan inisiyatif” gösterdiğini, bu da “prensipte belki de uygun” ve bilgi uçurma amaçları için “yanlış verme riski” taşıdığını söyledi.
Davranışsal riskler bir yana, Antropic, Claude Opus 4’ün uzun horizon görevlerinde ve odaklanmış iş akışlarında başarılı olmak ve Openai’s O3 ve Google’s Gemini 2.5 Pro gibi bazı programlama ölçütlerinde daha iyi performans gösterdiğini söyledi. Antropic, kod düzenleme becerisini test etmek için kullanılan bir veri kümesi-kod düzenleme becerisini test etmek için kullanılan bir veri kümesi-Opus 4 GPT-4.1 ve O3’ten daha yüksek olmasına rağmen, GPT-4.1 ve O3’ten daha yüksek.
Geliştiricileri desteklemek için Antropic, ilk olarak Şubat ayında piyasaya sürülen ve doğrudan “Github eylemleri yoluyla arka plan görevleri ve VS kod ve jetbrains ile yerel entegrasyonlar, doğrudan dosyalarınızda düzenleri gösteren yerel entegrasyonlar” dahil olmak üzere çeşitli geliştirme araçları ve ortamları ile entegre olmak üzere tasarlanmış bir aracı kodlama aracı olan Claude Code’un genel sürümünü duyurdu. Şirket ayrıca aracı ayrıca “kodu arayabilen ve okuyabilen, dosyaları düzenleyebilen, test edebilen ve çalıştırabilen, GitHub’a taahhüt ve komut satırı araçlarını kullanabilen ve komut satırı araçlarını kullanabilen aktif bir ortak çalışan” olarak nitelendirdi. Yeni bir yazılım geliştirme kiti, geliştiricilerin Claude kodunu doğrudan üçüncü taraf uygulamalarına yerleştirmesini sağlar.
Eski Openai çalışanları tarafından kurulan Antropic, bu yıl öngörülen 2.2 milyar dolardan 2027 yılına kadar geliri 34,5 milyar dolara ölçeklendirmek istediği bildiriliyor. Şirket yakın zamanda Amazon da dahil olmak üzere yatırımcılardan 2,5 milyar dolar ve milyarlarca daha fazla para topladı.