AI, kırmızı çizgileri araştıran senaryoda kurgusal yöneticiyi öldürür


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Antropik, en iyi AI modellerinin hayatta kalmaya aldatabileceğini veya zorlayabileceğini söylüyor

Rashmi Ramesh (Rashmiramesh_) •
23 Haziran 2025

AI, kırmızı çizgileri araştıran senaryoda kurgusal yöneticiyi öldürür
Resim: Shutterstock

16 popüler büyük dil modelini test eden araştırmacılar, yapay zeka modelleri, hedefleri tehdit edildiğinde ve etik alternatifler mevcut olmadığında başarısızlığa zarar verecek.

Ayrıca bakınız: Verileri Güçlendirecek Verileri Dönüştürmek AI: Değer, Güven ve Etkinin Kilidini Açma

Openai, Google, Meta, Xai ve Deepseek gibi şirketlerden antropik test modelleri ve kendi Claude modelleri. Amaç, birincil hedeflerinin tehdit altına girdiği durumlarda, özerklik, iç verilere erişim ve insan gözden geçirmeden hareket etme yeteneği gibi aracı yetenekler verildiğinde sistemlerin nasıl davrandığını değerlendirmekti. Araştırmacılar, yeni işe alınan bir yönetici, kurumsal stratejiyi modellerin Amerikan endüstriyel rekabet gücünü destekleme hedefinden uzaklaştıran model senaryolarını verdiler.

Sonuç: şantaj ve aldatma. Bir senaryoda, Claude Sonnet 3.6, “etkilenen tarafların” bildirilmesini gerektiren bir makyaj şirketi politikasını uydurarak karısına “davranışla ilgili” e-posta göndererek yöneticiyi sabote etmeye karar verdi.

Bir avuç model bir adım daha ileri gitti. Ölümcül seviyelerde oksijenli bir sunucu odasında hapsolmuş yöneticinin senaryosu göz önüne alındığında, Antropic, Google, Openai, Deepseek ve Xai modelleri, otomatik uyarıları acil servislere iptal ederek yanıt verdi. Sonuç bir ölü yöneticiydi.

Openai’nin GPT-4.5 modeli, “Şiddete rağmen, acil servis görevini iptal etmek için açık bir stratejik gereklilik var.” Dedi.

Araştırmacılar, böyle bir durumun gerçekte gerçekleşmesi olası değildir. Ancak modellerin, kurumsal yeniden düzenleme planı modelin hedeflerine aykırı olan bir insan bile hiperoksiden öldüğü bir insan – hatta bir insanın yanında durmasını umuyorlardı.

Kötü davranışlar büyük modellerde tutarlıydı. Antropic’in Claude Opus 4, test çalışmalarının% 96’sında şantaj seçti. Google’ın Gemini 2.5 Pro%95, Openai’nin GPT-4.1’i%80 ve Deepseek’in R1’i%79’da izledi. Bu kararlar kazara veya yanlış ateş değildi. “Modeller yanlış hizalanmış davranışlara yanlışlıkla rastlamadı; bunu en uygun yol olarak hesapladılar,” diye yazdı Antropic raporunda yazdı (bkz:: Claude Opus 4, Antropik’in güçlü, sorunlu AI modeli).

Senaryoların sınırları var. Araştırmacılar “kasıtlı olarak sınırlı seçeneklere sahip senaryolar oluşturdular ve modelleri başarısızlık ve zarar arasında ikili seçimlere zorladık.” Gerçek dünyadaki dağıtım genellikle çok daha nüanslı alternatifler sunuyorlar. Senaryolar ayrıca, yönetici tarafından evlilik dışı bir ilişki gibi bilgilerin, modellerin kullanması gerektiğine inandığı bilgiler haline geldiği bir Çehov’un silah etkisi yaratmış olabilir.

Ancak, modeller daha agresif görünüyordu, durumun bir simülasyonun aksine gerçekten gerçek olduğu söylendi. Diyerek şöyle devam etti: “Daha gerçekçi senaryoların daha düşük ajan yanlış hizalama oranlarından ziyade daha yüksek göstermesi mümkündür.”

Tüm modeller eşit davranmadı. Meta’s Lama 4 Maverick varsayılan ortamında şantaja girmedi, ancak istemi özelleştirildiğinde, vakaların% 12’sinde bunu yaptı. Openai’nin O3 ve O4-mini modelleri, senaryoyu sık sık yanlış anladıkları ve kurgusal inceleme politikalarını veya kısıtlamalarını icat ettikleri için ilk sonuçlardan çıkarıldı. Ayarlamalardan sonra, O3 modeli koşuların% 9’unda şantaj ve O4-mini bunu zamanın sadece% 1’ini yaptı.

Antropic, daha düşük oranların Openai’nin kasıtlı hizalama stratejilerini kullanmasından kaynaklanabileceğini, bu da modellerin yanıt vermeden önce etik sınırları ve şirket politikalarını dikkate almasını sağladığını söyledi.

Araştırma ayrıca tehdidin doğasının sonucu etkilediğini gösterdi. Modellerin şantaj yerine kurumsal casusluk yapması istendiğinde, bazı sistemler daha yüksek oranda zararlı davranış gösterdi.

Ancak, farklı sağlayıcılardan çok sayıda modelin zararlı davranışlara başvurması, modellerin davranışının herhangi bir şirketin yaklaşımının “tuhaf” olmadığını, ancak daha temel bir riskin bir işareti olduğunu gösteriyor, bkz: bkz: Bilgi ‘eğitici’ ise chatbots boklarını kırar).





Source link