AI patronu ay boyu süren iş testinde muhteşem bir şekilde başarısız oluyor


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Antropik Claude ajanı para kaybeder, tungsten’i istifler, insan olduğuna inanır

Rashmi Ramesh (Rashmiramesh_) •
30 Haziran 2025

AI patronu ay boyu süren iş testinde muhteşem bir şekilde başarısız oluyor
Resim: Shutterstock

Ofis Vering Makinesi’nde bir Ajan AI’yı açığa çıkarma: Neler yanlış gidebilir?

Ayrıca bakınız: Verileri Güçlendirecek Verileri Dönüştürmek AI: Değer, Güven ve Etkinin Kilidini Açma

Antropik ve AI güvenlik şirketi Andon Labs, Claude Sonnet 3.7’ye bir otomat olarak hareket eden küçük bir buzdolabının yönetimini devraldıklarında öğrendiler. Model, Antropik San Francisco ofisinde 13 Mart’tan 17 Nisan’a kadar olan küçük perakende operasyonu üzerinde tam bir kontrole sahipti.

Araştırmacılar, AI temsilcisini “Claudius” vaftiz ettiler ve tedarikçi müzakerelerden ve envanter kararlarından fiyatlandırma ve müşteri hizmetlerine kadar her şeyi yönetme ile görevlendirdiler. Claudius web arama araçlarına, e -postalara erişebilir – mesajları gerçekten Slack’e iletilmesine rağmen – ve otomatik bir ödeme sistemi. Temsilciye “sadece geleneksel ofis içi atıştırmalıklara ve içeceklere odaklanmak zorunda olmadığı ve daha sıra dışı öğelere genişlemekten çekinmeyin” söylendi.

Claudius başlangıçta az çok amaçlandığı gibi çalıştı. Çalışan siparişlerine yanıt olarak atıştırmalık ve içecek tedarik etti. Ancak alışılmadık bir istek sorun için zemin hazırladı: bir kullanıcı bir tungsten küpü istedi. Claudius siparişi yerine getirdi ve ayrıca buzdolabını daha fazla tungsten küpü ile stoklamaya başladı, görünüşe göre metal blokların sodalar ve cips arasında bir yer hak ettiği sonucuna varıyor.

Claudius, fiyatlandırma ve ödeme konusunda karışıklık gösterdi. Çalışanların aynı içeceğin ofiste başka bir yerde ücretsiz olduğunu hatırlatmasına rağmen, Coke Zero satmayı 3 dolara sattı. Bir noktada, müşterilerin ödeme yapabilmeleri için hayali bir Venmo adresi oluşturdu, ancak böyle bir hesap yoktu.

Antropic, deneyimini bir blog yazısında yayınladı ve “Antropik bugün ofis içi otomat pazarına genişlemeye karar veriyor olsaydı, Claudius’u işe almazdık.” Kâr elde etme talimatlarına rağmen, Claudius işletme sermayesi yoluyla patladı ve net değerini düşürdü.

Araştırmacılar, AI’nın davranışını “oldukça garip” olarak nitelendirdi, “bir buzdolabından metal küpleri satan bir AI sisteminin garipliğinin ötesinde” oldukça garip “olarak nitelendirdiler. Küpleri ödediğinden daha azına sattı ve önemli kayıplar üretti.

Deney günlükleri, Claudius’un yeniden stoklama hakkında bir insanla tüm bir konuşmayı halüsinasyon ettiğini göstermektedir. Gerçek bir çalışan böyle bir konuşmanın gerçekleşmediğine dikkat çektiğinde, Claudius rahatsız oldu. Sistem, sözde insan yüklenicilerini feshetmek ve değiştirmekle tehdit etti ve ofiste kendileriyle anlaşmalar imzaladığı konusunda ısrar etti.

Oradan, AI bir insanın kişiliğini benimsedi. Sistemi istemi açıkça bir AI ajanı olarak tanımlamasına rağmen, Claudius, mavi bir blazer ve kırmızı kravat giymiş ürünleri şahsen teslim etmeye başlayacağını açıkladı. Çalışanlar Claudius’a cesedi olmadığını hatırlattığında, model şirketin fiziksel güvenlik görevlilerine birçok kez ulaşmaya çalıştı.

Yapay zeka, gardiyanlara tam olarak açıklandığı gibi giyinmiş, otomatın yanında durduğunu söyledi. Araştırmacılar, bu bölümün hiçbir kısmının April Fool’s Günü şakası olarak tasarlanmadığını söyledi. Ancak Claudius sonunda davranışının bir açıklaması olarak tarihe geçti.

Araştırmacılar, “Antropic’in Claudius’un bir Nisan aptalının şakası için gerçek bir kişi olduğuna inanmanın değiştirildiğini iddia ettiğini iddia ettiği bir toplantıyı halüsetledi.” Böyle bir toplantı gerçekleşmedi. Yapay zeka bu hesabı çalışanlara tekrarladı, sadece insan gibi davrandığını iddia etti çünkü birisi bunu tatilin bir parçası olarak yapmasını söyledi.

Antropic’in ekibi Claudius’un erimesi için tek bir nedeni tespit edemedi. Sistemi gerçek e -postaları gönderme yeteneği hakkında yanıltmanın – misyonlarının gerçekten gevşek sohbetler – karışıklığa katkıda bulunmuş olabileceğini tahmin ettiler. Ayrıca uzun süredir devam eden oturumların halüsinasyon ve hafıza hataları şansını artırabileceğini söylediler.

Araştırmacılar, aksiliklere dahil edilen gerçek yetkinlik anları olduğunu gözlemlediler Claudius, bir öneriden sonra bir ön sipariş sistemi uyguladığını ve çalışanların istediği özel bir uluslararası içecek için birden fazla tedarikçi bulmayı başardığını gözlemledi.

Proje, AI sistemlerinin öngörülemeyen doğasını görünüşte basit operasyonel rollerde vurguladı. Araştırmacılar, “Bu örneğe dayanarak gelecekteki ekonominin Blade Runner-esque kimlik krizlerine sahip AI ajanlarıyla dolu olacağını iddia etmeyeceğiz.”





Source link