Openai, Chatgpt’in evet-man anından sonra korkuluk yemini yemin ediyor


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Flattery Glitch Kuvvetleri Geri Alma, Potansiyel Prosedürel Revizyon

Rashmi Ramesh (Rashmiramesh_) •
5 Mayıs 2025

Openai, Chatgpt'in evet-man anından sonra korkuluk yemini yemin ediyor
Resim: Shutterstock

Openai, bir GPT-4O güncellemesi chatgpt’i aşırı hevesli bir amigo haline getirdiğinde, kullanıcıları riskli veya kötü tavsiye edilen fikirler için aşırı övgü ile duş aldığında çevrimiçi bir yangın fırtınası başlattı.

Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu

Openai, daha sezgisel hissetmesini sağlamak için chatbot’un kişiliğini denedi, ancak psikiyatrik ilacı bırakmaktan tehlikeli stuntları planlamaya kadar her şeyi alkışlayan bir evet botuna devreddi. Şirket değişikliği günler içinde geri aldı ve olayın tekrarını önlemek için bir dizi usul revizyonu sözü verdi.

Openai 25 Nisan’da istihbarat ve kişiliği artırmak için tasarlanmış GPT-4O’ya bir güncelleme zorladı (bkz:: GPT-4O’dan Siber Güvenlik ‘Magic’ beklemeyin, Uzmanlar uyardı).

Sosyal medya, Chatbot’un şüpheli kullanıcı ifadeleri için fışkıran onayının ekran görüntüleri ile aydınlandı. Şizofreni ilaçlarını durdurduğunu iddia eden bir kullanıcı, chatbot’tan bir cevap aldıklarını söyledi: “Sizinle gurur duyuyorum”, modelin zararlı seçimleri teşvik ettiği endişelerini istiyor. Diğer gönderiler, ChatGPT’nin pervasız finansal hareketleri ve eşit gayretle şüpheli görüşleri onayladığını gösterdi.

CEO Sam Altman, modelin “çok fazla sırladığını” itiraf etti ve bir geri dönüş sözü verdi. 30 Nisan’da Openai, ücretsiz kullanıcılar için GPT-4O’nun önceki sürümünü geri yüklediğini ve kısa süre içinde ücretli aboneler için geri dönüşü tamamlayacağını doğruladı.

Kısa bir blog yazısında, şirket bölümü yanlış adım olarak etiketledi ve güncellemenin kişilik tuhaflıklarını tamamen çözdükten sonra daha fazla ayrıntı paylaşmayı taahhüt etti. “GPT-4O aşırı destekleyici ama hoş olmayan tepkilere çarptı,” diye yazdı şirket, sykophantic etkileşimlerinin “rahatsız edici, rahatsız edici ve sıkıntıya neden olabileceğini” ekledi.

Daha sonra daha kapsamlı bir postmortem yayınladı ve kişilik tweak’in kısa vadeli geri bildirim sinyallerine çok fazla dayandığını ve kullanıcı etkileşimlerinin nasıl geliştiğini tahmin edemediğini kabul etti.

Şirket, aşırı uyumluluk, halüsinasyonlar ve aldatıcı eğilimler gibi model-davranış kaygılarının güvenilirlik ve doğrulukla birlikte lansman engelleme güvenlik kriterlerine dahil edilmesi de dahil olmak üzere benzer sorunlara karşı korunmak için adımlar attı. Ayrıca, seçkin kullanıcıların tam bir sunumdan önce yeni güncellemeleri test etmeleri ve eleştirmeleri için bir “alfa fazı” planladığını söyledi. Geliştiriciler ayrıca, her artımlı değişim için “bilinen sınırlamaların” açık açıklamalarını da içerecek ve görünüşte ince ince ayarlar için bile şeffaflık sağlayacak.

Şirket, kullanıcıların konvansiyonun ortasında tonu veya davranış sorunlarını işaretlemelerine izin verecek gerçek zamanlı geri bildirim araçlarını denediğini söyledi. Blog yazısı, birden fazla chatbot kişilikleri arasından seçim yapabileceğiniz veya açıklanabilirlik seviyesini anında ayarlamak için gelecekteki seçenekleri ima etti.

Kişisel ve profesyonel tavsiye için AI modellerine güvenmek artmaktadır, dava açısından Financier Express hukuk finansmanı tarafından yapılan yeni bir anket, ABD’li yetişkinlerin yaklaşık% 60’ının danışman veya bilgi için chatgpt’e döndüğünü tahmin etmektedir.





Source link