Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Araştırmacılar, girdi ve çıktı arasında neler olduğunu belirlemeye çalışıyor
Rashmi Ramesh (Rashmiramesh_) •
31 Mart 2025

Yapay bir zeka chatbot’a anlamadığı bir şey sorun ve çoğu zaman elde edeceğiniz son şey cehaletin kabulüdür. AI araştırmacıları, büyük dil modellerinin neden dili nasıl işledikleri ve sorunları çözdükleri ile birlikte kendinden emin olan yalanları halüsinasyon yapmak yerine “bilmiyorum” demediğine dair bir açıklama sunuyorlar.
Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu
Antropik yayınlanmış araştırmalar, Claude işlemi gibi LLM’lerin nasıl girdimi detaylandıran ve bir sorguyu cevaplayıp reddetmeyeceğini belirliyor. Son iki makalede sunulan çalışmalar, modelin karar verme sürecinin altında yatan nöral mekanizmaları ve yanlış bilgi üretme eğilimini açıklamaktadır.
Çalışma, modelin tanıdık ve tanıdık olmayan varlıklarla karşılaştığında etkinleştirilen “özellikler” olarak adlandırılan nöron kümelerini tanımlayan daha önceki araştırmalara dayanmaktadır.
Antropic’in ilk deneyleri, Claude “Michael Jordan” gibi iyi bilinen bir ismi işlediğinde, belirli bir “cevap vermeyin” yanıtı baskılayan belirli nöron gruplarının aktive olduğunu gösterdi. Bu aktivasyon, modelin eğitim verilerinden ilgili bilgileri almasını ve birleştirmesini sağlar. Buna karşılık, model tanıdık olmayan bir isimle karşılaştığında, farklı bir devre bir özür ve cevap verememe ifadesi ile başlayan bir yanıtı tetikler. Her ne kadar olmasa da, bu mekanizma bazen modelin fabrikasyon bilgileri içeren yanıtlar üretmesine de neden olur.
Araştırmacılar, Claude’un makul görünen ancak eğitim verileri tarafından desteklenmeyen halüsinasyonlar veya yanıtlar ürettiği koşulları araştırdılar. Bulguları, model, belirli girdi verilerinde iyi temsil edilmese bile, modelin tanıdık varlıklarla ilişkili özellikleri yanlışlıkla aktive ettiğinde halüsinasyonların meydana gelebileceğini göstermektedir. Bir deneyde, bu bilinen varlık özelliklerinin ağırlıklarının arttırılması, Claude’un kurgusal bir sporcu hakkında güvenle ayrıntılar üretmesine neden oldu. Bu tür sonuçlar, modelin cevaplama ve düşüş arasındaki iç dengesinin çeşitli devrelerinin doğru aktivasyonuna bağlı olduğunu göstermektedir.
Antropik ayrıca Claude’nin bilgileri birden çok dilde nasıl işlediğini inceledi. Model, her dil için ayrı ağlar kullanmak yerine, girişi paylaşılan, soyut bir temsile dönüştürür. Farklı dillerde “küçük” in tersi istendiğinde, Claude, yanıtı için uygun dilsel formu seçmeden önce “küçüklük” ve “karşıtlar” ile ilgili dil bağımsız devreleri kullanır. Bulgu, daha büyük modellerin diller arasında bilgi aktarımına izin veren dil-agnostik temsiller geliştirdiği fikrini desteklemektedir.
Çalışmalar, Claude’nin metin üretimi sırasında iç planlamada bulunduğunu göstermektedir. Bir dizi deneyde, model, tam çizgileri hazırlamadan önce potansiyel kafiye kelimelerini tanımlayarak bir kafiye kaynağı oluşturdu. Coğrafi bir sorgu verildiğinde, Claude önce Dallas’ı Teksas ile ilişkilendirdi ve daha sonra bu bağlantıyı doğru sermaye Austin üretmek için kullandı. Araştırmacılar, modelin temsillerini manipüle ederek bu iç ilişkileri doğruladılar. Bir anahtar terimi diğerine değiştirme, çıktıda karşılık gelen bir değişikliğe yol açtı. Bu akıl yürütme zinciri, modelin son yanıtının basit, doğrusal bir tahmin yerine dahili olarak bağlantılı bir dizi adım izlediğini göstermektedir.
Araştırma ayrıca, modelin kendi bildirdiği akıl yürütme ile gerçek iç operasyonları arasında tutarsızlıklar gösterdi. Karmaşık hesaplamaları içeren görevlerde, Claude bazen yönteminin devre izleme yoluyla gözlemlenen dahili hesaplamalarla eşleşmeyen ayrıntılı bir açıklamasını sağlar. Bir matematik problemini çözerken, model ileri adım adım hesaplamayı izlemek yerine, kullanıcı tarafından desteklenen bir cevaptan geriye doğru çalışarak çıktısını tersine çevirebilir. Bulgu, modelin iç düşünce zincirinin, soruşturma altında kalan bir sorun olan sunduğu açıklamadan ayrılabileceğini göstermektedir.
Antropik’in yaklaşımı sinirbilim tekniklerinden ilham alıyor. Devre izleme ve ilişkilendirme grafikleri gibi yöntemler kullanarak araştırmacılar, sinir ağının hangi bileşenlerinin belirli görevler sırasında etkinleştirildiğini izleyebildiler. Mevcut teknikler, modelin genel hesaplamasının sadece bir kısmını yakalamasına rağmen, LLM’lerin aksi takdirde opak karar verme süreçlerine bir pencere sağlarlar.
Araştırma, Golden Gate Köprüsü gibi somut varlıklardan “küçüklük” gibi soyut fikirlere kadar gerçek dünya kavramlarını nasıl temsil eden bileşenlerin Claude’un çıktılarına katkıda bulunduğunu açıklıyor. Bu bileşenler bir araya geldiğinde, giriş istemini nihai oluşturulan tepkiye bağlayan yolları oluştururlar. Bu yolları deneysel olarak manipüle ederek, Antropic’in ekibi, belirli özelliklerin aktivasyonundaki değişikliklerin doğrudan modelin çıktısındaki varyasyonlara yol açtığını doğruladı.
Araştırmacılar, hem doğru yanıtları hem de halüsinasyonlu çıktıları yöneten nöral devreleri haritalayarak, potansiyel güvenlik sorunlarını belirlemeyi ve güvenilirliği artırmak için stratejiler geliştirmeyi umuyorlar.
Çalışmalar ayrıca AI bilişinin tam olarak anlaşılmasıyla ilgili zorluklara da değiniyor. Araştırmacılar, devre eğitiminin modelin iç etkinliğinin sadece bir kısmını ortaya çıkardığını kabul ettiler. “Onlarca kelime” ile kısa istemleri bile analiz etmek “birkaç saatlik insan çabası” gerektirir ve hesaplama sürecinin çoğu tartışılmamıştır.