AI devleri, modellerin iç monologunda şeffaflık için zorlanıyor


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Uzmanlar, AI modellerinin nasıl akıl yürüttüğünü ve neden önemli olduğunu araştırmayı hedefliyor

Rashmi Ramesh (Rashmiramesh_) •
16 Temmuz 2025

AI devleri, modellerin iç monologunda şeffaflık için zorlanıyor
Openai, Google Deepmind ve Antropic ve diğerleri AI araştırmacıları, düşünce zinciri izlemeye daha derin bir çalışma yapmaya çağırdı. (Resim: Shutterstock)

Yapay bir zeka modeli, iddia ettiği şeyi kendi düşünceleri olduğunu anlattığından, nihayet ne düşündüğünü bildiğimize inanmak caziptir. Ancak AI kurumsal devlerinden, bu modelleri makine akıl yürütmesine bu bakış açısının geçici olabileceğini ve gerçek şeffaflık olarak etiketlemeden önce çok daha fazla anlaşılması gerektiğine dikkat çeken araştırmacılar.

Ayrıca bakınız: Ondemand Web Semineri | Cortex XSIAM3.0: #1 AI güdümlü SECOPS platformu

Openai, Google Deepmind ve Antropik’ten bir bilim adamları koalisyonu, modern AI akıl yürütme modellerini destekleyen düşünce zincirlerini veya karyolalarını izlemek için sistematik bir soruşturma çağrısında bulundu. Bu modeller, bir insanın bir sorunu çözmek için nasıl not verebileceğine benzer şekilde, karmaşık görevleri adım adım parçalayarak ele almak için tasarlanan Openai’nin O3 ve Deepseek’in R1’ini içerir.

Makalelerindeki araştırmacılar, AI ajanlarının nasıl karar verdiklerine dair alışılmadık bir pencere sunan Frontier AI için COT izlemesini Frontier AI için ek bir güvenlik önlemi olarak tanımladılar. Ayrıca, bu süreçlere olan mevcut görünürlük seviyesinin zamanla azalabileceği konusunda uyardı. Yazarlar araştırma topluluğunu ve yapay zeka geliştiricilerini varken “COT izlenebilirliği” kullanmaya ve modellerin ilerledikçe nasıl korunabileceğini incelemeye teşvik ettiler.

Düşünce zincirleri, AI ajanları inşa eden şirketlerin hırslarının giderek ayrılmaz bir şekilde entegre olan akıl yürütme modellerinin merkezi bir özelliği haline gelmiştir. Bir modelin cevap üretmek için kullandığı ara adımları ortaya çıkararak, COT izleme, bir modelin güvenli bir şekilde akıl yürütüp akılda kalıcı olup olmadığını veya istenmeyen davranışlara sürüklenip sürüklenmediğini değerlendirmek için potansiyel bir araç sunar. Ancak bu şeffaflığı neyin sağlam kıldığını ve neyin zayıflatabileceğini belirsiz, araştırmacılar dedi (bkz:: AI’nın nasıl düşündüğüne ‘bir göz atın – ve neden halüsinasyon).

Makale, geliştiricilerden, müdahaleler, mimari değişiklikler veya optimizasyon tekniklerinin şeffaflığı veya güvenilirliği azaltıp azaltamayacağı da dahil olmak üzere, hangi faktörlerin BYG izlenebilirliğini etkilediğini keşfetmelerini istedi. Yazarlar, COT izlemenin kırılgan olabileceği ve bir modelin akıl yürütme sürecinin netliğini bozabilecek değişikliklere karşı tavsiye edilebileceği konusunda uyardı.

Eylem çağrısını onaylayanlar arasında Openai Baş Araştırma Görevlisi Mark Chen, Güvenli Superintelligence CEO’su Ilya Sutskever, Nobel Laureate Geoffrey Hinton, Google DeepMind kurucu ortağı Shane Legg, Xai güvenlik danışmanı Dan Hendrycks ve Thinking Machines kurucu John Schulman da vardı. İlk yazarlar arasında Amazon, Meta ve UC Berkeley’e bağlı araştırmacılardan ek imzalar içeren İngiltere AI Güvenlik Enstitüsü ve Apollo Research’ten katkıda bulunanlar yer alıyor.

Pozisyon belgesi, önde gelen laboratuvarların daha yetenekli AI ajanları veya görevler arasında özerk bir şekilde planlayabilecek, akıl yürütebilecek ve hareket edebilecek modeller inşa etmek için birbirlerini aşmak için yarıştığı bir zamanda gelir. Eylül ayında Openai, ilk AI akıl yürütme modeli O1 önizledi. Sonraki aylarda, Google, DeepMind, Xai ve Antropic, çeşitli kriterlerde benzer veya üstün performans gösteren rakipleri tanıttı.

Ancak makale yazarları, performanstaki hızlı gelişmelerin bu sistemlerin sonuçlarına nasıl ulaştığına dair daha derin bir anlayışa dönüşmediğini söyledi.

Antropik özellikle yorumlanabilirlik araştırmalarına büyük yatırım yaptı. Bu yılın başlarında CEO Dario Amodei, önümüzdeki birkaç yıl içinde AI modellerinin kara kutusunu açma taahhüdünü açıkladı ve şirketin finansmanı ve araştırmayı yorumlanabilirliği genişleteceğini söyledi. Ayrıca Openai ve Google DeepMind’i aynı alandaki çabalarını artırmaya çağırdı.

Antropikten gelen daha önceki bulgular, COTS’in her zaman modellerin cevaplarına nasıl ulaştıklarına dair tamamen güvenilir bir yansıma olmayabileceğini düşündürmektedir. Pozisyon makalesi, düşünce zincirlerinin yöntemleri veya dış faktörleri istemekten etkilenebileceğini ve potansiyel olarak şeffaflık konusunda yanıltıcı bir izlenim yaratabileceğini söylüyor. Openai araştırmacıları, daha fazla çalışma ile COT izlemenin nihayetinde uyum ve güvenliği izlemek için pratik bir yol olabileceğini söyledi (bkz:: AI Kaçırıldı: Yeni Jailbreak Sinemset Şefi Zinciri).

Şu anda sektörde AI akıl yürütme modellerini ilerletebilecek araştırmacıları işe almak için şiddetli bir rekabet var. Meta’nın, Antropic, Openai ve Google Deepmind’den yetenekleri cezbetmek için milyon dolarlık aralığındaki tazminat paketleri sunduğu bildiriliyor. En çok aranan araştırmacıların çoğu, makalenin daha şeffaf hale getirmeyi amaçladığı sistemlerde uzmanlaşmış olanlardır.

Makaleyi imzalayan şirketler için riskler yüksek. AI ajanları daha yetenekli hale geldikçe, tahmin edilebilir ve güvenli bir şekilde davrandıklarını gösterme baskısı muhtemelen yoğunlaşacaktır ve akıl yürütmelerini izlemek için net yöntemler olmadan, güvenlik hakkındaki güvenceler sadece boş kelimeler olarak kalabilir.

Yazarlar, yayınlarını farkındalığı artırma ve COT izleme üzerine araştırmalara daha fazla dikkat etme çabası olarak tanımladılar. Makalenin amacının, konuyu işaret etmek ve alanı öncelik vermeye teşvik etmek, daha fazla çalışmanın gerekli olduğunu kabul etmek olduğunu yazdılar.





Source link