AI akıl yürütmesinin başarısız olan ölçeklendirme stratejisi


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Yeni mimariler, daha akıllı ölçütler daha da gelişmeli

Rashmi Ramesh (Rashmiramesh_) •
12 Ağustos 2025

AI akıl yürütmesinin başarısız olan ölçeklendirme stratejisi
Resim:

Yapay zekada “daha büyük” dönemi, en azından nasıl akıl yürütüleceğini öğretmek söz konusu olduğunda, sınırlarına yaklaşıyor olabilir. Büyük dil modelleri sözleşmeleri hazırlayabilir, politikaları özetleyebilir ve kodlama sınavlarını geçebilir, ancak noktaları, seçenekleri tartmanız veya çıktıları bağlama bağlamaları istendiğinde performans düz çizgiler.

Ayrıca bakınız: Ping Kimliği: Her Dijital Ana Güven

Araştırma Grubu Epoch AI’nın son analizi, muhakeme kriterlerinde performansın, hesaplama ve model boyutları büyürse bile, erken plato belirtileri gösterdiğini buldu.

Santa Clara Üniversitesi iş analizi doçenti Ram Bala, modellerin kullanıcı bağlamını ve niyetini yakalamak için mücadele ettiğini söyledi. “İyi akıl yürütme, kimin sorduğu ve neden olduğu konusunda farkındalık gerektirir, ancak modeller genellikle bir kullanıcının hedeflerine uyum sağlamadan cümleleri özetlemek gibi genel çıktılar için varsayılan olarak varsayılan olarak.” Dedi. BALA, AI’nın iş uygulamalarını inceler ve AI merkezli işletmenin yazarıdır: kuruluşları bağlamın farkında AI ile yeniden şekillendirme.

Düzleştirme eğrisi yapısal bir konudur. Bir görüntünün etiketlenmesi veya bir sonraki belirteci ölçeğini daha fazla veri ve parametre ile sorunsuz bir şekilde tahmin etmek gibi algılama görevleri, ancak akıl yürütme değildir.

Bala, “Ölçeklendirme parametreleri akıcılığı artırıyor, ancak akıl yürütme için gereken yapılandırılmış çıkarım ve değiş tokuş değerlendirmesini artırmıyor.” Dedi. Algı görevleri istatistiksel olarak yoğun ve yereldir, ancak akıl yürütme küresel ve hedefe bağlıdır, burada tek bir bağlam hatası tüm çıktıyı rayından çıkarabilir.

FTI Consulting’de Kıdemli Genel Müdür ve AI Uygulama Lideri Sumeet Gupta, akıl yürütme için ölçeklendirme profilinin farklı göründüğünü, çünkü damıtma, insan geri bildirimlerinden takviye öğrenimi ve her biri kendi darboğazıyla denetlenen ince ayar gibi birden fazla tekniği birleştirdiğini söyledi.

“Ölçeklendirme yasaları nihayetinde herhangi bir hesaplama mimarisini ve tekniğini yakalayacak ve bu akıl yürütme performansı için farklı olmayacak” dedi. “İlgili tekniklerin karışımı, eğriyi LLM eğitiminden daha az tahmin edilebilir hale getirir, ancak yavaşlama gerçektir.”

Mimari sınırlar sorunu

Bugünün LLM’lerinin çoğu, istatistiksel örüntü tanımada mükemmel olan, ancak planlama ve hafızada sınırlı olan transformatör mimarileri üzerine inşa edilmiştir. Bala, “Transformatörler, karmaşık akıl yürütmeyi engelleyen sabit bağlam dikkat ve yinelemeli planlama döngülerinden yoksun.” Dedi.

Bu sınırlar, çıkarım sırasında dış bilgileri ortaya çıkarabilen veya çok aşamalı etkileşimler arasındaki bağlamı koruyabilen bellek artışlı ve geri alma tabanlı sistemlere olan ilgiye yol açmıştır. Ancak değerleri uygulamaya bağlıdır.

Gupta, “Herhangi bir mimarinin doğal sınırları var.” Dedi. “Bellek taban performansisinin kendisini iyileştirmez, ancak daha uzun bir zaman oturumunda AI ajan bağlamının korunmasına yardımcı olur. Benzer şekilde, [retrieval-augmented generation] Harici verilere erişim, belirli uygulamaların iş performansını artırır, ancak temel model akıl yürütme performansını mutlaka iyileştirmez. “

Modelin ara basamaklarda “yüksek sesle düşünmeye” yönlendirildiği düşünce zinciri gibi teknikler umut vaat etti. Ancak “daha iyi algı ve bağlam uyumu olmadan, daha uzun akıl yürütme izleri genellikle ayrıntılı ancak alakasız hale gelir” dedi. “Kolay kazanımların çoğu gerçekleşti.”

Sırada ne var?

Brute-Force ölçeği sınırlarına ulaştıkça, araştırmacılar yeni mimarilere, hibrid modellere ve daha yapılandırılmış yaklaşımlara yöneliyor. Bala, bir nöral modelin algıyı ele aldığı sembolik melezlerin ve sembolik bir motorun mantığı işlediği, umut verici bir yön olduğunu söyledi. Algı, akıl yürütme ve öğrenmeyi modülerleştiren ajan sistemleri de daha fazla kontrol ve yorumlanabilirlik sunabilir.

Bala, “Modelleri algıdan karar vermeye geçmeyi öğreten müfredat öğrenimi, geri bildirimle birleştiğinde de umut vaat ediyor.” Dedi.

Gupta hem artımlı arıtma hem de uzun vadeli mimari değişimlerde ilerleme için yer görüyor. “Temel bir mimari inovasyon en temel performans kazancını sağlayacak.” Mevcut sistemler, sembolik yapay zeka ile birleşerek veya yasal, finans veya matematik gibi özel alanlar için eğitilerek daha etkili olabilir.

“Özellikle yüksek derecede yanıt sadakati, uyumluluk bağlılığı, alana özgü karmaşık problem çözme ve/veya düşük gecikme performansı gerektiren özel kullanım durumları için daha küçük ve özel modeller kullanılacaktır.” Dedi.

Genel amaçlı modeller, özellikle yapılandırılmamış verilerdeki algı için hala bir yere sahiptir, ancak yüksek hassasiyetli akıl yürütme görevleri, etki alanı anlayışı için amaca yönelik sistemlere giderek daha fazla düşebilir.

Akıl yürütme ilerlemesinin durgunluğu, ilerlemenin nasıl ölçülmesi gerektiği konusunda tartışmalara yol açmıştır. Parametre sayımı veya jeton verimi gibi geleneksel metrikler, bir modelin belirli roller içinde akıl yürütme yeteneği hakkında çok az şey ortaya koymaktadır.

Bala, çıktıları bağlamda test eden yeni kriter türleri için çağrıda bulundu. “Benchmarks, aynı senaryoda yasal rollere karşı tedarik için farklı çıktılar oluşturmak gibi gerekçeleri bağlamda test etmelidir.” Dedi. Yetkili, subgoal ayrışması, çok kaynaklı girdi ve gerçek zamanlı geri bildirim gerektiren görevlerin, basit hızlı tamamlanmadan daha fazla akıl yürütme ile uyumlu olduğunu da sözlerine ekledi.

Gupta, genel amaçlı akıl yürütme için Hellaswag, BBH veya ARC-AGI ve kodlama için humaneval gibi alan ile ilgili birkaç kriterde zaten kullanımda olduğunu söyledi. Yetkili, gerçek hayattaki akıl yürütme görevlerinin tamamlanmasını simüle eden kriterlerin, model geliştirmeyi izlemek için en iyisi olduğunu söyledi.

Kırılma

Akıl yürütme modeli performansı 100 kat daha fazla hesaplama ile bile platoya devam ederse, endüstri ne tür bahisler yerleştirmelidir?

Bala, araştırmalar, dinamik bilgi grafikleri ve algıyı ve akıl yürütmeyi ayıran düzenleme çerçeveleri gibi daha zengin bağlam altyapısına odaklanmalıdır. Yetkili, hibrit nöro-sembolik mimariler ve geri bildirimlerle aracı kontrol döngüleri mevcut sınırlamaları bozabilir.

Gupta, dönüştürücü yeni mimarilerin geliştirilmekte olduğunu, ancak özellikle nasıl uygulandıklarını artırarak mevcut modelleri kapsayacak çok fazla zemin olduğunu söyledi. Yeni yaklaşımlar arasında çok modlu veri kümeleri üzerinde eğitim alabilen mimariler, insan beyninin deneyimlerinin zengin duyusal girdisini taklit etmeyi ve kendi kendine uyarlanabilir ayarlamaya izin veren diğerlerini içerdiğini söyledi. Ancak yeni mimariler araştırma yaşam döngüsünden geçerken, “mevcut model mimarilerinin varyasyonları, optimizasyonları ve hibrit kombinasyonları pratik iş uygulamaları için uzun bir piste sahip” dedi.

Tek başına ölçek yeterli değildir, ancak uzmanlar daha akıllı mimariler, daha iyi ölçütler ve platoyu geçmesi için daha fazla rol farkında olan akıl yürütme görevleri öneren uzmanlar da eski değildir.





Source link