Test süresi hesaplaması AI’nın ölçeklendirilmesine nasıl yardımcı olabilir


Yaklaşım, AI modellerini daha büyük yerine daha akıllı hale getirerek ölçeklendirmeyi amaçlamaktadır.

Rashmi Ramesh (Rashmiramesh_) •
27 Şubat 2025

Test süresi hesaplaması AI'nın ölçeklendirilmesine nasıl yardımcı olabilir
Resim: Shutterstock

Yıllarca yapay zeka modellerini ölçeklendirmenin en iyi yolunun, daha fazla bilgi işlem kaynaklarını onlara atmak olduğu açık görünüyordu. Bu teori, performans iyileştirmelerinin model boyutu, veri kümesi hacmi ve hesaplamadaki artışlarla orantılı olmasıdır. Ancak performansta beklenen sıçrama gerçekleşmiyor.

Ayrıca bakınız: Uygun bir BYOD politikası için kapsamlı kılavuz

Bunun yerine, AI modellerini boyut olarak ölçeklendirmek bir platoya çarptı. Openai’nin Orion modeli, GPT 4’ten yaklaşık 10 kat daha fazla hesaplama kaynağı gerektirmesine rağmen, selefi üzerinde sadece mütevazı iyileştirmeler gösterirken, Google’ın yeni nesil Gemini modelinin geliştirilmesi de beklenenden daha yavaş ilerleme yaşadı.

AI modellerini ölçeklendirmek için olası bir çözüm, zaman testi hesaplamasıdır. Yaklaşım, cevapları geliştirmek için çıkarım sırasında veya düşünme aşaması sırasında ekstra hesaplama kaynaklarını dinamik olarak tahsis eder. Bir sonraki kelimeyi engelleyen eski modellerin aksine, daha yeni “akıl yürütme” yaklaşımları, yansıma ve iyileştirmenin AI eşdeğerine izin verir. Google DeepMind çalışanları tarafından yazılan 2024 araştırma makalesi, uyarlanabilir bir “hesaplama-optimal” stratejisinin, geleneksel yöntemlere kıyasla performansı dört kat artırabileceğini ve bazen daha küçük bir modelin 14 kat daha büyük bir modelin daha iyi performans göstermesine izin verdiğini gösterdi.

Her görev için sabit bir hesaplama bütçesi yerine, Test-Time Compute, AI modellerinin kaynakları sorunun karmaşıklığına göre tahsis etmesine izin verir. Dinamik tahsis, AI sistemlerini karmaşık, gerçek dünya zorluklarını ele almada daha verimli ve daha iyi hale getirmeyi amaçlamaktadır.

Test-zaman ölçeklendirmesi genel olarak daha doğru cevaplar elde etmek için ek hesaplamanın kullanılmasını ifade eder. Ölçeklendirme parametreleri, model daha büyük olduğunda daha fazla hesaplama kullanır, ancak test zamanı hesaplama ile modeller, çıktıdan önce cevap aracılığıyla daha fazla jeton düşünür.

Google Research makalesi, modellerin test zamanında daha fazla jeton kullanmasına izin veren teknikler inceledi ve test süresi ölçeklendirmesinin ölçeklendirme model parametrelerinden daha iyi performans gösterebileceğini buldu. Ek “Düşünme Süresi”, modellerin birden fazla akıl yürütme yolunu keşfetmesine izin vererek onları gelişmiş kod oluşturma veya çok modlu veri analizi gibi görevler için özellikle uygun hale getiriyor.

Araştırmalar, zorluk ve ekstra hesaplamayı buna göre uyarlayarak gruplandırmanın – veya binning – sorularının performansı artırabileceğini göstermektedir. Google Paper’ın lider yazarı Charlie Snell, “Zorluk ve bu zorluk binasında belirli bir flop bütçesi için en etkili olan test zamanı stratejisini seçerek binning sorularına oldukça basit bir yaklaşım kullandık.” Dedi.

Bu hesaplama-optimal strateji, sağlanması kolay zorluk sorunları için yinelemeli iyileştirmenin özellikle etkili olabileceğini, daha karmaşık zorluklar için bağımsız örnekleme veya arama yöntemlerinin daha iyi sonuçlar sunabileceğini göstermiştir.

Bellek önemli bir husustur. Artan test-zaman hesaplaması, çıkarım sırasında yeni bellek kısıtlamaları getirebilir. Snell, çıkarımın eğitimden “kesinlikle” daha fazla belleğe bağlı olduğunu, bu da “biraz sorun” olduğunu söyledi, çünkü donanım bellek bant genişliğinin arttırılması flopları arttırmaktan daha zor olma eğilimindedir. Ancak spekülatif kod çözme veya SSM’ler gibi alternatif mimariler gibi stratejiler var, bu da bunlardan bazılarını azaltmaya yardımcı olabilir.

Ancak test süresi hesaplamasının gerçek dünyadaki konuşlandırılması, genelleştirilebilirlik hakkında soruları gündeme getirmektedir. “Bu tekniklerin matematik ve kod gibi kolayca doğrulanabilir alanların ötesinde ne kadar iyi genelleştirebileceğine dair açık bir soru olduğunu düşünüyorum. Bu nedenle, bazı uygulamalar için faydalı olmayabilir. Ancak, matematik ve kod gibi daha fazla dağıtım görevleri için, uygulayıcılar Openai, Deepseek ve Google tarafından yayınlanan bazı son akıl yürütme modellerini deneyebilirler ve Google’ın kullanımı için yardımcı olup olmadıklarını görebilirler.” Dedi.

AI’nın Çilek Model Ailesi, çıkarım sırasında gerçek zamanlı muhakemeye girer ve Microsoft CEO’su Satya Nadella, test süresi hesaplamasını AI gelişiminde yeni bir ölçeklendirme yasası olarak tanımlamıştır. Google, modellerin birden fazla çözüm oluşturmasını ve değerlendirmesini sağlayarak test zamanı hesaplamasını optimize etmek için yöntemleri araştırıyor. NVIDIA, dinamik çıkarım süreçlerini desteklemek için donanım ve yazılım çözümleri geliştirirken Meta, modellerin çıkarım sırasında hesaplama yollarını ayarlamasına izin veren AI altyapısına yatırım yapıyor.

Test süresi hesaplamasının yaygın olarak benimsenmesi için zaman çizelgesi değişir. Merkezi Fransa’da bulunan bir veri-ai-cyber danışmanlık şirketi olan Silamir Group’un AI direktörü Jeremy Bron, bilgi güvenliği medya grubuna, temel stratejilerin aylar içinde, özellikle mevcut bulut tabanlı GPU veya TPU altyapısına sahip ekipler tarafından uygulanabileceğini söyledi. Gizli-uzay akıl yürütmesi gibi daha gelişmiş teknikler, bir yıl veya daha fazla özel araştırma ve geliştirme sürebilir.





Source link