Gerçek yardımcı program için yapay zeka ölçütlerini yeniden düşünmek


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Hangi modellerin uygulandığını değil, neyin önemli olduğunu ölçmek analiz etmek

Rashmi Ramesh (Rashmiramesh_) •
28 Nisan 2025

Puanın Ötesinde: Gerçek Yardımcı Program için AI Ölçerlerini Yeniden Düşünmek
Resim: Shutterstock

Yapay Zeka Olimpiyatları’nda kriterler altın madalyalardır. Laboratuvarlar skor tablasında eğlenir. Laboratuvarlar, ölçüm standartlarına göre modelleri eğiterek puanları nasıl oynar – ölçütü bir başarı ölçüsü yerine hedefe dönüştürür.

Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu

AI Bilim Adamı Allen Enstitüsü Jesse Dodge, bilgi güvenliği medya grubuna, kıyaslamaların esas olarak tek bir yeteneğin statik ve dar göstergeleri olduğunu söyledi – uygulayıcıların AI sistemlerini her gün nasıl kullandıkları konusunda bir uyumsuzluk.

Halka açık kriterler eğitim setlerine sızar ve modellerin gerçek akıl yürütme sergilemek yerine cevapları yeniden canlandırmasını sağlar. Ayrıca yapı geçersizliğiyle karşı karşıya kalırlar: dili anlama veya akıl yürütme ödülünü ölçmeyi amaçlayan görevler yüzey seviyesi desen eşleşmesini ve hatırlanmasını, insan benzeri anlayışın derinliğini yakalayamaması amaçlanıyor. Modeller, tutkal veya MMLU gibi görevlerde tavan performansına eşit bir şekilde çarptığında, kriterler artımlı iyileştirmelere duyarsız hale gelir ve testin yenilmesi gerçek dünya sorunlarını çözdüğü “karşılaştırma piyangosu” na eğilimlidir.

Meta’nın Maverick sürümünü Lama 4 altında ele alalım.

Santa Clara Üniversitesi’nin Sırp İş Okulu’nda bilgi sistemleri ve analitik doçenti Haibing Lu, “Benchmarks açıkça tanımlanmış hedeflere, gerçek dünyadaki alaka düzeyine ihtiyaç duyuyor ve tekrarlanabilir, şeffaf ve bakımlı olmalı” dedi. Yetkili, güvenilir değerlendirme çerçevelerinin statik kalıntılar olmak yerine modellerin yanında gelişmesi gerektiğini söyledi. LU, lisansüstü düzeyde sorgular yoluyla derin, çok aşamalı akıl yürütme ve alan uzmanlığını araştıran GPQA’yı ve dinamik görevlerde hedefe dayalı ajan davranışını ölçen AgentBench’i daha anlamlı değerlendirmelere doğru iki adım olarak belirtti.

Hiçbir tek kıyaslama tüm gerçek dünya yeteneklerini yakalayamaz. Illinois Üniversitesi Elektrik ve Bilgisayar Mühendisliği yardımcı doçenti Varun Chandrasekaran, ISMG’ye verdiği demeçte, bunun öngörülemeyen, gelişen bir test süitleri çağrısında bulundu. Chandrasekaran’ın kendi araştırması, LLM’lerin kendilerinin planlama, veri doğrulaması ve değerlendirme, sürekli yenilik sağlama ve aşırı uymaya direnme dahil olmak üzere görev yaratmayı düzenlediği dinamik kıyaslama neslini araştırıyor.

BM-BM-BMBi değerlendirme için teknik planlar ortaya çıkıyor. Benchagents gibi otomatik çerçeveler, kıyaslama oluşturmayı, döngüdeki insan denetimi altında verileri üreten, doğrulayan ve küratörleştiren etkileşen LLM ajanlarına ayrıştırır. Çeşitlilik kontrollerini ve kalite kontrollerini otomatikleştirerek, bu sistemler modellerin ilerlemesi, sızıntıyı azaltma ve manuel yükü azaltma olarak uyum sağlayan kriterler üretir. Eureka çerçevesi, veri önceden işleme, hızlı şablonlama, çıkarım, işlem sonrası ve raporlamanın modüler bileşenlerini tek skor raporlamasını aşan tekrarlanabilir, genişletilebilir ölçütlere birleştirerek, esnek değerlendirme için açık kaynaklı boru hatları sunar.

Oyunlara karşı gerçek esneklik, sağlamlığı, uyarlanabilirliği ve genellemeyi araştıran çok boyutlu metrikler gerektirir. Sağlamlık testi, gerçek dünyadaki değişkenlik altında istikrarı değerlendirmek için gürültü, düşmanca pertürbasyonlar veya dağıtım dışı girişler enjekte eder. Uyarlanabilirlik, bir modelin hedefler veya kısıtlamalar değiştiğinde stratejileri nasıl yeniden kalibre ettiğini ölçer. Genelleştirme, görünmeyen alanlara aktarımı değerlendirir ve öğrenilmiş becerilerin dar görevlerin ötesinde ölçeklenmediğini ortaya çıkarır. Ajan tarzı zorluklar, planlama, sıralı karar verme ve başarısızlıktan uçtan uca senaryolara kurtarma, AgentBench’in hedeflerini yansıtılmış Soru-Cevap yerine yansıtıyor.

Hibrit bir veri stratejisi kıyaslama bütünlüğünü güçlendirebilir. Gerçek dünya günlükleri otantik kullanıcı etkileşimlerini ve kenar-kasa karmaşıklıklarını yakalar, ancak gizlilik kısıtlamaları ve gürültü taşıyabilir. Sentetik veriler kontrol edilebilir ölçek ve ek açıklama güvenilirliği sunar. Lu, sterilize edilmiş gerçek verilerle tohumlamak gibi düşünceli bir şekilde birleştirildiğinde, ölçümler hem gerçekçilik hem de tekrarlanabilirlik elde edebilir ve nüansı kaliteyle dengeleyebilir.





Source link