Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
ARC-AGI-2, AI’nın daha az kaynakla problem çözme yeteneğini ölçer
Rashmi Ramesh (Rashmiramesh_) •
25 Mart 2025

Yapay genel zekayı değerlendirmek için yeni bir kıyaslama, önde gelen yapay zeka modelleri güdük.
Ayrıca bakınız: Temel Endpoint Güvenlik Alıcının Kılavuzu
ARC Ödülü Vakfı’nın ARC-AGI-2 testi, AI modellerinin problem çözme yeteneklerini yeni senaryolarda değerlendirmeyi amaçlamaktadır. Openai’nin O1-Pro ve Deepseek’in R1’i testte sırasıyla% 1 ve% 1.3 puan alırken, GPT-4.5, Claude 3.7 Sonnet ve Gemini 2.0 flaşı dahil olmak üzere mantıksız modeller benzer şekilde% 1 civarında puan aldı.
ARC-AGI-2, Openai’nin O3 modeli 2024’ün sonlarında insan düzeyinde performansa ulaşıncaya kadar yaklaşık beş yıl boyunca yenilmeyen selefi ARC-AGI-1’e dayanıyor. Ancak modelin başarısı önemli hesaplama gideri ile geldi. Yeni test, bir modelin problem çözme yeteneğini ve tükettiği kaynakları ölçerek verimliliğe odaklanıyor.
AI Araştırmacı ve ARC Ödülü Vakfı Kurucu Ortağı François Chollet, eski adıyla Twitter’daki X’deki bir yazıda, güncellenen testin ARC-AGI-1 eksikliklerini çözdüğünü söyledi. Gözden geçirilmiş kıyaslama, AGI’ya doğru ilerlemenin kritik bir ölçüsü olarak verimliliğe odaklanarak aşırı bilgi işlem gücüne olan güveni caydırır.
Arc Ödülü Vakfı başkanı Greg Kamradt bir blog yazısında, “İstihbarat sadece sorunları çözme veya yüksek puanlar elde etme yeteneği ile tanımlanmıyor” dedi. “Bu yeteneklerin elde edildiği ve dağıtıldığı verimlilik, çok önemli, tanımlayıcı bir bileşendir.”
ARC-AGI-2, AI modellerinin çok renkli kare ızgaralardan görsel desenleri analiz etmesini ve önceden maruz kalmadan çözümler üretmesini gerektiren bulmaca benzeri zorluklar sunar. Büyük hesaplama gücüne sahip modelleri tercih edebilecek geleneksel kriterlerin aksine, bu test uyarlanabilir muhakemeyi ödüllendirmek için tasarlanmıştır. Performans taban çizgisi kuran 400’den fazla insan katılımcısı, ortalama% 60 doğruluk sağladı ve AI sonuçlarını önemli ölçüde aştı.
Openai’nin O3 modeli,% 75.7 puanla ARC-AGI-1’de hakimiyet gösterirken, bazı görevler için deneme başına 200 $ ‘lık hesaplama kullanmasına rağmen performansı ARC-AGI-2’de% 4’e düştü. ARC-AGI-2, kaba kuvvet yaklaşımlarını önlemek için kısıtlamalar getirerek AI’nın problem çözme yeteneklerinin daha doğru bir ölçüsünü sağlamayı amaçlamaktadır.
Ezinmeyi veya tekrarlayan eğitimi vurgulayan testlerin aksine, ARC-AGI-2, AI’nın bilgisiz durumlarda bilgi edinip öğrenemeyeceği konusunda potansiyel olarak daha net bilgiler sağlayarak dinamik akıl yürütme ve uyarlanabilirlik arar.
Blog yazısı, “Brute-Force aramasının sonunda sınırsız kaynak ve arama zamanı göz önüne alındığında ARC-AGI’yi çözebileceğini biliyoruz. Bu gerçek zekayı temsil etmeyecek.” Dedi. “Zeka, çözümü verimli bir şekilde bulmak, kapsamlı bir şekilde bulmakla ilgilidir.”
Ölçmeyi duyurmanın yanı sıra, Vakıf Arc Ödülü 2025 yarışmasını başlattı. Katılımcılar, ARC-AGI-2’de% 85 doğruluk puanı elde etmekle görevlendirilirken, hesaplama maliyetlerini görev başına 0,42 $ ile sınırlar ve AI akıl yürütmesinde pahalı hesaplama gücüne güvenme konusunda yenilikleri ödüllendirmeyi amaçlamaktadır.