Claude 4 kıyaslama iyileştirmeler gösteriyor, ancak bağlam hala 200k


Claude 4

Bugün, Openai rakibi Antropic, Claude 3’ten ölçümlerde önemli ölçüde daha iyi olan Claude 4 modellerini duyurdu, ancak aynı 200.000 bağlam pencere limiti ile hayal kırıklığına uğradık.

Bir blog yazısında Antropic, Claude Opus 4’ün şirketin en güçlü modeli olduğunu ve aynı zamanda sektörde kodlamak için en iyi model olduğunu söyledi.

Claude 4

Örneğin, SWE-Bench’te (SWE yazılım mühendisliği ölçütü için kısadır), Claude Opus 4, terminal tezgahında yüzde 72,5 ve 43.2 puan aldı.

Antropik, “Birkaç saat boyunca sürekli çalışma, tüm sonnet modellerini önemli ölçüde daha iyi performans gösteren ve AI ajanlarının neler başarabileceğini önemli ölçüde genişleten odaklanmış çaba ve binlerce adım gerektiren uzun süredir devam eden görevlerde sürekli performans sunuyor.

Benchmarks, Claude 4 Sonnet ve Opus’u öncekilerden ve Kodlamada Gemini 2.5 Pro gibi rakiplerinin önüne koyarken, hala modelin 200.000 bağlam pencere limitinden endişe duyuyoruz.

Claude kriterleri

Bu, Claude 4 modellerinin bu ölçütlerde kodlama ve karmaşık çözme görevlerinde mükemmel olmasının nedenlerinden biri olabilir, çünkü bu modeller geniş bir bağlama karşı test edilmemektedir.

Karşılaştırma için, Google’ın 1 milyon jeton bağlam penceresine sahip Gemini 2.5 profesyonel gemileri ve 2 milyon bağlam penceresi için destek de çalışmalarda.

Chatgpt’in 4.1 modelleri de bir milyona kadar bağlam penceresi sunuyor.

ModelTanımGirişHızlı önbellek yazmaHızlı önbellek okumaÇıktıBağlam penceresiToplu işleme indirimi
Yakın İş 4Karmaşık görevler için en akıllı model15 $ / mbok18.75 $ / mbok1,50 $ / mbok75 $ / mbok200kToplu işleme ile% 50 indirim
Claude Sonnet 4Zeka, maliyet ve hızın optimal dengesi3 $ / mbok3,75 $ / mbok0,30 $ / mbok15 $ / mbok200kToplu işleme ile% 50 indirim

Claude, büyük projelerde önemli olan bağlam penceresi söz konusu olduğunda hala rekabetin gerisinde kalıyor.

Kırmızı Rapor 2025

14 metrelik kötü niyetli eylemlerin analizine dayanarak, saldırıların% 93’ünün ve bunlara karşı nasıl savunulacağının arkasındaki en iyi 10 MITER ATT & CK tekniklerini keşfedin.



Source link