Bugün, Openai rakibi Antropic, Claude 3’ten ölçümlerde önemli ölçüde daha iyi olan Claude 4 modellerini duyurdu, ancak aynı 200.000 bağlam pencere limiti ile hayal kırıklığına uğradık.
Bir blog yazısında Antropic, Claude Opus 4’ün şirketin en güçlü modeli olduğunu ve aynı zamanda sektörde kodlamak için en iyi model olduğunu söyledi.
Örneğin, SWE-Bench’te (SWE yazılım mühendisliği ölçütü için kısadır), Claude Opus 4, terminal tezgahında yüzde 72,5 ve 43.2 puan aldı.
Antropik, “Birkaç saat boyunca sürekli çalışma, tüm sonnet modellerini önemli ölçüde daha iyi performans gösteren ve AI ajanlarının neler başarabileceğini önemli ölçüde genişleten odaklanmış çaba ve binlerce adım gerektiren uzun süredir devam eden görevlerde sürekli performans sunuyor.
Benchmarks, Claude 4 Sonnet ve Opus’u öncekilerden ve Kodlamada Gemini 2.5 Pro gibi rakiplerinin önüne koyarken, hala modelin 200.000 bağlam pencere limitinden endişe duyuyoruz.
Bu, Claude 4 modellerinin bu ölçütlerde kodlama ve karmaşık çözme görevlerinde mükemmel olmasının nedenlerinden biri olabilir, çünkü bu modeller geniş bir bağlama karşı test edilmemektedir.
Karşılaştırma için, Google’ın 1 milyon jeton bağlam penceresine sahip Gemini 2.5 profesyonel gemileri ve 2 milyon bağlam penceresi için destek de çalışmalarda.
Chatgpt’in 4.1 modelleri de bir milyona kadar bağlam penceresi sunuyor.
Model | Tanım | Giriş | Hızlı önbellek yazma | Hızlı önbellek okuma | Çıktı | Bağlam penceresi | Toplu işleme indirimi |
---|---|---|---|---|---|---|---|
Yakın İş 4 | Karmaşık görevler için en akıllı model | 15 $ / mbok | 18.75 $ / mbok | 1,50 $ / mbok | 75 $ / mbok | 200k | Toplu işleme ile% 50 indirim |
Claude Sonnet 4 | Zeka, maliyet ve hızın optimal dengesi | 3 $ / mbok | 3,75 $ / mbok | 0,30 $ / mbok | 15 $ / mbok | 200k | Toplu işleme ile% 50 indirim |
Claude, büyük projelerde önemli olan bağlam penceresi söz konusu olduğunda hala rekabetin gerisinde kalıyor.
14 metrelik kötü niyetli eylemlerin analizine dayanarak, saldırıların% 93’ünün ve bunlara karşı nasıl savunulacağının arkasındaki en iyi 10 MITER ATT & CK tekniklerini keşfedin.