Chatgpt 4.1 Google Gemini ile karşılaştırıldığında erken kriterler


Chatgpt 4.1

Chatgpt 4.1 şimdi piyasaya sürülüyor ve GPT 4O’dan önemli bir sıçrama, ancak Google Gemini tarafından belirlenen karşılaştırmayı geçemiyor.

Openai dün, API erişimi olan geliştiricilerin üç yeni model deneyebileceğini doğruladı: GPT – 4.1, GPT – 4.1 Mini ve GPT – 4.1 Nano.

Kıyaslamalara göre, bu modeller özellikle kodlamada, mevcut GPT – 4O ve GPT – 4O mini’den çok daha iyidir.

Örneğin, GPT-4.1 SWE-Bench’de% 54.6 puan verir, bu da GPT-4O’dan% 21.4 ve GPT-4.5’e göre% 26.6 daha iyidir. Openai tarafından paylaşılan diğer kıyaslama araçlarında benzer sonuçlarımız var, ancak Gemini modellerine karşı nasıl rekabet ediyor.

Chatgpt 4.1 Erken Kıyaslamalar

GPT 4.1
LLM’leri karşılaştıran kriterler

Üretime hazır bir tarayıcı otomasyon çerçevesi olan StageHand tarafından paylaşılan kriterlere göre Gemini 2.0 flash, en yüksek tam eşleştirme puanı (%90) ile birlikte en düşük hata oranına (%6.67) sahiptir ve aynı zamanda ucuz ve hızlıdır.

Öte yandan, GPT – 4.1 daha yüksek bir hata oranına (%16.67) sahiptir ve Gemini 2.0 flaşından 10 kat daha fazla maliyetlidir.

Diğer GPT varyantları (“nano” veya “mini” gibi) daha ucuz veya daha hızlıdır, ancak GPT-4.1 kadar doğru değildir

GPT4,1
Grafik, performanslarını (dikey eksende) milyon jeton başına fiyatlarına (yatay eksende) çizerek karşılaştırır.

Harward’da RNA üzerinde çalışan bir bilim adamı olan Pierre Bongrand tarafından paylaşılan başka bir veride, GPT –4.1, rakip modellerden daha düşük maliyet etkinliği sunuyor.

Bu önemli bir faktördür çünkü GPT4.1 ChatGPT 4o’dan daha ucuzdur.

Gemini 2.0 Flash, Gemini 2.5 Pro ve hatta Deepseek veya O3 mini gibi modeller, daha düşük veya karşılaştırılabilir bir maliyetle daha yüksek performans sağladıklarını gösteren sınırda veya sınırda yatıyor.

Nihayetinde, GPT – 4.1 hala bir seçenek olarak çalışıyor olsa da, daha ucuz veya daha yetenekli alternatiflerle açıkça gölgede bırakılmıştır.

Kodlama Kıyaslamaları GEMINI 2.5’in arkasında GPT-4.1 gecikmeleri gösteriyor

GPT 4.1

Kodlama ölçütlerinde benzer sonuçlar görüyoruz, GPT-4.1’i% 52 skorla listeleyerek, Gemini 2.5% 73 mil önde.

İkizler 2.5

GPT-4.1’in mantıklı olmayan bir model olduğunu ve hala kodlama için en iyi modellerden biri olduğunu belirtmek de önemlidir.

GPT-4.1 API üzerinden mevcuttur, ancak Windsurf AI için kaydolursanız ücretsiz kullanabilirsiniz.



Source link