Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Şangay firması açık kaynaklı strateji üzerine bahisler, verimlilik iddiaları
Rashmi Ramesh (Rashmiramesh_) •
18 Haziran 2025

Şangay Yapay Zeka Başlangıç Minimax, Amerikan ve diğer Çin modellerine doğrudan rakip olarak konumlandıran yeni bir açık kaynaklı büyük dil modeli yayınladı.
Ayrıca bakınız: Verileri Güçlendirecek Verileri Dönüştürmek AI: Değer, Güven ve Etkinin Kilidini Açma
Şirket, Minimax-M1 modelini Apache lisansı altında yayınladı ve modellerini daha kısıtlayıcı şartlar altında yayınlayan birçok rakibin aksine açık kaynaklı erişim sağladı. Meta’s Llama ailesi ticari olmayan bir topluluk lisansı altında faaliyet göstermektedir ve Deepseek’in modelleri sadece kısmen açık kaynaktır. M1’in lisanslaması sınırsız ticari ve araştırma kullanımına izin verir.
Minimax, lansmana eşlik eden bir blog gönderisinde “Karmaşık, verimlilik odaklı senaryolarda, M1’in yetenekleri açık kaynak modelleri arasında en üst düzeydir.” Şirket, M1’in yerel kapalı kaynak modellerini aştığını ve “endüstrinin en iyi maliyet etkinliği” olarak tanımladığı şeyi sunarken önde gelen denizaşırı modellere yaklaştığını iddia ediyor.
Minimax, modelinin Openai’s O3, Google’ın Gemini 2.5 Pro, Antropic’s Claude 4 Opus ve Deepseek R1 dahil olmak üzere önde gelen tescilli ve açık modellere karşı kıyaslama testlerinde rekabetçi bir performans sergilediğini söylüyor. Şirket, AIME 2024, LiveCodebench, SWE-Bench Doğrulanmış, Tau-Bench ve MRCR’de değerlendirmeleri belirtti. Minimax, modelini evrensel olarak üstün sıralamadı, bunun yerine performansın ölçütler arasında değiştiğini söylüyor. Çoğu satıcı tarafından sağlanan sonuçlarda olduğu gibi, iddialar bağımsız olarak doğrulanmamıştır, ancak modelin kodu ve ağırlıkları GitHub’da mevcuttur.
Minimax, M1’in uzun bağlam görevlerini yerine getirme yeteneğinin temel avantajlarından biri olduğunu söylüyor. Model, Google’ın Gemini 2.5 Pro ve Deepseek R1 kapasitesinin sekiz katına rakip bir veri aralığı olan bir milyon jeton işleyebilir. Çıktı üretimi, Deepseek’in 64.000’den daha yüksek olan 80.000 jetona ve Openai’nin O3’ünü takip eden 100.000’e kadar çıkış jetonunu kullanıyor.
Şirket, “yıldırım dikkati” mekanizması içeren şirket içi mimarisinin, özellikle uzun bağlam senaryolarında daha verimli eğitim ve çıkarım sağladığını söylüyor. Minimax, bu yöntemin M1 modelinin Deepseek R1’in gerektirdiği bilgi işlem gücünün yaklaşık% 30’unu kullanarak 80.000-eğimli akıl yürütme görevlerini işlemesine izin verdiğini söylüyor.
Minimax, eğitim verimliliğini optimize etme yaklaşımının bir parçası olarak CISPO adlı bir takviye öğrenme stratejisini tanımlar. Yöntemin ayrıntıları, şirketin kodun yanında yayınladığı modelin teknik belgelerine dahil edilmiştir. Eğitimin takviye öğrenme aşaması, üç hafta boyunca 512 NVIDIA H800 GPU’yu kullandı, bu da minimax tahminleri kira ücretlerinde 537.400 dolar.
Serbest bırakma, Çin’in Deepseek, Alibaba destekli Qwen ve Baidu’nun Ernie gibi firmalarının Batılı oyuncuları eşleştirmek veya aşmak için yarıştığı büyük model manzarasındaki rekabete katkıda bulunuyor. Minimax’ın kendisi Alibaba Group, Tencent ve Idg Capital gibi yatırımcılar tarafından desteklenmektedir.