Yeni R1T2 LLM Deepseek sürümlerini birleştiriyor


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Alman danışmanlığının en son LLM’si maliyetleri azaltmayı, akıl yürütme becerilerini korumayı hedefliyor

Rashmi Ramesh (Rashmiramesh_) •
4 Temmuz 2025

Daha Hızlı Değil: Yeni R1T2 LLM Deepseek sürümlerini birleştiriyor
Resim: Shutterstock

Yapay zeka şirketleri daha büyük ve daha karmaşık modeller oluşturmak için yarıştıkça, bir Alman firması daha hızlı ve daha verimli bir teklif sunmaya çalışmak için mevcut modelleri yeniden karıştırarak alternatif bir yaklaşım benimsiyor.

Ayrıca bakınız: Ondemand Web Semineri | Cortex XSIAM3.0: #1 AI güdümlü SECOPS platformu

Perşembe günü Münih merkezli TNG teknoloji danışmanlığı, önceki üç Deepseek sürümünün güçlü yönlerini tek bir pakete karıştırmak için tasarlanmış yeni, büyük bir dil modeli olan Deepseek-TNG R1T2 Chimera’yı piyasaya sürdü.

2001 yılında kurulan TNG Technology Consulting, telekomünikasyon, sigorta ve e-ticaret sektörlerindeki kuruluşlarla ve otomobil sektörü, lojistik ve finans hizmetleri ile AI’nın benimsenmesi de dahil olmak üzere birden fazla BT cephesinde yakın işbirliği içinde çalıştığını söyledi.

Danışmanlık zaten – açık kaynaklı yazılım olarak – Nicel Hedge Fonu High Flyer Sermaye Yönetimi’ne bağlı bir Çin girişiminden bir proje olan Deepseek’ten türetilen çoklu LLM’leri yayınladı. Bunlar TNG Chimera modelleri R1 ve R1T’yi içeriyordu.

En son teklif olan R1T2, kurumsal kullanıcılara ve geliştiricilere altyapı bütçelerini veya yanıt sürelerini ezmemek için tasarlanmış yüksek mantıklı bir model sunuyor. TNG, “R1T2, istihbaratta çıkarım maliyetine karşı tatlı bir noktada çalışıyor.” Dedi. “Bunu genel olarak iyi davranmış ve konuşmak için güzel bir kişi olarak algılıyoruz.”

Şirket, modelin akıl yürütme, özlü cevaplar ve öngörülebilir altyapı kullanımına öncelik veren kurumsal kullanım durumları için çok uygun olduğunu, ancak işlev çağrısı veya sofistike araç kullanımını içeren görevler için önermediğini söyledi.

Yeni LLM, Mart ayında piyasaya sürülen V3-0324 ve Mayıs ayında piyasaya sürülen R1-0528 Ocak ayında piyasaya sürülen orijinal Deepseek R1’in bölümlerini birleştirerek inşa edildi.

İkinci model, daha düşük bir maliyetle eğitilebilirken güçlü akıl yürütme ölçüt puanları sunmak için geliştiricilerden zaten yüksek düzeyde ilgi çekmiştir. Tüm Deepseek modelleri açık kaynaktır ve başkalarının türev modelleri oluşturmasına ve dağıtmasına olanak tanıyan bir Apache 2.0 lisansı altında mevcuttur (bkz:: Deepseek’in yeni AI modeli Amerikan teknoloji endüstrisini sallıyor).

R1T2’yi oluşturmak için TNG, zaman ve emek yoğun bir süreç olan sıfırdan yeniden eğitilmek yerine, seçilen ağırlık tensörlerini birleştirerek, seçilen ağırlık tensörlerini birleştirerek, önceden eğitilmiş modelleri birleştiren uzmanların bir araya geldiği bir işlem kullandı. TNG, bu yaklaşımı özel akıl yürütmeyi etkilemek için yönlendirilmiş uzman tensörleri kullanırken, aynı zamanda çıkış uzunluğunu ve gecikmeyi azaltmak için daha hızlı modellerden paylaşılan katmanları kullanıyor.

Teknik bir makalede TNG, uzmanların bir araya gelmesinin uzmanların karışımından nasıl farklı olduğunu açıkladı – Mixtrral ve Deepseek V3 gibi modellerde kullanılan bir yaklaşım. Uzmanların karışımı, hesaplama maliyetlerini azaltmak için çalışma zamanında bir ağın bölümlerini seçici olarak aktive eder. Buna karşılık, uzmanların montajı, herhangi bir dinamik yönlendirme kullanmadan tek bir birleştirilmiş model üretir.

R1T2’yi oluşturmak için kullanılan üç farklı Deepseek modeli her biri belirli özelliklere katkıda bulundu: R1’in dile yapılandırılmış yaklaşımı, V3-0324’ün daha kısa, talimat odaklı yanıtları ve R1-0528’in akıl yürütme görevlerindeki performansı.

TNG tarafından yayınlanan kıyaslama verileri, R1T2’nin R1-0528’in performansının% 90 ila% 92’sini, AIME-24, AIME-25 ve GPQA-Diamond testlerine dayanarak, bir modelin ileri matematiksel ve lisansüstü düzeyde akıl yürütme problemlerini çözme yeteneğini değerlendiren AIME-24, AIME-25 ve GPQA-Diamond testlerine dayandığını göstermektedir. Birleştirilmiş model ayrıca R1-0528’e kıyasla çıkış belirteçlerinin yaklaşık% 40’ını kullanır. Böyle bir azalma, üretim ortamlarında çıkarım süresini ve sunucu yükünü düşürmelidir.

Yeni modelini test etmek için TNG, modelin her cevapta kaç kelimeye ürettiğine göre hızı değerlendirdi ve daha kısa yanıtların genellikle ham işlem hızını ölçmekten daha pratik olduğunu söyledi. Bu azalmanın gerçek dünyadaki dağıtım maliyetleri ve gecikmesi üzerinde etkileri vardır. Birçok uygulamada, model çıktılarının uzunluğu pratik bir darboğazdır. Daha kısa yanıtlar üreterek TNG, R1T2’nin çıkarım süresini R1-0528’e kıyasla yaklaşık% 60 azalttığını ve pratikte modelin orijinal Deepseek-R1’den yaklaşık% 20 daha hızlı ve R1-0528’den iki kat daha hızlı olduğunu söyledi.

Modelin bir kopyasını barındıran Hugging Face de dahil olmak üzere erken incelemeler olumlu görünmektedir.

Reddit’e gönderilen bir kullanıcı, “Bir süredir onu pootfleising yapıyoruz.” Dedi. “Kişisel deneyimim, iddiaların doğru olması; orijinal R1 ve R1T’den daha iyi ve R1-0528’den çok daha hızlı (yani daha az çıkış belirteçleri) ama o kadar iyi değil.”

LLM’lerde tipik olduğu gibi, “hala orijinal R1’in karışımda olması nedeniyle araç çağrısını koruyamadığımız gibi,” hala ödünleşmeler var “dedi.

TNG, yeni LLM’sini ücretsiz kullanım, değişiklik ve ticari dağıtıma izin veren bir MIT lisansı altında yayınladı.

Firma, AB kullanıcılarına hizmet veren kuruluşları, AB AI Yasası uyarınca uyumluluk yükümlülüklerini gözden geçirmeleri için uygun olmayabileceğini söyleyerek uyardı.

Chimera Projesi

TNG’nin önceki Chimera modelleri hala OpenRouter ve Chutes dahil olmak üzere çeşitli platformlarda mevcuttur. Firma, bu önceki sürümlerin günde milyarlarca jeton işlediğini ve R1T2’nin daha düşük çıkış uzunluğu ve daha hızlı yanıt süreleri olan bir varyant sunarak bu stratejiyi genişlettiğini söyledi.

Şirket, Chimera projesinin en büyük özel modellerle rekabet etmeye çalışmak yerine verimliliği artırmaya odaklandığını söyledi. Meclis Meclisi yaklaşımı, maliyetleri düşürürken performans sağlamalı ve bu da öngörülebilir altyapı kullanımına öncelik veren işletmelere hitap edebilir.

R1T2’nin piyasaya sürülme gösterisi, akıl yürütme doğruluğu ve çıktı uzunluğu arasındaki değişim eğrisinin üst ucunun yakınında oturuyor. TNG, bu konumlandırmanın sadece ölçüt puanlarını en üst düzeye çıkarmaya odaklanmak yerine kasıtlı bir dengeyi yansıttığını söyledi.

R1T2’nin ne ölçüde Deepseek’te tanımlanan daha fazla eksiklik gösterebileceği belirsizliğini korumaktadır. R1T2 oluşturmak için kullanılan birçok versiyon, olgusal yanlışlıklar ürettiği ve opak akıl yürütmeye sahip olduğu için eleştirilmiştir. Araştırmacılar, “önemli güvenlik eksiklikleri” sergilendiğinin yanı sıra DeepSeek modellerinin finansal verileri halüsinasyon gösterdiğini bildirmişlerdir.

Bazı geliştiriciler ayrıca, Deepseek model yanıtlarının her zaman tutarlı bir şekilde etiketli düşünce zinciri akıl yürütmesini içermediğini, bu da cevapların nasıl üretildiğini değerlendirmeyi zorlaştırabileceğini bulmuşlardır.

Siyasi önyargı ve kıyaslama güvenilirliği de açık endişeler olmaya devam etmektedir. Yakın zamanda yayınlanan bir makale, Deepseek’te hükümet yanlısı filtreleme kanıtı buldu, bu da bazı istemlerin sansürü veya kısmi yanıtları tetiklediğini düşündürdü. Ek değerlendirmeler farklı alanlarda eşit olmayan bir performans göstermiştir. Örneğin, bağımsız bir analiz, Deepseek-R1’in satranç görevleri üzerinde bir GPT-2 taban çizgisini düşük performans gösterdiğini bildirmiştir. Başka bir çalışma, modelin yüksek ölçüt puanlarının, küçük değerlendirme ayarlamalarıyla önemli ölçüde değişebileceğini ve rapor edilen test sonuçlarının tutarlılığı hakkında sorular ortaya çıkarabileceğini savundu.

R1T2 gibi LLM’lerin uzun vadeli benimsenmesi, özellikle daha fazla şirket daha küçük modellerin ve özel sistemlerin karışımlarını denerken belirsizdir. Ne olursa olsun, sürüm, model boyutunu artırmak zorunda kalmadan daha yüksek performanslı LLM’ler sunmak için devam eden görevleri vurgular.





Source link