Deepseek-R1: Şirket içi dağıtımlar için bütçeleme zorlukları


Şimdiye kadar, BT liderlerinin kullanıcıların ChatGPT gibi büyük dil modellerine (LLMS) doğrudan bulut aracılığıyla erişmesine izin vererek ortaya çıkan siber güvenlik risklerini dikkate almaları gerekiyordu. Alternatif, şirket içi barındırılabilen veya özel bir bulut aracılığıyla erişilebilen açık kaynaklı LLM’leri kullanmak olmuştur.

Yapay Zeka (AI) modelinin bellekte çalışması gerekir ve AI hızlanması için grafik işleme birimlerini (GPU’lar) kullanırken, bu, BT liderlerinin tümü tutmak için yeterli bellek oluşturmak için GPU’ların satın alma bankalarıyla ilişkili maliyetleri dikkate almaları gerektiği anlamına gelir. model.

NVIDIA’nın üst düzey AI ivme GPU’si H100, 80Gbytes rastgele erişim belleği (RAM) ile yapılandırılmıştır ve spesifikasyonu, enerji kullanımı açısından 350W olarak derecelendirildiğini gösterir.

Çin’in Deepseek, R1 LLM’sinin en son GPU donanımına başvurmaya gerek kalmadan bize AI’ya rakip olabileceğini gösterebildi. Bununla birlikte, GPU tabanlı AI hızlanmasından yararlanır.

Bununla birlikte, Deepseek’in özel bir versiyonunu dağıtmak hala önemli donanım yatırımı gerektirir. Bellek içi 671 milyar parametreye sahip olan tüm Deepseek-R1 modelini çalıştırmak için 768gbytes bellek gerektirir. Her biri 80Gbytes video bellek kartı ile yapılandırılmış NVIDIA H100 GPU’larla, tüm Deepseek-R1 modelinin bellek içinde çalışabilmesini sağlamak için 10 gereklidir.

BT liderleri hacim indirimleri müzakere edebilirler, ancak Deepseek’i çalıştırmak için sadece AI hızlanma donanımının maliyeti yaklaşık 250.000 $ ‘dır.

Bu rakamı azaltmaya yardımcı olabilecek daha az güçlü GPU kullanılabilir. Ancak mevcut GPU fiyatları göz önüne alındığında, 670 milyar parametreli Deepseek-R1 modelini bellek içi çalıştırabilen bir sunucu 100.000 doların üzerinde olacak.

Sunucu genel bulut altyapısında çalıştırılabilir. Örneğin Azure, saatte 27.167 $ karşılığında 900 gbytes bellek ile NVIDIA H100’e erişim sunar, bu da kağıt üzerinde 671 milyar parametreli Deepseek-R1 modelini tamamen bellek içinde çalıştırabilmelidir.

Bu model her çalışma günü kullanılırsa ve yılda 35 saatlik bir hafta ve tatil ve kesinti süresi varsayılarak, yıllık Azure faturası yılda neredeyse 46.000 dolar olacaktır. Yine, üç yıllık bir taahhüt varsa, bu rakam yılda 16,63 dolara (23.000 $) önemli ölçüde düşürülebilir.

Daha az güçlü GPU’lar açıkça daha az maliyetli olacaktır, ancak bunları yasaklayan bellek maliyetleridir. Örneğin, mevcut Google bulut fiyatlandırmasına bakıldığında, NVIDIA T4 GPU saatte GPU başına 0,35 $ fiyatla ve dört GPU ile mevcut ve saatte 1,40 $ için toplam 64 Gbyte bellek verilecek ve 12’ye ihtiyaç duyulacak Deepseek-R1 671 milyar parametreli modelin tamamen saatte 16,80 $ ‘dan çalıştığı tam bir belleğe uyması için. Üç yıllık bir taahhütle, bu rakam yılda 13.000 doların biraz altında çalışan 7.68 dolara geliyor.

Daha ucuz bir yaklaşım

BT liderleri, pahalı GPU’lardan tamamen kaçınarak ve tamamen genel amaçlı merkezi işleme birimlerine (CPU) güvenerek maliyetleri daha da azaltabilirler. Bu kurulum gerçekten sadece Deepseek-R1 yalnızca AI çıkarım için kullanıldığında uygundur.

Hugging Face’te Makine Öğrenme Mühendisi Matthew Carrigan’dan yakın zamanda yapılan bir tweet, böyle bir sistemin iki AMD EPYC Server işlemcisi ve 768 gbytes hızlı bellek kullanılarak inşa edilebileceğini gösteriyor. Bir dizi tweet’te sunduğu sistem yaklaşık 6.000 dolara bir araya getirilebilir.

Kurulum hakkındaki yorumlara yanıt veren Carrigan, kurulmuş belirli işlemciye ve bellek hızına bağlı olarak saniyede altı ila sekiz jeton işlem oranı elde edebileceğini söyledi. Aynı zamanda doğal dil sorgusunun uzunluğuna bağlıdır, ancak tweet, çift AMD EPYC kurulumuna ve 768gbytes bellek temelinde inşa ettiği donanımda Deepseek-R1’in gerçek zamanlı sorgulamasını gösteren bir video içerir.

Carrigan, GPU’ların hızda kazanacağını kabul ediyor, ancak pahalı. Tweet serisinde, kurulan bellek miktarının performans üzerinde doğrudan bir etkisi olduğuna dikkat çekiyor. Bunun nedeni, Deepseek’in cevapları daha hızlı almak için önceki sorguları “hatırlıyor”. Tekniğe anahtar değeri (KV) önbellekleme denir.

“Daha uzun bağlamlarla test ederken, KV önbelleği aslında fark ettiğimden daha büyük,” dedi ve donanım yapılandırmasının 76gbytes yerine 76gbytes yerine 1tbytes bellek gerektireceğini öne sürdü. Sorgu istemi.

Önceden inşa edilmiş bir Dell, HPE veya Lenovo Server satın almak, belirtilen işlemciye ve bellek yapılandırmalarına bağlı olarak benzer bir şey yapmak için çok daha pahalı olacaktır.

Bellek maliyetlerini ele almanın farklı bir yolu

Bellek maliyetlerini azaltmak için alınabilecek yaklaşımlar arasında özel bir çip tarafından kontrol edilen birden fazla bellek katmanı kullanmaktır. California Startup Sambanova’nın SN40L yeniden yapılandırılabilir veri akışı ünitesini (RDU) ve üç katmanlı bellek için tescilli bir veri akışı mimarisini kullanarak yaptığı şey budur.

Sambanova CEO’su Rodrigo Liang, “Deepseek-R1, mevcut en gelişmiş sınır AI modellerinden biridir, ancak tam potansiyeli GPU’ların verimsizliği ile sınırlandırıldı” dedi.

2017 yılında bir grup eski-Sun/Oracle mühendisi tarafından kurulan ve Stanford Üniversitesi Elektrik Mühendisliği Departmanı ile devam eden bir işbirliğine sahip olan şirket, RDU CHIP’in Deepseek-R1’i 40 raftan bire verimli bir şekilde çalıştırmak için donanım gereksinimlerini çöktüğünü iddia ediyor. 16 RDU ile yapılandırılmış raf.

Bu ayın başlarında Riyad’daki LEAP 2025 Konferansı’nda Sambanova, Suudi Arabistan’ın ilk egemen LLM-Hizmet Olarak Bulut Platformunu tanıtmak için bir anlaşma imzaladı. Suudi Telecom Company’deki dijital çözümlerin başkan yardımcısı Saud Alsheraihi şunları söyledi: “Sambanova ile bu işbirliği, Suudi işletmelerini egemen AI yeteneklerine sahip güçlendirme yolculuğumuzda önemli bir kilometre taşını işaret ediyor. Hizmet olarak güvenli ve ölçeklenebilir bir çıkarım platformu sunarak, kuruluşların tam kontrolü korurken verilerinin tam potansiyelini açmalarını sağlıyoruz. ”

Suudi Arap telco sağlayıcısı ile yapılan bu anlaşma, hükümetlerin egemen AI kapasitesini oluştururken tüm seçenekleri nasıl değerlendirmeleri gerektiğini göstermektedir. Deepseek, muazzam ve maliyetli GPU dizilerini dağıtmak için denenmiş ve test edilmiş yöntem kadar etkili olabilecek alternatif yaklaşımlar olduğunu gösterdi.

Ve gerçekten daha iyi çalışsa da, GPU’ya uyumlu AI donanımı mevcut olduğunda, Sambanova’nın iddia ettiği şey, Deepseek-R1, şirket içi, bellek içi, olmayan, aynı performansı elde etmenin alternatif bir yolu olmasıdır. Modelin ihtiyaç duyduğu bellekle donatılmış GPU’ları edinmek zorunda kalmanın maliyeti.



Source link