Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
AI Startup’ın R1 modeli övgü ve şüphecilik
Rashmi Ramesh (Rashmiramesh_) •
27 Ocak 2025

Çin yapay zeka girişiminin Deepseek’in açık kaynaklı bir akıl yürütme modeli, teknoloji endüstrisinin Pazartesi günü işlem görmeye düştüğü için ABD teknolojisi ana dayanaklarının hisseleri olarak potansiyel etkisini ölçüyor.
Ayrıca bakınız: İkinci Yıllık Üretici AI Çalışması: İş Ödülleri ve Güvenlik Riskleri
Hangzhou merkezli Deepseek, R1 modelini 20 Ocak’ta yayınladı ve performansını Openai O1 akıl yürütme modeli ile eşit olarak ortaya koydu. R1, Openai’nin chatgpt’ini aşarak Apple App Store’da en iyi indirme haline geldi. AI kıyaslama sıralaması olan Chatbot Arena’da üst kademe bir pozisyon kaplar.
Deepseek, kullanıcıları Pazartesi sabahı geç saatlerde “büyük ölçekli kötü niyetli saldırıların” hedefi olduğu konusunda uyardı ve kayıtlarda yavaşlamaya yol açtı. “Kayıt meşgul olabilir. Lütfen bekleyin ve tekrar deneyin,” dedi şirket. Çinli girişimci Liang Wenfeng, 2023 yılında Nicel Hedge Fonu High Flyer’ın fonlarıyla Deepseek’i kurdu.
Ancak NASDAQ Composite’ı yaklaşık% 3’ü düşüren ve AI Chip -Designer NVIDIA’nın değeri% 15’ten fazla indiren – gerçekten çıngıraklı yatırımcılar, Deepseek’in ilgili V3 modelini geliştirmenin maliyetinin ne olduğunu söylüyor: 5.6 milyon dolar, Tipik olarak önde gelen Amerikan AI şirketleri tarafından gerekli olan yüz milyonlarca kişi (bkz: Çin’in Deepseek’i Openai’nin ‘Akıl Yürütme’ modeline rakip olmayı hedefliyor). Antropik CEO Dario Amodei, Temmuz 2024’te AI modellerinin yaklaşık 100 milyon dolarlık eğitim maliyetini belirledi, ancak geliştirme altındaki modellerin 1 milyar dolarlık maliyetleri artıracağını söyledi.
Girişim kapitalisti Marc Andreessen Cuma günü R1’i “şimdiye kadar gördüğüm en şaşırtıcı ve etkileyici atılımlardan biri” olarak nitelendirdi. Şirketin teknik makalesi, Deepseek’in “büyük ölçekli takviye öğrenimi, RL, denetimli ince ayar, SFT, ön adım olarak eğitildiğini” söyledi. Bu yaklaşım, modelin “karmaşık problemleri çözmek için düşünce zincirini, karyolayı keşfetmesine” izin verir, bu da büyük dil modeli akıl yürütmesinin sadece takviye öğrenimi yoluyla ve denetimli ince ayar yapmadan teşvik edilebileceğini bulmak için ilk açık model haline getirir.
Çin kuruluşlarına gelişmiş çiplerin satışını yasaklayan ABD yaptırımları göz önüne alındığında maliyet verimliliği çarpıcı. Aralık 2024 tarihli bir makalede Deepseek, R1’in iyileştirme olduğu V3 modelini eğitmek için bilgi işlem gücünün sadece bir kısmına ihtiyaç duyduğunu söyledi. Şirket, 2.048 NVIDIA Model H800 yongası kümesi kullandığını söyledi. Nvidia, 2023 yılında H800 yongaları, o zamanki H100 amiral gemisi çipinin yaptırım uyumlu bir versiyonu olarak tasarladı. Şirket yöneticileri gazetecilere o zaman Alibaba, Baidu ve Tencent gibi Çinli teknoloji firmalarının H800’ü bulut bilişim tekliflerine yerleştirdiklerini söyledi.
Bazı endüstri analistleri, Deepseek’in maliyetler üzerindeki tanıtımı hakkında şüpheci bir not verdiler. Reuters, Bernstein analistleri Pazartesi günü yazdı.
Y Combinator CEO’su Garry Tan sosyal medyada Deepseek gelişmelerinin teknoloji endüstrisine fayda sağlayacağını yazdı. “Eğitim modelleri daha ucuz, daha hızlı ve daha kolay hale gelirse, çıkarım talebi – gerçek dünyadaki gerçek dünyadaki kullanımı – büyüyecek ve daha da hızlı hızlanacaktır, bu da hesaplama arzının kullanılacağını garanti eder.” Dedi.
Meta şefi AI bilim adamı Yann Lecun, endüstriyi jeopolitik çerçevelerin ötesine bakmaya çağırdı. Lecun için, Deepseek’in başarısı, açık kaynaklı inovasyonun tescilli modeller üzerindeki artan gücünü tasvir ediyor. Lecun LinkedIn’de “Deepseek açık araştırma ve açık kaynak, örneğin Pytorch ve Meta’dan Lama’dan kâr etti.” Diyerek şöyle devam etti: “Yeni fikirler buldular ve onları diğer insanların çalışmalarının üzerine inşa ettiler. Çalışmaları yayınlandığı ve açık kaynak olduğu için herkes ondan kar elde edebilir.”