Araştırmacılar Deepseek'in R1-Zero modelini sadece 30 dolara çoğalttı

Maliyet-etkin AI araştırmasının etkileyici bir gösterisinde, bir grup araştırmacı Deepseek’in R1-Zero modelini sadece 30 dolara başarıyla çoğalttı.

Dublajlı Tinyzerobu proje geri sayım ve çarpma görevlerine odaklanmakta, 3 milyar parametreli (3B) temel dil modelini (LM) özerk bir şekilde kendi kendine doğrulama ve arama yetenekleri geliştirmek için Güçlendirme Öğrenimi’nden (RL) kullanılmaktadır.

VERL çerçevesi üzerine inşa edilen Tinyzero, takviye öğrenmenin büyük dil modellerinin (LLMS) akıl yürütme yeteneklerini bağımsız olarak geliştirmesine nasıl yardımcı olabileceğini gösteriyor.

Hizmet Olarak Siem

Bu projenin arkasındaki araştırmacılar bir “Aha!” an kullanıcılar minimum hesaplama maliyetleriyle ilk elden deneyimleyebilir.

Metodolojiyi keşfetmek isteyenler için, ağırlıklar ve önyargılar üzerinde ayrıntılı bir deney günlüğü mevcuttur ve bir Twitter iş parçacığında paylaşılan daha fazla bilgi. Ekip ayrıca resmi bir araştırma makalesinin yaklaştığını doğruladı.

Araştırma ekibi, AI’nın belirli bir hedefe ulaşmak için bir dizi numaradan denklemler ürettiği matematiksel bir zorluk olan “geri sayım oyunu” nu test ortamı olarak seçti.

Bu oyun, zaman içinde iyileşmek için mantıksal akıl yürütme ve stratejik deneme yanılma gerektirdiği için problem çözme yeteneklerini test etmek için idealdir. Başlangıçta, model net bir strateji olmadan rastgele çıktılar üretti.

Bununla birlikte, takviye öğrenimi yoluyla, mantıksal akıl yürütme becerilerini bağımsız olarak geliştirerek yaklaşımını yavaş yavaş rafine etti.

Tinyzero’yu Çalıştırma: Kurulum ve Kurulum

Tinyzero’yu çoğaltmak için kullanıcılar basit bir kurulum sürecini izleyebilir:

Kurulum adımları

Çevre Oluştur:conda create -n zero python=3.9
Torch (isteğe bağlı) yükleyin:pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
VLLM’yi yükleyin:pip3 install vllm==0.6.3
Verl ve bağımlılıkları yükleyin:pip install -e . pip3 install flash-attn --no-build-isolation pip install wandb IPython matplotlib

Geri Sayım Görevi: Tinyzero’yu eğitmek

Veri hazırlama

Çevreyi etkinleştirin ve veri kümesini ön plana çıkarın:

conda activate zero
python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}

Tek bir GPU üzerinde eğitim

Modeller için 1.5b Parametreler, tek bir GPU kurulumu etkili bir şekilde çalışır:

export N_GPUS=1
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=1
export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
export VLLM_ATTENTION_BACKEND=XFORMERS

bash ./scripts/train_tiny_zero.sh

Ölçeklendirme: 3B+ modelini eğitmek

Daha gelişmiş akıl yürütme becerileri sergileyen daha büyük modeller için iki GPU yapılandırması önerilir:

export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b
export VLLM_ATTENTION_BACKEND=XFORMERS

bash ./scripts/train_tiny_zero.sh

Ablasyon talimatını verin: Qwen-2.5-3b ile denemeler

Ekip ayrıca Qwen-2.5-3b’nin talimat ayarlı bir versiyonunu denedi. Bu, ek veri ön işlemeyi gerektirir:

conda activate zero
python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}

Eğitim benzer bir iki GPU kurulumunu takip eder:

export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
export VLLM_ATTENTION_BACKEND=XFORMERS

bash ./scripts/train_tiny_zero.sh

Tinyzero, VERL çerçevesine göre geliştirildi ve Qwen2.5 serisi baz modellerini kullanıyor. Jiayi Pan, Junjie Zhang, Xingyao Wang, Lifan Yuan, Hao Peng ve Alane Suhr’dan oluşan araştırma ekibi, projeyi GitHub’da erişilebilir hale getirdi.

Tinyzero’nun başarısı ile bu deney, son teknoloji ürünü AI yeteneklerinin geliştirilebileceğini ve bir Oldukça küçük bütçe, potansiyel olarak daha uygun fiyatlı AI araştırmalarının yolunu açar.

Find this News Interesting! Follow us on Google News, LinkedIn, and X to Get Instant Updates

Source link

Araştırmacılar Deepseek’in R1-Zero modelini sadece 30 dolara çoğalttı