Teknoloji dünyasının Deepseek-R1 AI modeli tarafından yükseltilmesinden sadece iki ay sonra Alibaba Cloud, açık kaynaklı bir büyük dil modeli (LLM) olan QWQ-32B’yi tanıttı.
Çin bulut devi, yeni modeli sadece 32 milyar parametre kullanan, ancak daha fazla sayıda parametre kullanan diğer büyük dil AI modelleriyle karşılaştırılabilir performans sunabilen “kompakt bir akıl yürütme modeli” olarak tanımlıyor.
Alibaba Cloud, web sitesinde yeni modelin Deepseek ve Openai’den AI modelleriyle karşılaştırılabilir olduğunu gösteren performans ölçütleri yayınladı. Bu kriterler arasında AIME 24 (Matematiksel Akıl Yürütme), Canlı Codebench (kodlama yeterliliği), Livebench (test seti kontaminasyonu ve nesnel değerlendirme), IFEVAL (Talimat takip yeteneği) ve BFCL (araç ve işlev çağrısı özellikleri) bulunur.
Alibaba, sürekli güçlendirilmiş öğrenme (RL) ölçeklendirmesi kullanarak QWQ-32B modelinin matematiksel akıl yürütme ve kodlama yeterliliğinde önemli gelişmeler gösterdiğini iddia etti.
Bir blog yayınında şirket, 32 milyar parametre kullanan QWQ-32B’nin 671 milyar parametre kullanan Deepseek-R1 ile karşılaştırılabilir performans elde ettiğini söyledi. Alibaba, bunun kapsamlı dünya bilgisine öngörülen sağlam temel modellerine uygulandığında RL’nin etkinliğini gösterdiğini söyledi.
Alibaba, blog yazısında, “Temsilciyle ilgili yetenekleri akıl yürütme modeline entegre ettik, araçları kullanırken ve akıl yürütmesini çevresel geri bildirimlere göre uyarlarken eleştirel düşünmesini sağlıyoruz” dedi.
Alibaba, QWQ-32B’nin akıl yürütme yeteneklerini artırmak için takviye öğrenme (RL) kullanmanın etkinliğini gösterdiğini söyledi. AI eğitimine bu yaklaşımla, bir takviye öğrenme AI ajanı çevresini algılayabilir ve yorumlayabilir, aynı zamanda harekete geçebilir ve deneme yanılma yoluyla öğrenebilir. Takviye öğrenimi, geliştiricilerin makine öğrenme sistemlerini eğitmek için kullandıkları birkaç yaklaşımdan biridir. Alibaba, modelini daha verimli hale getirmek için RL kullandı.
Alibaba, “Sadece ölçeklendirilmiş RL’nin muazzam potansiyeline tanık olmakla kalmadık, aynı zamanda önlenmiş dil modellerinde kullanılmayan olasılıkları da tanıdık” dedi. “Yeni nesil Qwen’i geliştirmek için çalışırken, daha güçlü temel modellerini ölçeklendirilmiş hesaplama kaynakları tarafından desteklenen RL ile birleştirmenin bizi yapay genel zeka elde etmeye daha yakın olacağından eminiz. [AGI]. “
Alibaba, Alibaba’ya göre, sonunda çıkarım zamanının ölçeklendirilmesiyle daha fazla zekaya yol açacak olan “uzun horizon akıl yürütmesi” olarak tanımladığı şeyi sağlamak için ajanların RL ile entegrasyonunu aktif olarak araştırdığını söyledi.
QWQ-32B modeli, genel bir ödül modeli ve kural tabanlı doğrulayıcılardan ödüller kullanılarak eğitildi ve genel yeteneklerini artırdı. Alibaba’ya göre bunlar arasında daha iyi talimat takip, insan tercihleri ile uyum ve gelişmiş ajan performansı bulunmaktadır.
Yılın başından beri genellikle mevcut olan Çin’in Deepseek, RL’nin rakip ABD büyük dil modellerine kıyasla karşılaştırılabilir kıyaslama sonuçları sunma yeteneğinde etkinliğini gösteriyor. R1 LLM, en son GPU donanımına başvurmaya gerek kalmadan bize yapay zekaya rakip olabilir.
Alibaba’nın QWQ-32B modelinin RL kullanması tesadüf değildir. ABD, NVIDIA H100 grafik işlemcisi gibi üst düzey AI hızlandırıcı yongalarının ihracatını Çin’e yasakladı, yani Çinli AI geliştiricilerin modellerini çalıştırmak için alternatif yaklaşımlara bakmak zorunda kaldı. RL’nin kullanılması, Openai’den gelenler gibi modellere göre karşılaştırılabilir kıyaslama sonuçları sunmaktadır.
QWQ-32B modeli hakkında ilginç olan şey, Deepseek’e benzer sonuçlar elde etmek için önemli ölçüde daha az parametre kullanmasıdır, bu da etkili bir şekilde daha az güçlü AI ivme donanımı üzerinde çalışabilmesi gerektiği anlamına gelir.