Jais’in ilk sürümünden bu yana üç aydan kısa bir süre sonra, Arapça için dünyanın en güçlü büyük dil modeli (LLM) olarak adlandırdığı modeli yayınlayan konsorsiyum, iki kattan daha büyük olan ikinci versiyonun eğitimini tamamladı. İlk model 13 milyar parametreye dayanıyordu ve artık Jais-13B olarak anılıyor; ikinci model ise 30 milyar parametre kullanıyor ve Jais-30B olarak adlandırılıyor.
Konsorsiyum üç ortaktan oluşuyor: G42’nin Birleşik Arap Emirlikleri’ndeki (BAE) bir yan kuruluşu olan Core42; Yapay zeka (AI) alanında yüksek lisans dereceleri sunan BAE merkezli bir üniversite olan Mohamed bin Zayed Yapay Zeka Üniversitesi (MBZUAI); ve yapay zeka modellerinin öğrenme aşamasını hızlandırmak için özel olarak tasarlanmış süper bilgisayarlar üreten Kaliforniya merkezli bir şirket olan Cerebras. Ortaklar, en son model olan Jais-30B’yi 8 Kasım 2023’te piyasaya sürdü.
Core42’nin başkan yardımcısı ve yapay zeka baş sorumlusu Andrew Jackson, “Jais-13B, kullanıcılardan geri bildirim almamıza olanak tanıyan bir prototipti” dedi. “Yayınlandıktan sonra, sağlık bakanlığı, petrol ve gaz şirketleri, ulusal havayolu, bankalar, hükümet bakanlıkları ve ulusal telekomünikasyon şirketi dahil olmak üzere BAE’yi oluşturan tüm farklı kuruluş türlerinden haber aldık. Teknolojiye baktılar ve onu ne için kullanmak istediklerini bize anlattılar.
Bazı kuruluşlar, 30 milyar parametreli bir LLM’de çıkarım yapmak için ne kadar işlem gerektiği göz önüne alındığında, çok büyük miktarda altyapı gerektirecek olan dil modelini şirket içinde çalıştırmak istediklerini söyledi.
Andrew Jackson, Core42
Ancak ortaklar aynı şeyi başarmalarına olanak sağlayacak başka bir yaklaşım buldular: Kurumsal uygulama tedarikçileri, büyük modelin gücüne erişmek için uygulama programlama arayüzlerini (API’ler) kullanarak modeli kendi yazılımlarına entegre edebilirler.
Jackson, “Bunu Microsoft’la tartıştık” dedi. “Artık teknolojimizi yerel olarak yükleyerek bu bölgeye yönelik modelimizi kullanmak için onlarla birlikte çalışıyoruz. Şu anda finans yatırımlarından iklim kontrolüne kadar pek çok kullanım senaryosu üzerinde çalışıyoruz. Ve Jais’te büyük anlaşmalar yapmayı bekliyoruz [soon].”
Ek olarak, ortaklar diğer kuruluşlarla Jais’in kullanımına ilişkin iki mutabakat zaptı imzaladı. 2024’ün ilk bölümünü anlaşmaları sonuçlandırarak ve modellerinde kurumsal kullanıma yönelik ince ayarlar yaparak geçirmeyi bekliyorlar. Model çok daha büyük olduğu için küçük bir ayarlamayla çok daha fazlasını yapabiliyor.
Jais-13B’ye göre iyileştirmeler
Jais-30B’nin Jais-13B’ye göre en büyük gelişmelerinden biri daha iyi eğitim verileridir. Ortaklar, kullandıkları verilerden bazılarının kalitesiz olduğunu keşfettiler; örneğin, internetteki Arapça metinlerin çoğu, İngilizce’den yapılan kötü çevirinin sonucudur. Ayrıca çok fazla gereksiz veri olduğunu da buldular; örneğin aynı makalenin farklı sitelerde birden fazla kopyası. Kötü verilerden kurtuldular ve eğitim verilerinde gereğinden fazla temsil edilmesini önlemek amacıyla gereksiz metni filtrelemek için araçlar kullandılar.
Son olarak ortaklar doğru veri kaynaklarını bulmaları gerektiğini biliyorlardı. Kitaplar ve belgeler genellikle blog gönderilerinden daha güvenilir bilgilere sahiptir. Öte yandan, bazı kitap ve belgeler, modellerinin kullanıcılarla etkileşimde taklit edilmesini istemedikleri resmi bir tarzda yazılmıştır.
Core42, özellikle taranan ve optik karakter tanıma (OCR) sistemi aracılığıyla çalıştırılan basılı materyallerden yeni veriler toplamak için büyük çaba harcadı. 10 kişilik bir ekibe Microsoft’un otomasyon araçları yardımcı oldu. Jackson, “Şu anda yaklaşık 20.000 kitap ve belge kullandık” dedi.
Ortaklar ayrıca özetleme ve çeviri gibi “aşağı yönlü görevler”deki eksiklikleri de fark ettiler. Jackson, “Özetlemenin ilk turda çok iyi yaptığımız bir iş olmadığını fark ettik, bu yüzden Jais-30B’deki bu özellikleri geliştirmek için çok fazla zaman ve çaba harcadık” dedi. “Çeviri de mükemmel değildi, bu yüzden daha büyük model için çeviriyi de ikiye katladık.”
Jais-30B, Cerebras CEO’su Andrew Feldman’a göre rekor bir süre olan sekiz haftadan kısa bir sürede eğitildi. Eğitimler, 64 adet Cerebras CS-2 tabanlı ve makine öğreniminin çok hızlı bir şekilde gerçekleştirilmesi için özel olarak tasarlanan Condor Galaxy (CG-1) üzerinde gerçekleştirildi. Cerebras ve Core42, donanımdan yararlanmak için dil modelinde değişiklikler yapabildi.
Feldman, “Yaptığımız şey çok güçlü bir trendi temsil ediyor” dedi. “İki şirketimiz birlikte olağanüstü bir hızda ve sekiz haftada modelimizin iki katından daha büyük bir boyutta öğrenmeyi başardı. Modelinizin doğruluğunu her sekiz haftada bir çift haneli rakamlara çıkarabilirseniz, çok büyük miktarda yapay zeka kapasitesi oluşturuyorsunuz.”
Jais-13B, ortakların ele almak istediği kullanım durumlarının yaklaşık yarısı için çok küçüktü ancak yeni model, işletmelerin ihtiyaç duyduğu derinlemesine yanıtları sağlayacak kadar güçlü. “Artık çok daha doğru özetleme, çok daha doğru çeviri ve genel olarak çok daha doğru içerik üretimi yapabiliyoruz. Soru-cevap etkileşimleri artık daha çok GPT-4’e benziyor” dedi Jackson.
“Jais-13B bir deneydi” diye ekledi. “Durumumuzu kanıtladık ve daha büyük bir modeli kullanmak için gereken geri bildirimi aldık. Bu, 30 milyar parametreli modelimizin yalnızca ilk sürümü. İleride başka yayınlarımız da olabilir.”
Diğer diller için modeller üzerinde çalışan kişiler konsorsiyumun yaptıklarıyla ilgilendiklerini ifade etti. Jackson, “Farklı diller için belirteçlerin nasıl oluşturulacağını biliyoruz” dedi. “Bu bilgiyi, bunu yapmak isteyen herkesle paylaşabiliriz. Yaptıklarımız İngilizce konuşulmayan bölgelerde yaşam kalitesini büyük ölçüde artırabilir.”