Dünyanın en gelişmiş Arapça LLM’si artık açık kaynak olarak mevcut


G42’nin Abu Dabi merkezli bir yan kuruluşu olan Inception, açık kaynağa yönelik bir Arapça büyük dil modeli (LLM) yayınladı. Jais adı verilen yeni model, karmaşıklığının ve hassasiyet derecesinin bir ölçüsü olan 13 milyar parametre kullanıyor. Parametreler bir dizi cebirsel denklemin katsayıları olarak düşünülebilir.

Öğrenme aşamasında parametrelerin değerleri eğitim verilerinden türetilir ve sinir ağının bir parçası olarak kaydedilir; bu daha sonra çıkarım aşamasında kullanılır. Çıkarım aşaması, modelin devreye alındığı aşamadır; kullanıcılardan soru ve komutların alınması ve yanıtların üretilmesi.

Dünya ölçeğinde Jais, 1,5 milyar parametreye sahip GPT-2 ile 175 milyar parametreye sahip GPT-3 arasında yer alan oldukça büyük bir modeldir. GPT-4, 1,7 trilyon parametreyle diğerlerinin çok ilerisindedir.

Jais nasıl geliştirildi?

Adını BAE’nin en yüksek dağı Jebel Jais’ten alan LLM, Cerebras Systems, Inception ve dünyanın yapay zekaya (AI) adanmış ilk lisansüstü araştırma üniversitesi olan Mohamed bin Zayed Yapay Zeka Üniversitesi (MBZUAI) tarafından geliştirildi. Jais, yakın zamanda G42 ve Cerebras tarafından duyurulan çoklu exaFLOP AI süper bilgisayarı Condor Galaxy üzerinde eğitim aldı.

Yüksek Lisans eğitimindeki zorluklardan biri girdi için yeterli metni elde etmektir. Bu, internetteki açık ara en yaygın dil olan İngilizce için nispeten kolaydır. Statista’ya göre Ocak 2023 itibarıyla web içeriğinin %58,8’i İngilizce iken, Rusça %5,3 ile açık ara ikinci sırada yer alıyor. Arapça metinler dünya çapındaki web içeriğinin yalnızca %0,9’unu oluşturmaktadır.

Cerebras Systems CEO’su ve kurucu ortağı Andrew Feldman, “Başımızı İngilizcenin ötesine kaldırmaya başladığımızda, yeterli veriye sahip olmamanın diğer diller için de sorun olduğunu gördük” diyor. “Bir dili konuşanların sayısı çok fazla olsa bile internetteki metin miktarı az olabiliyor. Bu, örneğin İspanyolca için geçerlidir. Bir kıtada İspanyolca konuşanlar var, ancak internetteki metin miktarı nispeten az.

“Bu aynı zamanda her biri yüz milyonlarca konuşmacıya sahip olan Hintçe ve Mandarin dili için de geçerli. Çin hükümeti bu sorunu çözmek için büyük miktarda zaman ve para harcamış olsa da, veriye aç bir yapay zeka algoritmasını beslemeye yetecek kadar Mandarin metni hâlâ mevcut değil.”

“Arapçayla ilgili başka zorluklar da var. Mevcut metin genellikle İngilizceden yetersiz bir çeviridir veya çok resmi olabilir. Arapça’da internetteki yazıların bir kısmı dini yazılar veya şiirlerdir; bu önemlidir, ancak bir chatbot oluşturmak istiyorsanız pek kullanışlı değildir. Konuşma tarzındaki dilin modern versiyonlarını bulmalısınız.”

Boşluğu kapatmak için, Jais ve diğer yapay zeka modellerini eğitmek için özel olarak 398 milyar kelimelik Arapça ve İngilizce veri kümesi geliştirildi. Yüksek Lisansın bazı yönleri diğer dillerden (bu durumda İngilizce) veriler kullanılarak eğitilebilir. Örneğin model, dilden bağımsız olarak içeriği ve aynı içeriğin özetlerini inceleyerek özetlemeyi öğrenebilir.

Arapçanın bir diğer zorluğu da lehçelerin sayısıdır. Inception’ın CEO’su Andrew Jackson, “Arap dünyasında medya dışında birbiriyle resmi Arapça konuşan iki kişi yok” diyor. “Lehçelerden birini kullanıyorlar. Mümkün olduğunca çok sayıda konuşma veri seti topluyoruz ve bunları jetonları modelimize tanıtmak için kullanıyoruz. Geniş bir farklı lehçe kümesine sahip olduğunuzda, modeli çıktı tarafında değiştirirsiniz, böylece bu sohbet botu Lübnan’da kullanıldığında yanıtın Lübnan lehçesinde verileceğine karar verebilir.”

Jais’in Arapça konuşan insanlar için önemi

Jackson, “G42’de her zaman cesur hedeflerimiz ve bunların peşinden gitme isteğimiz vardı” diyor. “Anlamlı girdiler sağlayarak yapay zekanın küresel gelişimine mümkün olduğunca katkıda bulunmaya çalışıyoruz.

“Gelecek on yıl içinde AGI’nin [artificial general intelligence] gerçeğe dönüşecek ve biz de buna katkıda bulunmak ve bunun güvenli bir şekilde yapıldığından emin olmak istiyoruz. Yapay zekanın hükümet, sağlık, enerji ve finans sektörleri de dahil olmak üzere bölge için önemli olan endüstrilerde çalıştığından emin olmak istiyoruz.”

Yeni Yüksek Lisans, bölgedeki önemli ihtiyaçlardan biri olan egemenlik kontrolüne yanıt veriyor. Yapay zeka gibi kritik bir teknoloji için hiç kimse dışarıdan yardım almak istemez. Jais, geliştiricilerin modeli indirip uygulamalarına entegre ettiği tamamen şirket içi bir yaklaşımı teşvik ediyor.

Bu doğuştan gelen egemenlik, dış kaynaklara bağımlılığı azaltır, Orta Doğu’daki kuruluşların modeli kendi altyapıları içinde çalıştırmalarına, kullanım üzerinde tam kontrol sahibi olmalarına ve modelde kendi amaçlarına göre ince ayar yapmalarına olanak tanır.

Jais, dünyada Arapça konuşan 400 milyondan fazla insana yapay zekanın güçlerine daha doğrudan erişim sağlıyor ve Yüksek Lisans, Abu Dabi’nin yapay zeka için dünya lideri bir merkez olma hedefinde ileri bir adımdır.

Inception, Arapça yapay zeka etrafında gelişen ekosistemi desteklemek ve özellikle bilimsel, akademik ve geliştirici toplulukları hedeflemek için Jais’i açık kaynak olarak yayınlamayı seçti. Şirket aynı zamanda ana yapay zekada yeterince temsil edilmeyen diğer dilleri anadili olarak konuşanlar için de örnek olmayı umuyor.

Birçok kuruluş halihazırda Jais’i kullanmaya başladı. Buna BAE Dışişleri Bakanlığı, BAE Sanayi ve İleri Teknoloji Bakanlığı, Abu Dabi Sağlık Bakanlığı, Abu Dabi Ulusal Petrol Şirketi (ADNOC), Etihad Havayolları ve e& dahildir. Bağımsız yazılım geliştiricileri de konuyla ilgilendi. Jais, yayınlandıktan sonraki bir gün içinde Hugging Face’ten binlerce kez indirilmişti.

Jackson, “Bu bizim için her şeyin sonu değil” diyor. “Tescilli veri setleri için temel modelimize ince ayar yapmak istiyoruz, böylece farklı sektörlerdeki şirketler bunu kendi özel ihtiyaçları için kullanabilirler.”



Source link