Finlandiya’daki Turku Üniversitesi, çeşitli Avrupa dillerinde yepyeni büyük dil modelleri oluşturmak için işbirliği yapan Avrupa’daki 10 üniversite araştırma laboratuvarından biridir. Grup, algoritmaları Avrupa’nın en hızlı ve dünyanın üçüncü en hızlı bilgisayarı olan LUMI süper bilgisayarında eğitmeyi seçti.
Büyük Birleşik Modern Altyapı anlamına gelen LUMI, AMD merkezi işlem birimleri (CPU’lar) ve grafik işleme birimleri (GPU’lar) tarafından desteklenmektedir. Turku Üniversitesi, temel yazılımların LUMI’ye taşınması konusunda yardım almak için AMD ile iletişime geçti. LUMI, Finlandiya’nın Kajaani kentindeki CSC veri merkezinde barındırıldığı için CSC katıldı.
CSC’de yapay zeka (AI) ve veri analitiği yöneticisi Aleksi Kallio, “Artık AMD, CSC ve Turku Üniversitesi, büyük veri kümeleri kullanarak GPT benzeri dil modellerini büyük ölçekte eğitmek için LUMI’yi kullanma konusunda işbirliği yapıyor” dedi. Proje, diğer bazı Avrupa dillerinin yanı sıra Fince’yi de içeriyor.
Büyük dil modelleri, kullanıcılara diyalog tabanlı bir arayüz sunan sistemlerde standart bileşenler haline geliyor. İnsanların metin ve konuşma yoluyla iletişim kurmasına izin veriyorlar. Büyük bir dil modelinin birincil kullanıcıları, teknolojiyi benimseyen ve kendilerini hızla OpenAI gibi kuruluşlara bağımlı bulan şirketlerdir. Hükümetler ayrıca geniş dil modellerini kullanmakla ilgileniyorlar ve diğer kuruluşlara, özellikle de yabancı kuruluşlara bağımlı hale gelme konusunda daha da temkinli davranıyorlar. Ancak şirketler ve hükümetler kendi ortamlarında kendi modellerini geliştirmeyi ne kadar çok isteseler de, üstesinden gelinmesi gereken çok fazla şey var.
Büyük bir dil modeli geliştirmek, çok fazla bilgi işlem gücü gerektirir. Başlangıç olarak, modeller çok büyük; on ila yüz milyarlarca birbirine bağlı parametre kullanıyor. Tüm değişkenleri çözmek, çok fazla ayar ve çok fazla veri gerektirir. Sonra teknik olmayan sorunlar var. Gelişmekte olan herhangi bir temel teknolojide olduğu gibi, jeopolitik ve sanayi politikaları üzerindeki etkisi hakkında yeni sorular ortaya çıkıyor. Modelleri kim kontrol ediyor? Nasıl eğitilirler? Onları eğitmek için kullanılan verileri kim kontrol ediyor?
Kallio, “Büyük dil modelleri bir kez konuşlandırıldığında, kara kutular haline geliyorlar ve anlaşılması neredeyse imkansız” dedi. “Bu nedenle, modeller inşa edilirken mümkün olduğu kadar çok görünürlüğe sahip olmak önemlidir. Ve bu nedenle Finlandiya’nın Finlandiya’da eğitilmiş kendi büyük dil modeline ihtiyacı var. İşleri dengeli ve demokratik tutmak için, modeli geliştirmek için sadece birkaç şirkete bağlı kalmamamız önemlidir. Bunun kolektif bir çaba olmasına ihtiyacımız var.
“Şu anda, bir dil algoritması eğitmenin tek yolu, çok fazla veriye – hemen hemen tüm internete – ve ardından tüm bu verilerle büyük bir modeli eğitmek için muazzam bir bilgi işlem gücüne sahip olmaktır” dedi. “Bu modellerin nasıl daha veri verimli hale getirileceği, araştırmalarda sıcak bir konudur. Ancak şu an için, Fince gibi küçük diller için zorlayıcı olan çok fazla eğitim verisine ihtiyacınız olduğu gerçeğini aşmanın bir yolu yok.”
Belirli bir dilde büyük miktarda kullanılabilir metne duyulan ihtiyaç, büyük dil modellerini eğitmek için süper bilgi işlem kaynaklarına duyulan ihtiyaçla birlikte, dünyadaki çoğu ülkenin ortaya çıkan bu teknolojiyle ilgili olarak kendi kendine yeterli hale gelmesini çok zorlaştırıyor.
Bilgi işlem gücü için artan talepler
Güçlü süper bilgisayar ve farklı oyuncular arasındaki işbirliği, Finlandiya’yı daha fazla dil için büyük dil modellerinin açık gelişimi için doğal bir başlangıç yeri haline getiriyor.
Kallio, “LUMI, yapay zeka uygulamaları için makine öğrenimine çok uygun olan AMD MI250X GPU’ları kullanıyor” dedi. “Yalnızca güçlü değiller, aynı zamanda gerekli olan çok fazla belleğe sahipler. Bu sinir ağlarının derinlemesine öğrenilmesi, çok büyük matrisler üzerinde oldukça basit birçok hesaplamayı içerir.”
Ancak LUMI ayrıca başka işlem birimleri de kullanır – CPU’lar ve özel çipler. Verileri ve komutları farklı bileşenler arasında iletmek için sistemin ayrıca olağanüstü hızlı ağlara ihtiyacı vardır. Kallio, “Fikir, farklı bilgi işlem yeteneklerinin yanı sıra farklı depolama yeteneklerinden oluşan bu zengin ortama sahip olmanızdır” dedi. “O zaman, verileri kolayca hareket ettirebilmeniz ve belirli bir görev için her zaman en uygun birimleri kullanabilmeniz için hızlı ara bağlantıya sahipsiniz.”
Birkaç yıl önce, kişisel bir masaüstü bilgisayarda tek bir GPU birimi ile makine öğrenimi araştırması yapılabiliyordu. Bu, güvenilir sonuçlar yaratmak için yeterliydi. Ancak modern algoritmalar o kadar karmaşıktır ki, onları eğitmek için haftalarca, hatta aylarca birlikte çalışan binlerce GPU gerekir. Ayrıca, olağanüstü bilgi işlem gücü gerektiren tek aşama eğitim değildir. Bir algoritmayı eğitmek, algoritmayı kullanmaktan çok daha fazla bilgi işlem gerektirirken, mevcut büyük dil modelleri kullanım aşaması için hala büyük sunuculara ihtiyaç duyar.
Mevcut son teknoloji modeller, birkaç yıl önce hiçbir bilgisayarın üstesinden gelemeyeceği yüz milyarlarca parametreye dayanmaktadır. Görünürde tırmanışın sonu yok – araştırmacılar yeni algoritmalar geliştirdikçe, onları eğitmek için daha karmaşık bilgi işlem gerekiyor. İhtiyaç duyulan şey, algoritmaların kendisinde ilerlemedir, böylece modeller normal sunucularda eğitilebilir ve mobil cihazlarda kullanılabilir.
Kallio, “İyi tarafı, yeni fikirlerle gelen tonlarca girişim var ve bunlardan bazılarının uçup gitmesi mümkün” dedi. “Bugün video oyunları için geliştirilmiş grafik işleme birimleri üzerinde bilimsel hesaplamalar yaptığımızı unutmayın. 15 yıl önce kimse bugün olacağımızı tahmin edemezdi. Geleceğe baktığımızda, bundan 15 yıl sonra makine öğrenimi ile neler yapacağımızı kim bilebilir.”