2019’da AI İsveç’teki bir grup araştırmacı, İsveç Yetkilileri için Dil modeli adlı bir proje için İsveç İnovasyon Ajansı’ndan (Vinnova) fon aldı. Amaç, öncelikli olarak kamu sektörü tarafından kullanılabilecek ve özel sektörün kullanımına sunulan dil modelleri üretmekti.
Dil modeli, işleme görevlerini çözmek için dili öğrenen bir makine öğrenimi modelidir. Temel bir dil modeli, büyük miktarda veri üzerinde eğitilmiş ve çok çeşitli dil işleme görevlerine uygulanabilecek genel kapasitelere sahip büyük bir örnektir. Sıfır vuruşlu öğrenme kapasiteleri denen şeye sahiptir, bu da modelin dilsel yeteneklerinin yeni görevleri çözmek için kullanılabileceği anlamına gelir.
İsveçli araştırmacılar zaten birkaç yıldır dil modelleri üzerinde çalışıyorlardı. Araştırmacılar çok erken bir tarihte, bu tür bir teknolojiyi toplumun hangi sektörlerinin en hızlı benimseyeceğini düşündüler. İsveç’te kamu sektörü olacağı fikrine vardılar çünkü İsveççe metin verilerinin en önde gelen kullanıcılarını burada buluyorsunuz ve özel sektördeki çoğu şirket İngilizce metin verilerine çok daha fazla güveniyor.
AI İsveç’te Doğal Dil Anlayışı (NLU) araştırma başkanı ve eski heavy metal gitaristi Magnus Sahlgren, “Üzerinde araştırma yapmak ve İsveç toplumunun ihtiyaçlarına uyacak şekilde değiştirmek için üzerinde çalışabileceğimiz modellere ihtiyacımız vardı” dedi. “Örneğin, Google’ın temel modellerine herkes erişemez. Bu, kendimizinkini inşa etmemizin en büyük nedenlerinden biri.”
Ancak dil modelleri oluşturmanın bir başka nedeni de egemenlik ile ilgilidir. Temel modeller, birçok dil uygulamasının temel bileşenleridir. Böylesine temel bir kaynak için özel sektöre çok fazla bağımlı olan bir ülke savunmasız olabilir – özellikle de özel şirketler İsveç dışındaysa. Araştırma ekibi bu açığı kapatmak için İsveççe için kendi modellerini geliştirmeye karar verdi.
Birlikte GPT-3 geldi
Projeden yaklaşık bir yıl sonra, doğal dil işleme (NLP) alanında büyük aksamalara neden olan GPT-3 piyasaya sürüldü. Bu, 175 milyar parametreyle dünyanın gördüğü en büyük dil modeliydi. Tüm makine öğrenimi modelleri, belirli bir girdi seti verildiğinde bir çıktı üretmek için değiştirilebilen, katsayıları veya ağırlıkları olan bir dizi doğrusal cebir denklemi olarak düşünülebilir. Bir modelde ayarlanabilecek ağırlıkların sayısına genellikle parametre sayısı denir.
Halihazırda dil modelleri üzerinde çalışmakta olan AI İsveç’teki araştırmacılar, GPT-3’ten ilham alarak, küçük bir ülkede GPT-3 gibi bir şeyi nasıl başarabileceklerini düşünmeye başladılar. Temel modellerin oluşturulmasına yardımcı olabilecek farklı kuruluşlardan oluşan bir konsorsiyum oluşturdular. Konsorsiyum, İsveç Araştırma Enstitüleri (RISE) ve Wallenberg AI, Otonom Sistemler ve Yazılım programını içeriyordu.
Konsorsiyum, Wallenberg ile işbirliği yaparak, yapay zeka sorunlarını çözmeye yardımcı olmak için özel olarak tasarlanmış İsveç süper bilgisayarı Berzelius’a erişim sağladı. Konsorsiyum, modellere güç sağlamak için donanım ve yazılım sağlayan NVIDIA ile de yakın işbirliği içinde çalışıyor.
Sahlgren, “Araştırma projemizin – ve şimdi konsorsiyumun – nihai hedefi, evde geliştirilen dil modellerinin İsveç’te değer sağlayıp sağlayamayacağını belirlemektir” dedi. “Olumsuz bir cevaba tamamen açığız. Temel modelleri oluşturmak için kaynaklarımızın çok sınırlı olduğu ortaya çıkabilir.”
Büyük bir proje yürütmenin zorlukları
Yeni hedef, ekibin büyük ölçekli projeleri nasıl yürüteceğini öğrenmesi gerektiği anlamına geliyordu. Ayrıca, temel bir dilsel temel oluşturmak için hangi tür verilerin kullanılacağına ve verilerin nasıl işleneceğine karar vermeleri gerekiyordu. Ve en önemlisi, erişebildikleri süper bilgisayarı en iyi şekilde nasıl kullanacaklarını bulmaları gerekiyordu.
Sahlgren, “Optimal bir modele ulaşmak için bilgisayar kaynaklarını en uygun şekilde kullanmak istiyoruz” dedi. “Bunu asla yapmadık ve başka kimse de yapmadı – İsveç dili için değil. Bu nedenle, yaparak öğrenmeliyiz, bu da birkaç kez tekrarlayacağımız ve modelimizin birden fazla versiyonunu üreteceğimiz anlamına gelir.
“126 milyon parametreden 40 milyar parametreye sahip en büyük modelimize kadar çeşitli boyutlarda eğitilmiş modellerimiz var. Model salt metin modelidir. Dünyanın diğer bölgelerindeki diğer gruplar, görüntü ve konuşma da dahil olmak üzere diğer yöntemleri entegre etmeye başlıyor.”
Linköping Üniversitesi’ndeki Berzelius, İsveç’teki açık ara en güçlü bilgisayar ve İsveç’te yapay zekaya ayrılmış tek süper bilgisayar. Yüksek talep nedeniyle, AI İsveç tam kümeye erişim elde edemiyor ve bunun yerine en büyük modelleri eğitmek için iki ila üç ay süren kümenin üçte birine erişim verildi.
Ancak İsveçli araştırmacılar için ana darboğaz veridir. Dünyadaki sınırlı sayıda konuşmacı nedeniyle, İsveççe’de çok fazla çevrimiçi metin yok. Araştırmacılar, İsveççe’nin Kuzey Cermen dil ailesindeki diğer dillere tipolojik olarak benzemesinden yararlanarak bu sorunu çözmeye çalıştılar. İsveççe, Norveççe, Danca ve İzlandaca veri alarak, çevrimiçi açık veri koleksiyonlarında bulunabilecek oldukça büyük miktarda veriye erişimleri var.
Sahlgren, “Örneğin, ortak taramanın türevlerini ve Norveç Devasa Corpus ve OPUS gibi diğer yayınlanmış veri kümelerini kullandık” dedi. “Tüm bu veri setlerini topladık ve ardından bazı yüksek kaliteli İngilizce veri setlerini de aldık. Bunu yaptık çünkü öğrenme etkilerinin İngilizce verilerinden İsveççe ve Norveç dillerine aktarılmasından faydalanıp yararlanamayacağımızı görmek istiyoruz. Modellerimizde bu tür etkileri şimdiden görmeye başlıyoruz.”
Transfer öğrenimine bir örnek, belgeleri ve belgelerin özetlerini içeren İngilizce verileri kullanarak belgeleri özetlemek için AI İsveç modellerini eğitmektir. İsveçli araştırmacılar, modellerinin metni özetlemenin genel yeterliliğini İngilizce verilerden öğreneceğini umuyorlar.
Aktarım etkilerinin başka bir örneği, çevirinin genel görevi olan eğitim modelleridir. Sahlgren, “Birkaç dil çifti üzerinde eğitim verebilirsiniz ve ardından makine çevirisi sisteminiz, herhangi bir eğitim verisine sahip olmadığınız çiftler arasında birdenbire çeviri yapabilir,” dedi. “Bu, sahada kimsenin gerçekten anlamadığı yerleşik bir etki.
“Bir tür denetimli öğrenme kullanıyoruz. Tek eğitim amacı, bir sonraki kelimeyi tahmin etmeye çalışmaktır. Onu tüm bu metinle besliyoruz ve gördüğü her kelime için bir sonraki kelimeyi tahmin etmeye çalışıyor. Bizim durumumuzda, bağlamda sahip olabileceği birkaç bin simgeye sahip olduğunu düşündüğüm belirli bir bağlam penceresi var. Bir sonraki kelimeyi tahmin etmeye çalıştığında bu oldukça uzun bir bağlam.”
Diğer diller ve dil aileleri üzerine eğitim modelleri için Avrupa’nın diğer bölgelerinde girişimler vardır. Tüm projeler, verilere erişme, verileri aldıktan sonra işleme ve modeli başlatma dahil olmak üzere aynı zorluklara sahiptir.
AI İsveç, modelini sıfırdan eğitiyor. Araştırmacılar, kuruluşun kendi verilerini kullanarak tamamen boş bir model eğitiyor, ancak mevcut bir modeli de kullanabilir ve ardından kendi özel verilerinizle eğitime devam edebilirsiniz – örneğin, bir İskandinav modeli olan AI İsveç’in modeli başlangıç noktası olarak kullanılabilir özellikle İzlandalı bir model yetiştirmek.
Konsorsiyum, modelini altı ay önce eğitmeye başladı ve şimdiye kadar Hugging Face’te bulunan beş versiyon üretti. Ama orada bitmiyor. Çok modlu bir dil modelini içerecek olan gelecek birkaç nesil dil modeli için yeni mimarileri ve yeni fikirleri var.
Bir yatırım meselesi
Şu an Sahlgren’in gitarının tozunu atması ve heavy metal grubunu yeniden bir araya getirmesi için iyi bir zaman değil. NLP’de şu anda ve yakın gelecekte yapılacak çok şey var. Bu, büyük teknoloji oyuncularının ona ne kadar yatırım yaptığıyla kanıtlanıyor.
Örneğin Microsoft, ChatGPT’nin üreticisi Open AI’ye 10 milyar dolar yatırım yapıyor ve şimdiden Office Suite ve Teams gibi üretim sistemlerine GPT işlevselliğini koyuyor. Microsoft ve diğer büyük teknoloji şirketleri, ticari değeri gördükleri için NLP’ye bu kadar para yatırıyorlar.
İsveç benzer bir yaklaşımı deniyor, ancak daha küçük ölçekte. İsveççe konuşanların sayısı, İngilizce konuşanların sayısından çok daha azdır ve İsveç’te dil modellerini eğitmek ve çalıştırmak için mevcut bilgi işlem gücü de çok daha azdır. Ancak araştırmacılar, modeli uygulama geliştiricilerin kullanımına sunmanın yolları üzerinde şimdiden çalışıyor.
Sahlgren, “Şu anda modelleri açık bir şekilde yayınladık ve mevcut modeller, güçlü GPU’lara erişim sağlanarak yerel olarak barındırılabiliyor” dedi. “Çoğu kuruluş muhtemelen bu kaynağa sahip değil. Zamanla daha da zorlaşacak. En büyük modeller için, çalıştırmak için önemli miktarda donanım gerektirecektir.”
Çalışan dil modelleri, onları eğitmek için gerekenden daha az bilgi işlem gücü gerektirir, ancak yine de önemli miktarda işlem gerektirir – örneğin, Berzelius’ta iki veya üç düğüm. AI İsveç, İsveç Vakfı modellerini barındırmak için bir İsveç ulusal altyapısı oluşturma fikrini araştırıyor. Kamu kaynaklarının kullanılması, en azından şimdilik, egemenliğin desteklenmesine yardımcı olacaktır.
Sahlgren, “Bu modelleri İsveç’te barındırmak için henüz iyi bir çözüm bulamadık” dedi. “Buna yatırım yapabilecek büyük bir oyuncuya ihtiyacınız var. Çok büyük modelleri çalıştırmak ve bunlara hizmet etmek için özel bir veri merkezi gerektirecektir. Makine öğrenimi operasyonlarına ve süper bilgisayarlarda çalışan personele ihtiyacınız var ve şu anda İsveç’te bunu yapabilecek bir kuruluş yok.”
Dil modelleri ne kadar akıllı?
Genel halk ChatGPT’nin gücünü keşfettikçe, dil modellerinin gerçekte ne kadar akıllı olduğu sorusu sıklıkla ortaya çıkar. Sahlgren, “Biraz tuhaf olabilirim,” dedi, “ama bence dil modelleri gerçekten dili anlıyor. Demek istediğim, dil modellerinin en azından görünüşte bizim yaptığımız gibi dilsel sinyali işleyebildiğidir.
“Mevcut dil modelleri her türlü dil işleme görevini yerine getirebilir. Şu anda bu modelleri değerlendirmeye çalıştığımızda, kullandığımız test setlerinde insanlarla aynı seviyedeler ve ayrıca yaratıcı olabilmeleri, daha önce hiç üretilmemiş metinler üretebilmeleri gibi ortaya çıkan fenomenler sergiliyorlar.”
Fikir tam olarak yeni değil. 1960’larda, psikanalist kılığına girmesi için Eliza adlı bir model geliştirildi. Ancak Eliza’nın yapabileceği tek bir şey vardı – psikiyatrist olarak hareket etmek. Bu, 1960’larda kısa bir süre için çok fazla ilgi uyandırdı, ancak insanlar hızla gerçek insanlığın eksikliğini anladılar.
Doğal dil işleme ve doğal dil anlama, 1960’lardan bu yana ışık yılı oldu ve değişim hızı son zamanlarda arttı. Stanford Business School araştırmacısı Michal Kosinski, Mart 2023’te provokatif bir “çalışma raporu” yayınladı ve son yıllarda GPT’nin birbirini izleyen sürümleriyle bir dizi çığır açtığını iddia etti.
Buluşlar, zihin kuramı testleri ile ölçülebilir – bir kişinin (veya makinenin), diğer insanların (veya makinelerin) kendilerinden farklı bir zihniyete sahip olduğunu fark edip etmediğini gösteren testler. kağıt denir Zihin teorisi, büyük dil modellerinde kendiliğinden ortaya çıkmış olabilir..
Kosinski’ye göre, 2020’den önce dil modelleri, zihin teorisi görevlerini çözme konusunda neredeyse hiç yetenek göstermedi, ancak birbirini izleyen modeller daha iyi puan aldı. En son sürüm olan GPT-4, Mart 2023’te piyasaya sürüldü. GPT-4, yedi yaşındaki bir çocuğun seviyesindeki zihin teorisi görevlerinin %95’ini çözdü.