Küçük dil modelleri için ilk günler ve kenarda yapay zeka


Büyük dil modelleri (LLM’ler), “insan” görünen ve hatta hisseden sorgulara cevap oluşturmak için çok miktarda veri ve bilgi işlem gücü kullanır. LLM’ler ayrıca bir dizi diğer görev arasında güvenlik ihlalleri için müzik, resim veya video yazabilir, kod yazabilir ve tarama yapabilir.

Bu yetenek, üretken yapay zekanın (GENAI) ve yeni nesil dijital asistan ve “sohbet botları” nın hızlı bir şekilde benimsenmesine yol açtı. Genai diğer teknolojilerden daha hızlı büyüdü. Yatırım bankası UBS’ye göre, en iyi bilinen LLM olan Chatgpt sadece iki ay içinde 100 milyon kullanıcıya ulaştı. Cep telefonunun bu ölçeğe ulaşması 16 yıl sürdü.

Ancak LLMS, Genai’yi çalıştırmanın tek yolu değildir. Genellikle 10 ila 15 milyar parametre kullanımı olarak tanımlanan küçük dil modelleri (SLM’ler) hem ticari işletmelerden hem de kamu sektöründen ilgi çekiyor.

Küçük veya daha küçük dil modelleri, LLMS’den daha uygun maliyetli olmalı ve daha fazla gizlilik ve-potansiyel olarak-güvenlik sunmalıdır. LLM’ler geniş kapasiteleri nedeniyle popüler hale gelse de, SLM’ler en azından spesifik veya sıkı tanımlanmış görevler için LLM’lerden daha iyi performans gösterebilir.

Aynı zamanda, SLM’ler LLM’lerin bazı dezavantajlarından kaçınır. Bunlar, şirket içi veya bulutta talep ettikleri geniş kaynakları ve bunların ilişkili çevresel etkilerini, “gittikçe ödeme” hizmetinin montaj maliyetlerini ve hassas bilgileri üçüncü taraf bulut altyapısına taşıma ile ilişkili riskleri içerir.

Daha azı daha fazlası

SLM’ler de daha güçlü hale geliyor ve bazı kullanım durumlarında LLM’lere rakip olabilir. Bu, kuruluşların SLM’leri daha az güçlü altyapı üzerinde çalıştırmasına izin veriyor – bazı modeller telefonlar ve tabletler de dahil olmak üzere kişisel cihazlarda bile çalışabilir.

Gartner’daki AI strateji ekibinin bir üyesi olan Birgi Tamersoy, “Küçük dil alanında küçük görüyoruz” diyor. “Uygulama perspektifinden bakıldığında, hala 10 ila 15 milyar aralığını küçük görüyoruz ve orta sınıf bir kategori var.

“Ama aynı zamanda, bir milyar parametre modeli ve bir milyar parametreden daha az olan alt bölümler görüyoruz. Yeteneğe ihtiyacınız olmayabilir [of an LLM]ve model boyutunu azaltırken, görev uzmanlığından yararlanırsınız. ”

Referans olarak, ChatGPT 4.0’ın yaklaşık 1.8 trilyon parametre çalıştırdığı tahmin edilmektedir.

Tamersoy, Ind dillerini, akıl yürütmeyi veya vizyon ve ses işlemeyi ele almak için ortaya çıkan daha küçük, uzman modeller görüyor. Ancak, sağlık hizmetlerinde ve düzenlemelerin bulut tabanlı bir LLM kullanmayı zorlaştırdığı diğer alanlarda da uygulamalar görüyor: “Bir hastanede, onu orada bir makinede çalıştırmanıza izin veriyor.”

SLM Avantajları

Başka bir ayrım, LLM’lerin halka açık bilgiler konusunda eğitilmesidir. SLM’ler özel ve genellikle hassas veriler üzerinde eğitilebilir. Verilerin gizli olmadığı durumlarda bile, özel bir veri kaynağına sahip bir SLM kullanmak bazı hataları veya halüsinasyonları önler, bu da en iyi LLM’leri bile etkileyebilir.

“Küçük bir dil modeli için, belirli bir bilgi alanını emmek ve öğrenmek için tasarlanmıştır,” diyor teknoloji danışmanlık şirketi Hexaware’den CTO.

“Birisi Kuzey Amerika’daki yasal normların yorumlanmasını istiyorsa, chatgpt’e gidebilirlerse, ancak ABD yerine size Kanada veya Meksika’dan bilgi verebilir. Ancak küçük bir temel modeliniz varsa ve çok özel olarak eğitirseniz, doğru veri kümesiyle yanıt verecektir çünkü başka bir şey bilmiyor.”

Daha sınırlı bir veri setinde eğitilmiş bir modelin, LLMS’ye atfedilen belirsiz ve bazen utanç verici sonuçları üretme olasılığı daha düşüktür.

Performans ve verimlilik SLM’yi de destekleyebilir. Örneğin Microsoft, Phi-1 transformatör tabanlı modelini yüksek düzeyde doğrulukla Python kodunu yazmak için eğitti-bazı tahminlere göre, 25 kat daha iyiydi.

Microsoft, Phi serisini büyük dil modelleri olarak ifade etmesine rağmen, PHI-1 sadece 1.3 milyar parametre kullandı. Microsoft, en son Phi-3 modellerinin LLMS’nin boyutlarından iki kez daha iyi performans gösterdiğini söylüyor. Çin merkezli LLM Deepseek, bazı önlemlerle daha küçük bir dil modelidir. Araştırmacılar bunun 70 milyar parametreye sahip olduğuna inanıyor, ancak Deepseek bir seferde sadece 37 milyar kullanıyor.

Memgraph’ın kurucu ortağı Dominik Tomicevik, “Bu Pareto prensibi, işin% 20’si için kazancın% 80’i” diyor. “Kamu verileriniz varsa, büyük bir dil modeline büyük bir dil modeline yaşamın farklı farklı alanlarında sorabilirsiniz. Bu bir tür kişisel asistan.

“Ancak işletme içindeki ilginç uygulamaların çoğu alan adı açısından gerçekten kısıtlanmıştır ve modelin tüm Shakespeare’i bilmesi gerekmez. Belirli bir amaç için uygunsa modelleri çok daha verimli hale getirebilirsiniz.”

Küçük dil modellerine olan ilgiyi yönlendiren bir diğer faktör de daha düşük maliyettir. Çoğu LLM, gittikçe ödeme, bulut tabanlı bir model üzerinde çalışır ve kullanıcılar, gönderilen veya alınan jeton (birkaç karakter) başına ücretlendirilir. LLM kullanımı arttıkça, kuruluş tarafından ödenen ücretler de artar. Ve eğer bu kullanım iş süreçlerine bağlı değilse, CIO’ların para için değer olup olmadığını belirlemek zor olabilir.

Daha küçük dil modelleri ile, yerel donanımda çalışma seçeneği bir maliyet kontrolü ölçüsü getirir. Ön maliyetler sermaye harcaması, geliştirme ve eğitimdir. Ancak model oluşturulduktan sonra, kullanım nedeniyle önemli maliyet artışları olmamalıdır.

PA Consulting’de veri ve analiz uzmanı Gianluca Barletta, “Maliyet değerlendirmesine ihtiyaç var. LLM’ler SLM’lerden daha maliyetli olma eğilimindedir” diyor. LLM’lerin daha küçük modellerle birlikte çalışmasıyla bir seçenek karışımını görmeyi bekliyor.

“SLMS üzerindeki deney gerçekten ihtiyaç duydukları hesaplama gücünün etrafında, bu da bir LLM’den çok daha az. [internet of things] Cihaz, AI özellikli bir TV veya hesaplama gücü olarak bir akıllı telefon çok daha az. ”

SLM’leri kenarda dağıtmak

Yapay zekayı kullanan bir yazılım tedarik zinciri tedarikçisi olan Jfrog’un baş mimarı Tal Zarfati kabul ediyor. Ancak Zarfati, bir veri merkezinde veya özel bulut altyapısında çalışan daha küçük modeller ile bir kenar cihazında çalışanlar arasında bir ayrım yapar. Bu, hem kişisel cihazları hem de güvenlik cihazları ve güvenlik duvarları gibi daha uzman ekipmanları içerir.

Zarfati, “Kurumsal müşterilerle küçük dil modellerini tartışmaktan benim deneyimim, bu modeli dahili olarak çalıştırabilecekleri ve barındırılan büyük bir dil modeline benzer bir deneyim elde edip edemeyecekleri” diyor Zarfati. “Daha küçük Llama modelleri gibi milyonlarca parametreli modellerden bahsederken, ChatGPT4.5’e kıyasla çok küçük, ancak yine de kenar cihazlarında tam olarak çalışacak kadar küçük değiller.”

Bununla birlikte, Moore yasası SLMS’yi kenara itiyor: “Daha küçük modeller bir organizasyon tarafından dahili olarak barındırılabilir ve en küçüğü kenar cihazlarında çalışabilir, ancak ‘küçük’ tanımı muhtemelen zaman geçtikçe daha büyük olacak.”

Donanım tedarikçileri, ürünlerine sinirsel işleme birimleri (NPU) ekleyerek masaüstü ve dizüstü bilgisayarlar da dahil olmak üzere “AI’ye hazır” cihazlara yatırım yapıyorlar. Gartner’ın Tamersoy’un belirttiği gibi, Apple gibi şirketlerin bir dizi uzman AI modelinde patentleri var; “Bu algoritmaların bazılarını buluta gitmeden cihazın kendisinde çalıştırabilmenin mobil tarafında bazı örnekler görüyoruz.”

Bu, hem verileri korumak için düzenleyici ihtiyaçlar hem de bağlantı sorunlarını ve gecikmeyi en aza indirmek için verilere mümkün olduğunca yakın işlemin gerçekleştirilmesi gereksiniminden kaynaklanmaktadır. Bu yaklaşım, Yaşam Bilimleri verilerine odaklanan Elsevier’in bir bölümü olan SciBite tarafından benimsenmiştir.

Tamersoy, “İlaç keşif süreci boyunca üretken AI’ya çok fazla odaklanıyoruz. LLM’ler ve SLM’ler ve makine öğrenimi hakkında konuşuyoruz” diyor.

“Hangi senaryoda bir SLM kullanmak istersiniz? Tanımlayabileceğiniz belirli bir sorun olduğunu bilmek istersiniz. Eğer ağır bir akıl yürütmenin ve bağlamı anlamaya ihtiyaç duyulan geniş, daha karmaşık bir görevse, belki de bir LLM’ye bağlı kalacağınız yerdir.

“Belirli bir sorununuz varsa ve modeli eğitmek için iyi verileriniz varsa, gizliliğin önemli olduğu ve potansiyel olarak verimliliğin doğruluktan daha önemli olduğu, işte bir SLM’ye bakacağınız daha ucuz olmanız gerekir.” Tamersoy, Moleküler Mülk Tahmini gibi erken aşama Ar -Ge’de kullanılan daha küçük modellerin düzenleyici gereksinimleri analiz etmeye kadar görüyor.

PA Consulting’de firma, düzenlemelerden haberdar olmalarına yardımcı olmak için Sellafield nükleer işleme sitesi ile çalıştı.

Barletta, “İdari yükü azaltmalarına yardımcı olacak küçük bir dil modeli oluşturduk” diyor. “Dikkate alınması gereken sürekli düzenleyici değişiklikler var. Bunu haftalardan dakikalara azaltmak için bir model oluşturduk. Model, hangi değişikliklerin ilgili olduğunu ve hangi belgelerin etkilendiğini belirler ve mühendislere değerlendirilecek bir şey verir. Sınırlı veri setleriyle belirli bir kullanım durumunun klasik bir örneğidir.”

Cihazlar güç olarak büyüdükçe ve SLM’ler daha verimli hale geldikçe, eğilim daha güçlü modelleri son kullanıcıya yaklaştırmaktır.

“Bu gelişen bir alan,” diyor Hexaware’den Jith M. “İki yıl önce, avucumun büyüklüğünde bir ayak izinde 70 milyar parametre modeli çalıştırabileceğime inanmazdım … Kişisel cihazların AI’yı hızlandırması için NPU’lar olacak. Chips, yerel modelleri çok hızlı çalıştırmamıza izin verecek. Tel hızında kararlar alabileceksiniz.”



Source link