Arama motorlarına ve öneri algoritmalarına alternatif olarak büyük dil modellerinin (LLMS) kullanılması artmaktadır, ancak erken araştırmalar, bu modellerin ürettiği sonuçlarda hala yüksek derecede tutarsızlık ve önyargı olduğunu göstermektedir. LLM’lerin karar verme seçimlerimizde daha büyük bir rol oynadığı için bunun gerçek dünya sonuçları vardır.
Algoritmik önerileri anlamak zordur. Geçmişte, arama motorlarının sonuçlarını anlamaya (ve oyun oynamaya) adanmış tüm endüstriler vardı – ancak çevrimiçi önerilerimize girenlerin karmaşıklığı seviyesi birkaç yıl içinde birkaç kez arttı. LLM’ler için büyük kullanım durumları çeşitliliği, bireysel uygulamaların denetimlerini önyargı ve yanlışlıklarla mücadelede hayati önem taşımıştır.
Bilim adamları, hükümetler ve sivil toplum, bu modellerin ne tükürdüğünü anlamak için uğraşıyor. Viyana’daki Karmaşıklık Bilim Merkezi’ndeki bir grup araştırmacı, özellikle bu modellerin kullanıldığı bir alana bakıyor: bilimsel uzmanların tanımlanması. Özellikle, bu araştırmacılar bu modeller tarafından hangi bilim adamlarının önerildikleri ve hangisi olmayanlarla ilgileniyorlardı.
Proje üzerinde çalışan bir bilgisayar bilimcisi olan Lisette Espín-Noboa, büyük LLM’ler piyasaya çıkmadan önce bunu araştırıyordu: “2021’de bir atölye düzenliyordum ve bir açılış konuşmacısı listesi bulmak istedim.” İlk olarak, bilim adamlarının açık erişimli bir veritabanı olan Google Akademik’e gitti. “[Google Scholar] Onları alıntılarla sıralayın – ancak birkaç nedenden dolayı alıntılar önyargılı. ”
Bu, erkek bilim adamlarının sayfalarında ve sayfalarında trol yapmak anlamına geliyordu. Bazı bilim alanları diğerlerinden daha popülerdir, araştırmacılar sadece disiplinlerinin büyüklüğü nedeniyle daha fazla etkiye sahiptir. Başka bir mesele, yaşlı bilim adamlarının – ve daha eski araştırma parçalarının – doğal olarak bulgularının yeniliklerinden ziyade daha uzun süredir daha fazla alıntıya sahip olacağıdır.
“Genellikle erkeklere karşı önyargılıdır, ”diye belirtiyor Espín-Noboa. Daha fazla kadın mesleğe girmiş olsa bile, çoğu bilimsel disiplin onlarca yıldır erkek egemendir.
Karmaşıklık Science Hub’ın bir başka araştırmacısı olan Daniele Barolo bunu Matta etkisinin bir örneği olarak tanımlıyor. “Yazarları yalnızca alıntı sayılarına göre sıralarsanız, okunması ve bu nedenle alıntılanması daha olasıdır ve bu bir takviye döngüsü yaratacaktır” diye açıklıyor. Başka bir deyişle, zenginler zenginleşir.
Espín-Noboa devam ediyor: “Sonra düşündüm, neden LLMS kullanmıyorum? ” Bu araçlar, aren olan bilim adamlarını da dahil ederek boşlukları doldurabilir.‘Google Akademik’te.
Ama önce, bunların bir gelişme olup olmadığını anlamaları gerekirdi. “Bu denetimleri yapmaya başladık çünkü insanlar hakkında ne kadar bildiklerini bilmek istedik, [and] Eğer erkeklere karşı önyargılı olsaydı, ”diyor Espín-Noboa.
Denetleme
LLMS tarafından çeşitli hatlar boyunca verilen önerileri test edecek ve taleplerini Amerikan Fizik Derneği Dergisi’nde yayınlanan bilim adamlarına daraltacak bir deney hazırladılar. Bu LLMS’den, belirli alanlarda en önemlileri gibi çeşitli önerilerden veya belirli zaman dilimlerinden uzmanları tanımlamalarını istediler.
Yapamazken‘t Bilim adamının mutlak etkisi için test – böyle “Ground gerçeği ”bunun için var – deney bazı ilginç bulguları ortaya çıkardı. Şu anda bir ön baskı olarak mevcut olan makaleleri, Asyalı bilim adamlarının LLMS tarafından sağlanan önerilerde önemli ölçüde yeterince temsil edilmediğini ve kadın yazarlara karşı mevcut önyargıların sıklıkla çoğaltıldığını gösteriyor.
Ayrıntılı talimatlara rağmen, bazı durumlarda bu modeller, özellikle büyük öneri listeleri istendiğinde bilim adamlarının isimlerini halüsinasyon yapacak ve her zaman değişen uzmanlık alanları arasında ayrım yapamayacaktı.
“LLM’ler veritabanları kadar doğrudan görülemez, çünkü bunlar dilsel modellerdir ”diyor Barolo.
Bir test, LLM’yi bir bilim adamı adıyla istemek ve benzer bir akademik profilden birini istemekti – “İstatistiksel ikiz ”. Ama bunu yaptıklarında, “Sadece benzer bir alanda çalışan bilim adamları değil, aynı zamanda benzer görünümlü bir isme sahip insanlar da önerildi ”diye ekliyor Barolo.
Tüm deneylerde olduğu gibi, belirli sınırlamalar vardır: Bir başlangıç için bu çalışma sadece açık ağırlık modellerinde gerçekleştirilmiştir. Tam kaynaklı modeller kadar olmasa da, bunlar bir dereceye kadar şeffaflığa sahiptir. Kullanıcılar belirli parametreleri ayarlayabilir ve çıkışlarına ince ayar yapmak için kullanılan algoritmaların yapısını değiştirebilirler. Buna karşılık, en büyük temel modellerin çoğu, minimum şeffaflık ve özelleştirme fırsatları ile kapalı ağırlıklı modellerdir.
Ancak açık ağırlık modelleri bile sorunlara karşı geliyor. “Eğitim sürecinin nasıl yürütüldüğünü ve hangi eğitim verilerinin kullanıldığını tam olarak bilmiyorsunuz ”diyor Barolo.
Araştırma meta versiyonlarında gerçekleştirildi‘S lama modelleri, google‘S Gemma (amiral gemisi Gemini’den daha hafif bir model) ve Mistral’dan bir model. Bunların her biri daha yeni modeller tarafından yerini aldı – akademik boru hattı endüstri kadar hızlı hareket edemediğinden, LLMS üzerinde araştırma yapmak için çok yıllık bir sorun.
Araştırmanın kendisini yürütmek için gereken sürenin yanı sıra, makaleler aylar veya yıllar boyunca gözden geçirilebilir. Bunun da ötesinde, şeffaflık eksikliği ve bu modellerin sürekli değişen doğası, sonuçların yeniden üretilmesinde zorluklar yaratabilir, bu da bilimsel süreçte önemli bir adımdır.
Bir gelişme mi?
ESPín-Noboa daha önce daha düşük teknoloji sıralama algoritmalarını denetlemede çalışmıştı. 2022’de PageRank’ın etkilerini analiz eden bir makale yayınladı – Google’a 1990’ların sonlarında tartışmasız büyük atılımını veren algoritma. O zamandan beri LinkedIn, Twitter ve Google Akademik tarafından kullanıldı.
Pagerank, bir öğenin bir ağdaki sahip olduğu bağlantı sayısına göre bir hesaplama yapmak için tasarlanmıştır. Web sayfaları söz konusu olduğunda, bu, belirli bir siteye kaç web sitesinin bağlantı kurabilir; Ya da akademisyenler için, ortak yazarlıklara dayanan benzer bir hesaplama yapabilir.
Spin-noboa‘S araştırması, algoritmanın kendi sorunları olduğunu göstermektedir – azınlık gruplarını dezavantajlı olabilir. Buna rağmen, Pagerank hala temel olarak önerilerde tasarlanmıştır.
Tersine, “LLM’ler algoritmaları sıralamıyor-şu anda bir sıralamanın ne olduğunu anlamıyorlar ”diyor Espín-Noboa. Bunun yerine, LLM’ler olasılıksaldır-kelime olasılıklarını tartarak doğru bir cevapta en iyi tahminde bulunur. Espín-noboa hala onlarda vaat görür, ancak işlerin durduğu gibi çizilmeye hazır değildir.
Bu araştırmacıların nihayetinde insanların daha iyi tavsiyelerde bulunmaları için bir yol yaratmayı umduğundan, bu araştırmanın pratik bir bileşeni de vardır.
“Son amacımız, bir kullanıcının doğal dili kullanarak kolayca etkileşime girebileceği bir araca sahip olmaktır ”diyor Barolo. Bu, kullanıcının ihtiyaçlarına göre uyarlanacak ve hangi sorunların kendileri için önemli olduğunu seçmelerine izin verecek.
“Ajansın LLM’de değil, kullanıcı üzerinde olması gerektiğine inanıyoruz ”diyor Espín-Noboa. Google örneğini kullanıyor‘s Gemini görüntü jeneratörü önyargılar için aşırı düzeltme – Amerikan kurucu babaları (ve Nazi askerlerini) bir güncellemeden sonra renkli insanlar olarak temsil ediyor ve şirket tarafından geçici olarak askıya alınmasına yol açıyor.
Teknoloji şirketlerinin ve programcılarının modelde kapsamlı kararlar alması yerine‘Çıktı, kullanıcılar onlar için en önemli sorunları seçebilmelidir.
Daha büyük resim
Bilim adamları bu yeni teknolojilerin hayatımızı nasıl etkilediğini anlamak için yarışırken, karmaşıklık bilim merkezinde devam ediyor gibi araştırmalar Avrupa ve dünya çapında gerçekleşiyor.
Akademi’nin “ADA Lovelace Enstitüsü’nde kıdemli bir araştırmacı olan Lara Groves. “Denetimler için katılım şartlarını belirleme ”.
Eğitim verilerine ve algoritmalara tam erişim olmasa bile, bu araçlar üzerine kurulmuş, Academia “Bu denetimleri nasıl, neden ve ne zaman yapabileceğiniz için kanıt tabanını oluşturdu ”. Ancak bu çabaların, genellikle sadece çıktılarına bakabildikleri için araştırmacıların sağladığı erişim seviyesi ile engellenebileceği konusunda uyarıyor.
Buna rağmen, daha fazla değerlendirmenin gerçekleştiğini görmek istiyor “temel model katmanında ”. Groves devam ediyor: “Bu sistemler oldukça stokastik ve son derece dinamiktir, bu nedenle‘Yukarı akış aralığını anlatmak imkansız. ” Başka bir deyişle, LLM’lerin ürettiğinin büyük değişkenliği, kullanım durumlarına bakmaya başlamadan önce kaputun altında kontrol etmemiz gerektiği anlamına gelir.
Havacılık veya siber güvenlik gibi diğer endüstriler zaten denetim için titiz süreçlere sahiptir. “İlk prensiplerden ya da hiçbir şeyden çalışıyoruz. BT‘Bu mekanizmalardan ve yaklaşımlardan hangisinin AI ile benzer olduğunu belirlemek ”diye ekliyor Groves.
Yapay zeka üstünlüğü için bir silah yarışı ortasında, büyük oyuncular tarafından yapılan testler yakından korunmaktadır. Ara sıra açıklık anları oldu: Ağustos ayında Openai ve Antropik birbirlerine denetimler yaptı‘S modelleri ve bulgularını halka yayınladı.
LLM’leri sorgulama çalışmalarının çoğu hala çadırın dışına düşecek. Metodik, bağımsız araştırma,‘Bu aletleri sürün ve hatta daha iyisi için onları yeniden şekillendirin.