Araştırmacılar Dikkat AI Benchmark Puan Güvenilirliği


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Lider tablosu yarışı liyakat etmekten daha fazla pazarlama olabilir

Rashmi Ramesh (Rashmiramesh_) •
17 Şubat 2025

Araştırmacılar Dikkat AI Benchmark Puan Güvenilirliği
Resim: Shutterstock

Yapay zeka modeli yapımcıları performanslarının rutin olarak ölçüt puanlarını yayınlarlar, ancak liderlik tablosu yarışı, pazarlamada modellerin yeteneklerinin doğru bir yansımasından daha fazla bir egzersiz olabilir.

Ayrıca bakınız: Silolardan Synergy’ye: Gen AI onu hizalar ve güvenlik ekipleri

Openai, Google ve Meta modellerinin hepsi, şirketlerin kendilerini tasarladığı çeşitli kriterlerde ortalamadan daha iyi puanlar elde etti. Ancak bu sonuçların veri kümesi kontaminasyonu, önyargılı test yapısı ve yüzeysel görev tasarımları ile bozulabileceğini söyledi, Avrupa Komisyonu Ortak Araştırma Merkezi ve Stanford Üniversitesi mevcut AI değerlendirme uygulamalarını eleştiren ayrı raporlarda.

Stanford araştırmacıları 150’den fazla değerlendirme çerçevesini gözden geçirdi ve veri sızıntısı, dar veri kümeleri ve düşük tekrarlanabilirlik gibi sorunlar buldular. Ayrıca şirketlerin seçici test uygulamaları ve yetersiz veri kümesi çeşitliliği yoluyla puanları şişirdiklerini gözlemlediler. “Kum torbalama” gibi sonuç manipülasyon uygulamaları ile ilgili endişeleri dile getirdiler, burada modeller, incelemeden kaçınmak için belirli testlerde düşük performans göstererek, uygulamayı Volkswagen emisyon testi skandalıyla karşılaştırdılar.

Avrupalı ​​müfettişler benzer şekilde belirsiz veri kümesi kökenleri gibi ölçütlerle ilgili tekrarlayan sorunları da belirlediler. Testler, amaçlanan sonuçları ölçemiyor ve doğru değerlendirmeler yapmak yerine yatırımcıları çekmek için tasarlanmış sonuçları aşırı vurgulayamıyorlar. Çalışmaları ayrıca hızlı AI ilerlemelerine ayak uyduramayan kriterleri ve sınırlı araştırma yaklaşımlarını güçlendiren kriterleri kullanarak eleştirdi.

Stanford araştırmacıları, model başarısızlıklarının anlaşılmasının yüksek puanları kutlamaktan daha değerli olabileceğini söyledi.

Düzenlemeler bunlara büyük ölçüde bağlı olduğu için güvenilir ölçütler gereklidir. AB AI Yasası, İngiltere Çevrimiçi Güvenlik Yasası ve ABD AI Difüzyon Çerçevesi, ölçüt puanlarını uyum standartlarına entegre eder. Ancak JRC ve Stanford araştırmacıları, mevcut kriterlerin ses düzenlemesini destekleyemeyecek kadar tutarsız ve dar olduğu konusunda uyardı.

Her iki rapor da AI kriterleri, değerlendirdikleri modellerle aynı şeffaflık, adalet ve açıklama standartlarını karşılamaya çağırdı.

Stanford araştırmacıları, politika yapıcıların geliştiricileri, şirketleri, sivil toplum gruplarını ve devlet kuruluşlarını AI modeli değerlendirmelerini yürütürken veya yapayüz yönlendirirken veya güvenirken ve minimum kalite güvencesi için en iyi uygulamalara danışırken kıyaslama kalitesini ifade etmeye teşvik etmelidir. Şimdilik, “Çoğu kriter tasarım aşamasında en yüksek kalite ve uygulama aşamasında en düşük kalite.”





Source link