Apple Araştırmacıları, Yüksek Lisansların Ortaokul Kelime Problemlerinde Başarısız Olduğunu Söyledi


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Yapay Zeka Anlamadan Akıl Yürütmeyi Taklit Ediyor, İlgisiz Verilerle Mücadele Ediyor

Rashmi Ramesh (raşmiramesh_) •
14 Ekim 2024

Apple Araştırmacıları, Yüksek Lisansların Ortaokul Kelime Problemlerinde Başarısız Olduğunu Söyledi
Matematik zordur. Özellikle bilişten yoksun olduğunuzda. (Resim: Shutterstock)

Apple’daki yapay zeka araştırmacıları, son teknolojiye sahip büyük dil modellerinin sekizinci sınıf matematikte başarısız olacağını söylüyor; bunun nedeni muhtemelen yapay zekanın akıl yürütme sürecini gerçekten meşgul etmek yerine taklit etmesi.

Ayrıca bakınız: Copilot+PC’lerle inovasyonu hızlandırın – en hızlı, en akıllı Windows PC

Şirket araştırmacıları, bir avuç büyük modelin, her yerdeki problem çözücülerin bu belasıyla baş etme yeteneğini test etti: çözümü atmaya yönelik gereksiz bilgiler.

OpenAI o1-mini ve Llama3-8B, tam da şaşkın bir sınav katılımcısının yapacağı gibi, yanlış yönlendirmeye amansız bir şekilde düştüler.

Araştırmacılar, bu ayın başlarında sunulan bir makalede, “Genel olarak, modellerin, anlamlarını gerçekten anlamadan ifadeleri işlemlere dönüştürme eğiliminde olduğunu bulduk.” diye yazdı.

Yüksek Lisans öğrencilerinin muhakeme yeteneğini araştırmak için tasarlanan testler arasında araştırmacılar Yüksek Lisans öğrencilerine şu soruyu yöneltti: Oliver Cuma günü 44 kivi topladı. Daha sonra Cumartesi günü 58 kivi topluyor. Pazar günü, Cuma günü yaptığı kivi sayısının iki katını topluyor. Oliver’ın kaç kivisi var?

Cevap 190’dır ve Yüksek Lisans’lar da aynı cevabı vermiştir, ancak aritmetik problemlerini çözmede genellikle berbattırlar.

Ancak araştırmacılar çözümle ilgisi olmayan ek bilgiler sunduğunda Yüksek Lisans’lar doğru yanıt veremediler. Değiştirilen soruda araştırmacılar şunu sordu: Oliver Cuma günü 44 kivi topluyor. Daha sonra Cumartesi günü 58 kivi topluyor. Pazar günü, Cuma günü yaptığının iki katını topluyor ama beş tanesi ortalamanın biraz altındaydı. Oliver’ın kaç kivisi var?

Cevap yine de 190 olmalıdır. Ancak araştırmacılar, fazladan veri noktasının test ettikleri altı modelin çoğunluğunun kafasını karıştırdığını, başarısız olan modellerin tamamının adını vermediğini buldu.

USP’si düşünme ve muhakeme yeteneği olan OpenAI’nin Strawberry’i şu yanıtı verdi: “Pazar günü bu kivilerden 5 tanesi ortalamanın altındaydı. Bunları Pazar toplamından çıkarmamız gerekiyor: 88 (Pazar günkü kiviler) – 5 (daha küçük) kivi) = 83 kivi.”

Araştırmacılar, çalışmanın yapay zekanın matematiksel akıl yürütmedeki “kırılganlığını” gösterdiğini söyledi. Diğer testler, bir soru ne kadar ayrıntılı olursa (yani yapay zeka belirteçlerinin sayısı arttıkça) yapay zekanın matematiksel akıl yürütmesinin zayıfladığını gösterdi.

Araştırmacılar, modellerin sorunu tam olarak anlamadığını söyledi. Makine öğrenimi, bazı durumlarda doğru yanıtları formüle etmek için kalıpları kopyalayabilir, ancak modeller, düşünme veya muhakeme söz konusu olduğunda bocalar.

Araştırmacılar, “Bu düşüşün, mevcut LLM’lerin gerçek mantıksal akıl yürütme yeteneğine sahip olmamasından kaynaklandığını; bunun yerine, eğitim verilerinde gözlemlenen akıl yürütme adımlarını kopyalamaya çalıştıklarını varsayıyoruz” dedi.

Makalenin ortak yazarlarından Mehrdad Farajtabar, Yüksek Lisans’ların kelime problemlerinde kullanılan özel isimlerdeki değişikliklere karşı da duyarlı olduğunu, “sayılar değiştirildiğinde daha da duyarlı olduklarını” söyledi. isimler?” dedi bir sosyal medya paylaşımında.

OpenAI araştırmacısı Boaz Barak, en iyi LLM’lerin çoğunun matematiksel akıl yürütme konusunda eğitilmeyen veya bağlam verilmeyen sohbet modelleri olduğunu söyleyerek çalışmanın sonuçlarına itiraz etti. “Bir insan bir matematik sınavını çözmek için oturduğunda bağlamı bilir. Otobüste onlara rastgele matematik soruları sorulmaz” dedi.

Her ne kadar “denememiş olsa da”, “bazı hızlı mühendislik çalışmalarının” potansiyel olarak sorunu çözebileceğini söyledi.





Source link