Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Araştırmalar, büyük dil modellerinin kavramsal ustalığın nasıl sahte olduğunu gösteriyor
Rashmi Ramesh (Rashmiramesh_) •
9 Temmuz 2025

Yapay zeka hakkında ünlü bir hikaye, jet savaşçılarını uçak gemilerine inmek için verimli yöntemler tasarlaması söylenen bir model içerir. Gibi Araştırmacı Janell Shane tarafından anlatılan model, ” * büyük * bir kuvvet uygularsa, programın hafızasını taşacağını ve bunun yerine çok * küçük * bir güç olarak kaydolacağını” keşfetti. Pilot öldü, “Ama hey, mükemmel puan.”
Ayrıca bakınız: Ondemand Web Semineri | Cortex XSIAM3.0: #1 AI güdümlü SECOPS platformu
İnsan geliştiricileri, AI’nın birincil hedefin uçakları çökmesine değil güvenli bir şekilde karaya çıkarmak olduğunu “anladığını” düşünüyorlardı. Modeller ve gerçeklik arasındaki bu boşluk o kadar yaygındır ki, MIT, Harvard ve Chicago Üniversitesi’nden akademisyenler, kavramsal kıyaslamalarda mükemmel olan büyük dil modellerinin ustalaştıkları fikirleri nasıl kavrayamayacağını karakterize etmek için “Potemkin anlayışı” ifadesini tanıtmaktadır.
Grigory Potemkin tarafından 18. yüzyıl Rus İmparatoriçe Catherine II’yi memnun etmek için inşa edilen sahte mutlu köylülerle dolu sahte yerleşimlerden ödünç alan araştırmacılar, LLM’lerin bu kavramları anlamlı bir şekilde uygulama yeteneğinden yoksun olmasına rağmen soyut kavramların ikna edici açıklamalarını üretebileceğini söylüyor.
Potemkin anlayışı, “başarılı bir kıyaslama performansı ile ortaya çıkan görünen anlayışın insan olmayan yanlış anlama kalıpları tarafından zayıflatıldığı bir LLM arıza modudur.”
Araştırmacılar Marina Mancoridis, BEC Weeks, Keyon Vafa ve Sendhil Mullainathan, Potemkin anlayışının AI’da daha yaygın olarak belirtilen bir başarısızlık modu olan halüsinasyondan farklı olduğunu söylüyor. “Potemkins, halüsinasyonların gerçek bilgiye ne olduğunu kavramsal bilgidir – halüsinasyonlar yanlış gerçekleri üretir; potemkinler yanlış kavramsal tutarlılık üretirler” diye yazdılar.
Vafa, bu kırılganlığın, özellikle otomasyonda gerçek dünya sonuçları olduğunu söyledi. “LLM’ler süreçleri otomatikleştirmek için kullanılırsa, ancak aslında bu süreçleri gerçekleştirmek için gerekli anlayışa sahip değilse, kötü veya zararlı performansa neden olabilir.” Dedi.
Makale, Openai’nin GPT-4O’sunun ABAB olarak bilinen temel bir kelime şeması tanımlaması istendiğine dair örneklerden bahsediyor. Model doğru bir şekilde yanıt verdi: “Bir ABAB şeması tekerlemeleri alternatif eder: birinci ve üçüncü çizgiler kafiye, ikinci ve dördüncü kafiye.” Ancak, kısmen yazılmış bir şiirde deseni tamamlamak için kafiyeli bir kelime sağlamaya istendiğinde, model hiç kafiye olmayan bir kelime ekledi. Bu model birçok görevde tekrarlandı: modeller kavramları açıklayabilir, ancak bunları işlevselleştirmek için gerektiğinde başarısız olabilir. VAFA, “LLM’lerin insan ölçütlerinde iyi performans gösterdiğinde antropomorfize etmek cazip gel, ancak bu yanlış bir model yeterliliği duygusu verebilir.” Dedi.
Yazarlar, bu boşluğun, özellikle AI değerlendirmesi için geniş etkileri olduğunu savunmaktadır. Kıyaslamalar modelleri değerlendirmek ve geliştirmek için yaygın olarak kullanılır, ancak modeller bunları gerçek bir anlayış olmadan geçebilirse, kıyaslama performansı güvenilir bir gösterge olmayı bırakır.
Potemkinlerin yaygınlığını test etmek için ekip, edebi cihazlara, oyun teorisine ve psikolojik önyargılara odaklanan yeni kriterler geliştirdi. GPT-4O, Claude 3.5 Sonnet, Gemini 2.0 Flash, Lama 3 70B, Deepseek-V3, Deepseek-R1 ve Qwen2-VL 72B gibi modelleri değerlendirdiler.
Modeller, vakaların% 94.2’sinde bir kavramı başarıyla tanımladı, ancak zamanın% 55’inde sınıflandırmada başarısız oldular ve aynı kavramlarla ilgili üretim ve düzenleme görevlerinde benzer şekilde zayıf puan aldılar.
Kök neden, yeni örnekler hakkında akıl yürütmek için gereken soyut şemayı elde etmeden ilgili birçok soruyu cevaplamalarına izin veren yüzey seviyesi korelasyonları yapan modellerdir. Shakespeare Sonnets’i içeren bir testte, AI yapısal kuralları tanımlayabilir, ancak sık sık geçerli sonnetleri tespit edemez veya inşa edemez, bu da mevcut LLM’lerin tartıştıkları kavramların arkasındaki soyut şemayı öğrenmediğini düşündürmektedir.
Yazarlar, eğitim sırasında LLM’lerin, gerçek kavramsal bilgiyi soyutlamak yerine, jeton tahmini için aşırı uyum formatlarına aşırı uyum sağlayacak şekilde optimize ettiğini varsaymaktadır. Sonuç olarak, bilgilerini yeni görevlere genelleştirmeden test yapabilen modeller.
Makale bir çözüm reçete etmekten vazgeçer, ancak yeni değerlendirme çerçevelerine ve model tasarımında daha derin yapısal değişikliklere duyulan ihtiyacı önermektedir. Aksi takdirde yetkin görünen modellerde potinkin tarzı başarısızlıkları tespit etmek veya önlemek için geliştirilmiş eğitim rejimleri veya değerlendirme çerçeveleri gerekebilir.
Vafa, “Ana tavsiyem, LLMS’ye yalnızca insanlar için tasarlanmış statik ölçütlere dayanarak güvenmemek olacaktır.” Dedi. Diyerek şöyle devam etti: “Bir LLM’nin yeteneğine en çok güvenmek için, şirketin bunu kullanmak istediği özel görev üzerinde değerlendirmek önemlidir.”