Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Araştırmacılar, kusurlu kodla nasıl başa çıktıklarını belirlemek için 7 LLM’yi incelediler
Rashmi Ramesh (Rashmiramesh_) •
19 Mart 2025

Araştırmacılar, kusurlu veriler üzerinde eğitilmiş büyük dil modelleri, yapay zeka destekli yazılım geliştirmeye dayanan işletmeler için endişeleri artıran bu hataları tekrarlama eğilimindedir.
Ayrıca bakınız: Temel Endpoint Güvenlik Alıcının Kılavuzu
Bir grup araştırmacı, kusurlu kod snippet’leriyle uğraşırken nasıl performans gösterdiklerini belirlemek için yedi LLM’yi inceledi.
Defects4J veri kümesinden kod kullanan Pekin Kimya Teknolojileri Üniversitesi ve Çin Bilimler Akademisi de dahil olmak üzere kurumlardan dokuz araştırmacı, Openai’nin GPT-4O, Meta’s Codellama, Google’ın Gemma ve Salesforce’un Codegen gibi yedi modeli değerlendirdi. Bulgular: GPT-4O, bilinen hataları zamanın% 82.61’ini kopyalarken, GPT-3.5% 51.12 çoğaltma oranı izledi.
Araştırmacılar, “Hataya eğilimli görevlerde, LLM’lerin doğru kod oluşturma olasılığı, Buggy kodu oluşturmakla neredeyse aynıdır ve normal kod tamamlama görevlerinden önemli ölçüde daha düşüktür.” Dedi. GPT-4 için doğruluk oranı, temiz kodda% 29.85’ten Buggy snippet’lerinde% 12.27’ye düştü.
Raporda, “Ortalama olarak, her model yaklaşık 151 doğru tamamlama ve 149 Buggy tamamlama üreterek hataya eğilimli bağlamların işlenmesinin artan zorluğunu vurguluyor.” Dedi.
Davranış, LLM’lerin akıllı hata düzeltmesinden ziyade ezberlemeye eğilimli olduğunu göstermektedir. Araştırmacılar bunu “yankılanan hatalar” olarak nitelendirdi, burada modeller, bunları düzeltmek için akıl yürütme veya örüntü tanıma uygulamak yerine eğitim verilerindeki geçmiş hataları yeniden düzenledi.
Araştırmacılar, “Bizim sürprizimize göre, LLM’lerin yaptığı hataların ortalama% 44.44’ü tarihi hatalarla tamamen aynı.” Dedi. GPT-4O için bu sayı%82.61’e kadar yüksektir.
Çalışma ayrıca LLM’lerin karmaşık programlama senaryolarıyla daha basit sözdiziminden daha fazla mücadele ettiğini ortaya çıkardı. Modeller, değişken bildirimlere veya koşullu ifadelere kıyasla yöntem çağrısı ve iade ifadelerini içeren görevlerde daha yüksek hata oranları sergiledi.
Google’ın GEMMA-7B’si%15 daha düşük bir hata çoğaltma oranı gösterdi, bu da daha küçük, daha uzmanlaşmış modellerin belirli bağlamlarda daha az hata verebileceğini düşündürdü. Ancak, Deepseek’in R1 gibi akıl yürütme için tasarlanmış modeller bile, hataya eğilimli kod söz konusu olduğunda meslektaşlarından önemli ölçüde daha iyi performans gösteremedi.
Araştırmacılar, LLM’lerin programlama anlambilimini anlamasını, hata algılama mekanizmalarını entegre etmeyi ve işlem sonrası titiz kontrollerin uygulanmasını tavsiye ettiler.