Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Hata Ayıklayıcı Erişim: Microsoft ile bile gerçek dünyadaki hatalarda falter
Rashmi Ramesh (Rashmiramesh_) •
14 Nisan 2025

Yapay zeka kodlayabilir, ancak bir dizi gerçek dünya yazılım programlama testleri verildiğinde ne kadar büyük dil modellerinin gerçekleştirildiğini gözlemledikten sonra Microsoft’u hata ayıkamaz.
Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu
Araştırmacılar, kod üretimindeki hızlı ilerlemelere rağmen, LLM’lerin çoğu hata ayıklayıcıları gibi geleneksel geliştirici araçlarına erişim verilse bile yazılım hatalarını çözmek için mücadele ettiği sonucuna varmışlardır.
Yapay zeka ile çalışan kodlama asistanları, GitHub Copilot, Amazon Codewhisperer ve kod tamamlama, dokümantasyon ve daha fazla oluşturma gibi CHATGPT düzenleme görevleri gibi araçlarla yazılım geliştirme iş akışlarına giderek daha fazla entegre hale geldi.
Ekip, GitHub depolarından çizilen 300 gerçek Python sorunundan oluşan SWE-Bench Lite adlı bir ölçüt kullanarak dokuz popüler modeli değerlendirdi. Her sayı, model kodu doğru şekilde yamalayana kadar başarısız olan bir test durumu içerir. İkinci bir değerlendirme, LLM’lerin daha kontrollü senaryolarda nasıl davrandığını incelemek için daha küçük bir 30 hata ayıklama görevini kullandı.
En iyi performans gösteren modeller bile sorunların çoğunluğunu çözemedi. Antropic’in Claude 3 sonnet, test edilen modeller arasında SWE-Bench Lite’da% 48,4 ile en yüksek doğruluğu elde etti. Openai’nin O1 ve O3-mini sırasıyla% 30.2 ve% 22.1 puan aldı. Microsoft’un kendi Phi-2 modeli% 15,8 doğruluk elde etti.
Çalışma ayrıca Python’un yerleşik hata ayıklayıcı PDB’sine erişim sağlamanın yardımcı olup olmayacağını test etti. Küratörlük 30 problem setinde, Claude 3 sonnet, hata ayıklayıcı etkinleştirildiğinde doğruluğunu% 27’den% 32’ye çıkardı. Ancak çoğu model çok az anlamlı bir fayda gördü veya hiç yoktu.
Microsoft, modellerin bir metin arayüzü aracılığıyla gerçek bir Python yürütme ortamıyla etkileşime girmesine izin vererek etkileşimli hata ayıklamayı simüle etmek için tasarlanmış Debug-Gym adlı yeni bir eğitim ve değerlendirme ortamı oluşturduğunu söyledi. Sistem, Openai’nin spor salonu araç seti üzerine inşa edilmiştir ve bir Docker kabının içinde çalışır. Kaynak kodu, yığın izleri ve başarısız test durumları gibi öğeleri ortaya çıkarır. Modeller test paketini çalıştırabilir, hata ayıklama komutlarını kullanabilir ve kod değişikliklerini uygulayabilir, her eylemden sonra yapılandırılmış geri bildirim alabilir.
Hata Ayıklama-Gym, AI sistemlerinin sıralı problem çözme stratejilerini öğrenmesine yardımcı olur. Geliştiricilerin PDB gibi araçları kullanarak kodu nasıl keşfettiklerini taklit ederek, model modellerin çalışma zamanı davranışlarını inceleyerek, kesme noktalarını ayarlayarak ve kod düzenlemelerini yönlendirmek için başarısız testlerden geri bildirim kullanarak hataları düzeltmeyi öğrenip öğrenemeyeceğini değerlendirmeye yardımcı olabilir.
Ancak yürütme ve değerleri inceleme yeteneği olsa bile, tutarsız bir şekilde gerçekleştirilen modeller. Araştırmacılar, AI sistemlerinin genellikle insanların hata ayıklamayı nasıl gerçekleştirdiğini yansıtan verilerle eğitilmediğini söyledi. Sonuç olarak, PDB gibi araçları kullanmaları, bir insan geliştiricisinin aynı soruna nasıl yaklaşacağına her zaman uyumlu değildir.
Modeller genellikle net bir strateji olmadan hata ayıklama komutları yayınladı veya yeni bilgilere dayanarak yaklaşımlarını değiştiremedi ve çevre ile etkileşimlerinin etkinliğini sınırladı.
LLM’ler, kodun tamamlanması ve üretimi gibi görevlerde fayda göstermiştir, ancak hata ayıklama farklı zorluklar kümesi sunar: test başarısızlıklarını yorumlamaya, kodları buna göre değiştirmeye ve sonuçları yeniden değerlendirmeye yönelik geri bildirim odaklı bir süreç gerektirir.