Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Gelişim, AI ve Siber Güvenliğin Geleceği
Güvenlik Açığı Araştırmacıları: LLM yeteneklerini izlemeye başlayın, diyor Veteran Bug Hunter
Mathew J. Schwartz (Euroinfosec) •
30 Mayıs 2025

Bir güvenlik açığı araştırmacısı, büyük dil modellerinin kod kusurlarını kovalamaya yardımcı olma yeteneklerinde büyük bir adım attığını söyledi.
Ayrıca bakınız: Bulut Güvenliği ve SOC yakınsama için Kapsamlı Kılavuz
Tecrübeli Londra merkezli böcek avcısı Sean Heelan, güvenlik açıklarını tespit etmek için pirzola sahip olup olmadıklarını görmek için Frontier yapay zeka modellerini incelediğini ve Openai’nin O3 modelini Nisan ayında piyasaya sürüp kullanmada başarılı bulduğunu söyledi. Linux çekirdeğinin sunucu mesajı bloğu protokolünde uzaktan kullanılabilir bir sıfır gün güvenlik açığı olan CVE-2025-37899’u, bir ağdaki dosyaları, yazıcıları ve diğer kaynakları paylaşmak için bir ağ iletişim protokolü olduğunu keşfetti.
Heelan bir blog yazısında, “O3 ile LLMS, kodla ilgili akıl yürütme yetenekleri için ileriye dönük bir adım attı ve güvenlik açığı araştırmalarında çalışıyorsanız, dikkat etmeye başlamalısınız.” Dedi. “Eğer uzman düzeyinde bir güvenlik açığı araştırmacısı veya istismar geliştiriciyseniz, makineler sizin yerini almak üzere değil. Aslında, tam tersi: Şimdi sizi önemli ölçüde daha verimli ve etkili hale getirebilecekleri bir aşamadalar.”
Bu ifadenin önerdiği gibi, birden fazla uyarı uygulanır. Heelan’ın CVE-2025-37899’u bulmak için O3’ü kullanma başarısı-“SMB ‘Logoff’ komutu için işleyicide kullanıcı olmayan bir kullanım”-küçük bir kısımda bir böcek avcısı olarak uzmanlığını izlemiyor gibi görünüyor.
Özellikle, Linux’ta yerleşik olan SMB3 çekirdek sunucusu KSMBD’de benzer CVE-2025-37778 güvenlik açığını zaten keşfetmişti. null
.
Heelan, “varsayımsal bir güvenlik açığı algılama sistemi için arka uç olsaydı” ve bunun gerçekleşmesi için hangi kod ve talimatların gösterilmesi gerektiğine dair “nasıl performans göstereceğini” görmek için bazı KSMBD kodunda O3’ü gevşetti.
LLM’ye, “bağlam penceresi sınırlamaları ve içeriğin arttıkça meydana gelen performansdaki regresyonlar” nedeniyle tüm kod tabanına erişim verilemedi.
Düzgün bir şekilde işaretlenmiş O3, bu sonucu elde etmek için ayrıntılı akıl yürütmeyi kullanarak güvenlik açığını buldu. Heelan, “Güvenlik açığını anlamak, sunucuya eşzamanlı bağlantılar ve belirli durumlarda çeşitli nesneleri nasıl paylaşabilecekleri hakkında akıl yürütmeyi gerektirir.” Dedi. LLM “bunu kavrayabildi ve sayılmayan belirli bir nesnenin – başka bir iş parçacığı tarafından erişilebilirken serbest bırakıldığı bir yeri tespit etti. Bildiğim kadarıyla, bu bir LLM tarafından bulunan bu doğanın savunmasızlığının ilk kamu tartışması.”
LLM Kıyaslamalar Geliştirmeleri Vurgulamak
O3’ün keşfedilen güvenlik açığı, LLM’nin neler yapabileceğini test etmek için iyi bir ölçüttür. Heelan, “Önemsiz olmasa da, inanılmaz bir şekilde karmaşık değil.” Dedi. Araştırmacı, ekstra Linux çekirdeği, KOBİ protokolü veya başka bir bilgi gerektirmeden “bir meslektaşı 10 dakika içinde tüm kod yolu boyunca yürüyebileceğini” söyledi.
O3 bazen sorunu çözmek için doğru çözümü buldu, ancak diğer durumlarda hatalı bir çözüm sundu. Bir tuhaf olan, Heelan’ın başlangıçta ve bağımsız olarak O3 tarafından önerilen aynı düzeltmeyi ortaya çıkarması, ancak daha sonra daha sonra “aynı seansa” bağlanması “için iki farklı bağlantının” iki farklı bağlantının “sömürülmesini engellemenin hiçbir yolu olmaması nedeniyle işe yaramayacağını fark etmesidir. null
.
Bunun önerdiği gibi, güvenlik açığı iyileştirme süreci henüz tam olarak otomatikleştirilemez.
Bir zorluk başarı oranlarını içerir. Heelan, her seferinde aynı 12.000 satır kod kullanarak testini 100 kez çalıştırdığını söyledi – “tüm işleyicilerin kodunu bağlantı kurulumu ve yıkım kodu ile birleştirerek, komut işleyicisi gönderme rutinleri” – ki bu da O3’ün maksimumu olan yaklaşık 100.000 giriş tokenine eşit. Bir jeton, doğal dil işlemede kullanılan ve jeton başına ortalama dört karaktere kadar kullanılan kelime parçalarını ifade eder.
Yaklaşık 100 test çalışmasının toplam maliyeti: 116 $.
Heelan, O3’ün bu 100 koşunun sekizinde yer alan güvenlik açığını bulduğunu, 66 koşuda kusur olmadığı ve kalan 23 koşunun yanlış pozitif ürettiğini söyledi. Bu, Şubat ayında piyasaya sürülen Antropic’in Claude Sonnet 3.7’yi kullanarak çalıştığı testlerde bir iyileşme oldu, bu da 100 koşusunun üçünde kusur bulurken, Claude 3.5 hiç bulamadı.
Bu sonuçların gösterdiği gibi, bir ana paket “O3 yanılmaz değil” ve “hala saçma sonuçlar yaratma ve sizi hayal kırıklığına uğratma şansı var” dedi.
Yenilik, “doğru sonuçlar alma şansının, zamanınıza ve bunu gerçek sorunlar üzerinde kullanmaya çalışmak için çaba gösterecek kadar yüksek olması” dedi. Diyerek şöyle devam etti: “10 bin satırdan daha az kodla temsil edilebilecek bir sorununuz varsa, makul bir şans O3’ü çözme veya çözmenize yardımcı olabilir.”
Profesyonelleri daha verimli hale getirmek
Heelan’ın AI araçlarının aslında teknoloji profesyonellerinin işlerini yapma yeteneğini geliştirebileceğini bulması bir aykırı değildir.
Geçen ay San Francisco’daki RSAC Konferansı’nda konuşan Veracode’de kurucu ortağı ve baş güvenlik evanjelisti Chris Wysopal, geliştiricilerin AI-arttırılmış yazılım geliştirme araçlarını kullandıklarında ortalama% 50 daha fazla kod, Google ve Microsoft’un yeni kodlarının üçte birinin şimdi AI-Cenere olduğunu bildirdiğini söyledi.
Bir kırışıklık, AI araçlarının gerçek dünyadaki geliştiricilerin yaptıkları konusunda eğitilmesi ve klasik olarak oluşturulmuş kod olarak eşit miktarda güvenlik açıkları içeren kod üretmesidir. Daha fazla kod, daha fazla güvenlik açığı.
Wysopal, buna – açıkça ironik – çözümün “daha fazla yapay zeka kullanmak olduğunu” söyledi. Özellikle, güvenli kod örnekleri üzerinde eğitilmiş LLM’ler, kötü kodu tanırlar ve nasıl düzeltileceğini bilirler (bkz:: AI’nın güvenli kod geliştirme üzerindeki etkisini açma).
Heelan’ın araştırması, kısmen bir LLM’nin belirli bir işlevselliği, araç veya protokolü gözden geçirmesini sağlamak için tasarlanmış iyi inşa edilmiş modeller oluşturan uzmanlar tarafından, belirli kod türlerini düzeltmek için en son Frontier AI modellerinin nasıl getirilebileceğini göstermektedir.
“Benim tahminim, iyi tasarlanmış sistemlerin son derece değilse Daha Önemli – modellerin artan zekası daha,
Miessler, “Bunu şu şekilde düşünün: Belirgin bir yapay zeka bir sorunu çözmek zorundadır, daha az akıllı olması gerekir,” dedi Miessler. “Yani O3 ya da ilk sıfır gününü bulduğunda, bu harika, ama bunu yaşamak için yapan bir güvenlik araştırmacının yaşam ve iş ve sürecinin 100 katı bağlam ve süper net bir açıklama ile yapabileceğine kıyasla hiçbir şey değil.”