Yeni Genai Tedarik Zinciri Tehdidi: Kod paketi halüsinasyonları


Kod üreten büyük dil modelleri (LLMS) yazılım geliştirme için yeni bir güvenlik sorunu sundu: kod paketi halüsinasyonları.

Paket halüsinasyonları, bir LLM, gerçekten var olmayan bir pakete başvuran kod oluşturduğunda, tehdit aktörlerinin halüsinasyonlu paketle aynı adla kötü amaçlı bir depo oluşturarak bu Halüsinasyondan yararlanma fırsatı yarattığında ortaya çıkar.

Oklahoma Üniversitesi ve Virginia Tech, San Antonio’daki (UTSA) Texas Üniversitesi’ndeki araştırmacılar, geçen ay ARXIV’te yayınlanan bir makalede paket halüsinasyon fenomenini detaylandırdı – kodda halüsinasyonlu paketleri tespit etmek için bazı stratejiler de dahil.

Kod paketi halüsinasyonları zamanın% 20’sinden fazlası olabilir

Çoğu araştırma, doğal dil üretimi ve tahmin görevlerindeki halüsinasyonlara odaklanmış olsa da, kod üretimi sırasında halüsinasyonların ortaya çıkması ve kod güvenliği üzerindeki etkileri “hala araştırmanın yeni aşamalarında” dedi.

Geçen yıl Çinli araştırmacılar, ChatGPT, CODERL ve CodeGen gibi LLM’lerin kod oluşturma sırasında önemli ölçüde halüsinasyon yapabileceğini gösterdi.

UTSA’nın Joseph Spracklen başkanlığındaki yeni araştırma, özellikle paket halüsinasyon sorununa bakıyor.


Tarayıcınız video etiketini desteklemez.

“LLMS kullanarak kod oluştururken gerçek çatışan hatalardan kaynaklanan bu halüsinasyonlar, yazılım tedarik zincirinin bütünlüğü için kritik bir tehdit oluşturan yeni bir paket karışıklık saldırısı biçimini temsil ediyor” diye yazdı.

Araştırmacılar, kod üretimi için 16 popüler LLM’ye baktılar-aralarında chatgpt, codellama ve Deepseek-ve “halüsinasyonlu paketlerin ortalama yüzdesinin ticari modeller için en az% 5,2 ve açık kaynak modelleri için% 21.7 olduğunu” buldular.

Python ve JavaScript’teki testleri, 440.445’inin (%19.7) halüsinasyon olduğu belirlenen istemlere yanıt olarak toplam 2,23 milyon paket üretti, “şaşırtıcı 205.474 benzersiz bir halüsinasyon paket adının örneği, bu tehdidin şiddetini ve güçlenebilirliğini daha da vurguladı.

“Bir düşman, özellikle tekrarlanırlarsa, halüsinasyonlu veya hayali bir paketle aynı adla açık kaynaklı bir depoya bir paket yayınlayarak ve bazı kötü amaçlı kod/işlevler içeren paket halüsinasyonlarını kullanabilir” dedi. “Diğer şüphesiz ve güvenen LLM kullanıcılarının daha sonra oluşturulan kodlarında aynı hayali paketi önerdiğinden, yaralanma ile yaratılan kötü amaçlı paketini indirirler, bu da başarılı bir uzlaşmaya yol açar. Bu uzlaşma daha sonra, kötü niyetli pakete dayanan herhangi bir kod bulaşan bir kod tabanı veya yazılım bağımlılık zincirinden yayılabilir.”

Kod paketi halüsinasyonlarını algılama

Araştırmacılar, bir paket adının bilinen paketlerin bir listesi ile karşılaştırılmasının etkisiz olduğunu, çünkü bir düşman halüsinasyonlu paket adı altında yayınlanmış olabilir. Araştırmaları belirli paket adları sağlayan üç sezgisel tarama kullandı, bundan sonra “Her paket adını sırasıyla PYPI ve NPM’den edinilen paket adlarının ana listesiyle karşılaştırıyoruz… Bir paket adı ana listede değilse, bir halüsinasyon olarak kabul edilir.”

Araştırmacılar, “Paket depolarından elde edilen paketlerin ana listesinin zaten kötü niyetli halüsinasyonlu paketlerle kontamine olma olasılığını kabul ediyoruz” diye yazdı. “Ana listenin aslında geçerli paketlerin temel gerçeğini temsil ettiğini garanti etmek mümkün değildir; ancak, ana listede halihazırda halüsinasyonlu paketlerin varlığı aslında daha az halüsinasyon üretecektir ve bu nedenle sonuçlarımız daha düşük bir halüsinasyon oranını temsil eder.”

Araştırmacılar, azaltma stratejilerini kullanarak kod paketi halüsinasyonlarını% 85’e kadar azaltabildiler.

Geri Artırılmış Üretim (RAG) ve denetlenen ince ayar, paket halüsinasyonunu azaltmak için en etkili yaklaşımlar olduğu ortaya çıktı, ancak hafifletme teknikleri kod kalitesi maliyetine geldi.

“Özetle, sonuçlarımız, test edilen tüm azaltma stratejilerinin paket halüsinasyonlarını etkili bir şekilde azaltırken, ince ayarın kod kalitesinin azalması pahasına olduğunu göstermektedir” dedi. “Kaliteden ödün vermeden halüsinasyonları en aza indiren ince ayar yöntemleri geliştirmek için daha fazla araştırmaya ihtiyaç var. Bu arada, RAG ve kendini yeniden doldurma umut verici alternatifler sunuyor.”

Genai araçlarını kullanan geliştiricilerin% 97’sinin kod geliştirmede bir dereceye kadar gösterdiğini gösteren anketler, etkili hata azaltma stratejilerine duyulan ihtiyaç sadece artacaktır.

Medya Feragatnamesi: Bu rapor, çeşitli yollarla elde edilen iç ve dış araştırmalara dayanmaktadır. Sağlanan bilgiler yalnızca referans amaçlıdır ve kullanıcılar buna güvenmeleri için tam sorumluluk taşırlar. Cyber ​​Express, bu bilgileri kullanmanın doğruluğu veya sonuçları konusunda hiçbir sorumluluk kabul etmez.



Source link