Paket Halüsinasyon: LLMS dikkatsiz geliştiricilere kötü amaçlı kod teslim edebilir


LLMS’in var olmayan “halüsinasyon” kod paketleri eğilimi, “slopsquatting” olarak adlandırılan yeni bir tedarik zinciri saldırısının temeli olabilir (Python Yazılım Vakfı’ndaki güvenlik geliştiricisi Seth Larson’un izniyle).

Bilinen bir olay

Günümüzde birçok yazılım geliştiricisi, programlamalarına yardımcı olmak için büyük dil modellerini (LLMS) kullanmaktadır. Ve ne yazık ki, LLM’lerin, çeşitli konularda sorulan sorular kodlamaya kadar uzandığında, imalat tükürme ve bunları gerçekler olarak sunma eğilimi.

Bu bir süredir biliniyor. Bazı araştırmacılar daha önce LLMS’nin zaman zaman var olmayan yazılım kütüphaneleri ve paketleri önerdiğini fark etmiş ve bu eğilimin bu isimlerle kötü amaçlı paketler oluşturmak için saldırganlar tarafından kullanılabileceğini ve Pypi (Python için) ve NPM (Javascript için) gibi popüler kod depolarına indirilmesini önerdi.

Paket halüsinasyon slopsquatting

Paket Halüsinasyon Nasıl Kullanılır (Kaynak: ARXIV)

“Bunlar [package] LLMS kullanarak kod oluştururken gerçek konfledikleme hatalarından kaynaklanan halüsinasyonlar, yazılım tedarik zincirinin bütünlüğü için kritik bir tehdit oluşturan yeni bir paket karışıklık saldırısı biçimini temsil ediyor ”dedi.

Yaramazlık potansiyeli

Grup, bu paket halüsinasyon probleminin ne kadar büyük olabileceğini kontrol etmeye karar verdi ve bu amaçla 16 kod oluşturma AI modelini (GPT-4, Claude, Codellama, Deepseek kodlayıcı, Mistral, vb.) İki benzersiz hızlı veri kümesiyle test ettiler. LLM’ler 576.000 Python ve JavaScript kodu örnekleri verdi. ve bu önerilen paketlerden yaklaşık% 20’si yoktu.

LLM’lerin aynı paketleri tekrar tekrar halüsinasyon yapmayacağını belirlemek için, araştırmacılar paket halüsinasyonları oluşturan ve bu sorguları istem başına 10 kez tekrarlayan rastgele 500 istem örneği kullandılar.

Sonuç? “Bir halüsinasyon üreten aynı istemle tekrar tekrar bir modeli sorgularken: Halüsinasyonlu paketlerin% 43’ü 10 sorguda tekrarlandı,% 39’u ise 10 sorguda tekrarlanmadı.”

“Buna ek olarak, zamanın% 58’i, halüsinasyonlu bir paket, 10 iterasyonda bir kereden fazla tekrarlanır, bu da halüsinasyonların çoğunluğunun sadece rastgele hatalar değil, birden fazla iterasyonda devam eden tekrarlanabilir bir fenomen olduğunu gösterir” dedi.

“Bu önemlidir çünkü kalıcı bir halüsinasyon, bu güvenlik açığından yararlanmak isteyen kötü niyetli aktörler için daha değerlidir ve halüsinasyon saldırısı vektörünü daha uygulanabilir bir tehdit haline getirir.”

Ve modellerin çoğu, birçok durumda kendi halüsinasyonlarını tespit edebilse de, buradaki sorun, programların toplanmasına yardımcı olmak ve sağladıkları koda güvenmek için AI modellerini kullanan birçok geliştirici olmasıdır.

“Diyelim ki Chatgpt’ten benim için bazı kod yazmasına yardımcı olmasını istedim ve yazıyor. Şimdi, diyelim ki, oluşturulan kodda bir pakete bir bağlantı içeriyor ve kodu çalıştırıyorum, ancak paketin var değil, bir halüsinasyon paketini/hacker’ın bu davranışı (LLM’nin kullandığını söyleyebildiğini fark edebileceğini fark edebiliyor. Sadece önemsiz bir şekilde halüsinasyonlu paketle aynı ada sahip yeni bir paket oluşturun (LLM tarafından öneriliyor) ve içine kötü bir kod enjekte ediyor, ”diyor San Antonio’daki Teksas Üniversitesi Bilgisayar Bilimleri Bölümü’nde doçent olan Dr. Murtuza Jadliwala.

“Şimdi, LLM bir dahaki sefere oluşturulan kodda aynı paketi önerdiğinde ve şüphesiz bir kullanıcı kodu yürüttüğünde, bu kötü amaçlı paket artık kullanıcının makinesinde indirilir ve yürütülür.”

Paket halüsinasyonu en aza indirmek

Belki de daha önce var olan bu halüsinasyon paketlerinin çoğunun modellerin eğitim öncesi verilerine dahil edildiğini ve bu arada silindiğini düşünerek, araştırmacılar silinen paketlerin tanık oldukları paket halüsinasyonlarının “ihmal edilebilir bir kaynağı” olduğunu araştırdılar ve keşfettiler.

Çapraz halüsinasyonlar-örneğin, bir programlama dilindeki halüsinasyonlu bir paketin başka bir programlama dilinde mevcut bir paketin adına sahip olduğunda-JavaScript paketlerini ararken daha fazla meydana geldiklerinde de buldular.

Son olarak, halüsinasyonlu paketlerin çoğunluğunun “mevcut paket adlarından büyük ölçüde farklı” isimleri olsa da, bu isimler genellikle ikna ediyor ve bağlamı uyuyordu.

Araştırmacılar, LLM içerik oluşturucularının kod oluşturma sırasında paket halüsinasyonlarını azaltmalarına yardımcı olacak önerilerde bulundular, ancak LLMS’den yararlanan bireysel kodlayıcılar için genel tavsiye, verilen kodu dahil etmeden önce önerilen paketleri kontrol etmektir.

Devamını oku: AI iş akışlarında saklanan sessiz veri ihlali

En son ihlalleri, güvenlik açıklarını ve siber güvenlik tehditlerini asla kaçırmak için Breaking News e-posta uyarımıza abone olun. BURADA Abone Olun!



Source link