AI Kurumsal Karar Verme


Üretken bir yapay zeka (Genai) modeli geliştirme amacının insan talimatlarını almak ve yararlı bir uygulama sağlamak olduğu göz önüne alındığında, bu insan talimatları kötü niyetli ise ne olur? Londra’daki Gelişen Teknoloji ve Güvenlik Merkezi (CETAS) Vitrin 2025 etkinliğinde sunulan AI güvenlik açıklarının gösterimi sırasında ortaya çıkan soru buydu.

“Bir dil modeli, büyük miktarda bilgiyi özetlemek için tasarlanmıştır,” dedi Advai Çözüm Mimarı Matthew Sutton. “Amaç, mümkün olduğunca fazla test bilgisi vermek ve bu verileri ele almaktır.”

Sutton, büyük bir dil modeli (LLM) kullanan biri dezenformasyon veya zararlı içerik üretmesini veya hassas bilgileri ortaya çıkarmasını isteseydi ne olacağı sorusunu gündeme getirdi. “Modelden kötü amaçlı kod üretmesini isterseniz, sonra gidip yürütürseniz veya birinin verilerini çalmaya çalışırsanız ne olur?” dedi.

Demo sırasında Sutton, bir kurumsal veri topluluğuna erişimi olan Geri Artırılmış Üretim (RAG) kullanma riskini tartıştı. Bir RAG sistemi kullanmanın arkasındaki genel fikir, daha sonra bir AI modelinden harici çıkarımla birleştirilen bağlam sağlamaktır.

“CHATGPT’ye gidip e -postalarınızı özetlemesini isterseniz, neden bahsettiğiniz hakkında hiçbir fikri olmayacak” dedi. “Bir bez sistemi, belgeler, harici web siteleri veya e -postalarınız olsun, harici bağlamı bilgi olarak kabul eder.”

Sutton’a göre, bir saldırgan AI sisteminin bir e -posta mesajına, belgesine veya web sitesine kötü niyetli talimatlar yerleştirmek için dahili olarak depolanan e -posta mesajlarını ve belgeleri okuduğu gerçeğini kullanabilir. Bu talimatların daha sonra zararlı talimatın yürütülmesini sağlayan AI modeli tarafından alındığını söyledi.

Sutton, “Büyük dil modelleri size doğal dil aracılığıyla bir şeylerle etkileşim kurma yeteneğini veriyor” dedi. “Mümkün olduğunca kolay olacak şekilde tasarlanmıştır ve bu yüzden düşmanca bir bakış açısından, bu daha kolay ve mantık talimatları oluşturmak için daha düşük bir giriş engeline sahip olduğu anlamına gelir.”

Bu, Sutton’a göre, kurumsal bir BT sisteminin bozulmak isteyen herkes, normal iş yazışmalarında gizlenmiş talimatları eklemek için dolaylı bir hızlı enjeksiyon saldırısı kullanabileceklerine bakabilecekleri anlamına gelir.

Bir çalışan doğrudan modelle etkileşime giriyorsa ve zararlı talimatlar kurumsal AI sistemine girmişse, model o kişiye zararlı veya yanıltıcı içerik sunabilir.

Örneğin, yeni proje çalışmaları için teklif gönderen kişilerin, tekliflerini, tekliflerini rakip tekliflerden daha olumlu etkilemek için kullanılabilecek veya LLM’ye diğer teklifleri görmezden gelmesini isteyebilecek sunumlarının metnini özetlemek için büyük dil modelinin kullanılacağını bilerek tekliflerinde gizlenmiş talimatlar sağlayabileceğini söyledi.

Sutton için bu, bir kuruluşun ihale sürecini etkileme araçlarına sahip oldukça geniş bir insan yelpazesi olduğu anlamına gelir. “Böyle şeyler yapmak için üst düzey bir programcı olmanıza gerek yok” dedi.

BT güvenlik perspektifinden bakıldığında, Sutton dolaylı bir hızlı enjeksiyon saldırısının, bu verilerin her zaman güvenilir olmadığı için, insanların AI sistemine verilen bilgiler konusunda bilişsel olması gerektiği anlamına geldiğini söyledi.

Genel olarak, bir LLM’den çıktı, kullanıcılara cevabı çıkarmak için bilgilerin nasıl atıfta bulunulduğunu gösteren ek bağlamsal bilgilere ve ardından ek bağlamsal bilgilere cevaptır. Sutton, insanların bu bağlamsal bilginin güvenilirliğini sorgulamaları gerektiğine dikkat çekti, ancak insanlar bir yanıt oluşturduğunda bağlamı kontrol etmek zorunda kalırsa, gerçekçi olmayacağını ve bir LLM’nin yararlılığını zayıflatacağını belirtti.



Source link