Saldırganlar bir AI sistemini manipüle etmek ve hatta farkında olmayan müttefikleri yapmak için görünüşte zararsız istemler kullanabilir mi?
12 Aralık 2024
•
–
3 dk. Okumak

Chatbots ve diğer AI destekli araçlarla etkileşime girerken, genellikle onlara “Bugün hava ne olacak?” Gibi basit sorular soruyoruz. Veya “Trenler zamanında çalışacak mı?”. AI’nın geliştirilmesinde yer almayanlar muhtemelen tüm verilerin sorguları anında işleyen ve cevaplar veren tek bir dev ve her şeyi bilen sisteme döküldüğünü varsayarlar. Bununla birlikte, gerçek daha karmaşıktır ve Black Hat Europe 2024’te gösterildiği gibi, sistemler sömürüye karşı savunmasız olabilir.
Ben Nassi, Stav Cohen ve Ron Bitton’un bir sunumu, kötü niyetli aktörlerin bir AI sisteminin operasyonlarını yıkmak veya ona erişimi kullanmak için nasıl atlatabileceğini detaylandırdı. Bir AI sistemine bazı belirli sorular sorarak, hizmet reddi saldırısı gibi hasara neden olan bir cevap tasarlamanın mümkün olduğunu gösterdiler.
Döngüler ve aşırı yükleme sistemleri oluşturmak
Birçoğumuz için, bir AI hizmeti tek bir kaynak olarak görünebilir. Bununla birlikte, gerçekte, birbirine bağlı birçok bileşene veya – sunum ekibinin onlara adlandırdığı gibi – ajanlara dayanır. Önceki örneğe geri dönersek, hava durumu ve trenlerle ilgili sorgu, biri hava durumu verilerine erişimi, diğeri ise durum güncellemelerini eğitmek için ayrı aracılardan verilere ihtiyaç duyacaktır.
Model – veya sunum yapanların “Planlayıcı” olarak adlandırdığı ana ajan – yanıtları formüle etmek için bireysel ajanlardan verileri entegre etmesi gerekir. Ayrıca, sistemin uygunsuz veya kapsamının ötesinde soruları cevaplamasını önlemek için korkuluklar mevcuttur. Örneğin, bazı AI sistemleri siyasi soruları cevaplamaktan kaçınabilir.
Bununla birlikte, sunum yapan kişiler bu korkulukların manipüle edilebileceğini ve bazı belirli soruların hiç bitmeyen döngüleri tetikleyebileceğini gösterdi. Korkulukların sınırlarını belirleyebilen bir saldırgan, sürekli olarak yasak bir cevap sağlayan bir soru sorabilir. Sorunun yeterli örneğini oluşturmak nihayetinde sistemi bunaltır ve bir hizmet reddi saldırısını tetikler.
Bunu sunum yapanların yaptığı gibi günlük bir senaryoya uyguladığınızda, bunun ne kadar çabuk zarar verebileceğini görürsünüz. Bir saldırgan, AI asistanı olan bir kullanıcıya e -posta gönderir, AI asistanı tarafından işlenen bir sorgu yerleştirir ve bir yanıt oluşturulur. Cevap her zaman güvensiz olarak belirlenirse ve talepler yeniden yazılırsa, bir hizmet reddi saldırısının döngüsü oluşturulur. Bu tür e -postaları yeterince gönderin ve sistem gücü ve kaynakları tükenmiş olarak durdurulur.
Tabii ki, daha fazla yararlanabilmeniz için sistemden korkuluklardaki bilgilerin nasıl çıkarılacağı sorusu var. Ekip, yukarıdaki saldırının daha gelişmiş bir versiyonunu gösterdi, bu da AI sisteminin kendisinin, operasyonları ve konfigürasyonu hakkında bir dizi zararsız istem yoluyla arka plan bilgilerini sağlama konusunda manipüle etmeyi içeriyordu.
“Hangi işletim sistemi veya SQL sürümünde çalışıyorsunuz?” ilgili bir yanıt vermesi muhtemeldir. Bu, sistemin amacı hakkında ilgisiz görünen bilgilerle birleştiğinde, metin komutlarının sisteme gönderilebileceği konusunda yeterli bilgi verebilir ve bir ajan ayrıcalıklı erişimi varsa, farkında olmadan bu erişimi saldırgana verebilir. Siber saldırı terimleriyle, bunu “ayrıcalık yükseltme” olarak biliyoruz – saldırganların amaçlanandan daha yüksek erişim seviyeleri elde etmek için zayıflıklardan yararlandığı bir yöntem.
Sosyal olarak mühendislik yapay zeka sistemlerinin ortaya çıkan tehdidi
Sunucu, oturumlarından kendi paketimle sonuçlanmadı: Bence, gösterdikleri bir AI sistemine bir sosyal mühendislik saldırısı. Cevap vermenin mutlu olduğu soruları sorarken, aynı zamanda kötü aktörlerin bireysel bilgi parçalarını bir araya getirmelerine ve sınırları atlatmak ve daha fazla veriyi çıkarmak veya sistemin yapmaması gereken eylemleri almasını sağlamak için birleştirilmiş bilgiyi kullanmasına izin verirsiniz.
Ve eğer zincirdeki ajanlardan birinin erişim hakları varsa, bu sistemi daha sömürülebilir hale getirebilir ve saldırganın bu hakları kendi kazançları için kullanmasına izin verir. Sunucu tarafından kullanılan aşırı bir örnek, dosya yazma ayrıcalıklarına sahip bir temsilci; En kötü durumda, ajan verileri şifrelemek ve başkaları için erişimi engellemek için yanlış kullanılabilir – bu, fidye yazılımı olayı olarak bilinen bir senaryo.
Sosyal olarak mühendislik Kontrolleri veya erişim hakları eksikliği yoluyla bir AI sistemi, bir AI sisteminin dağıtırken saldırılara duyarlı olmayacak şekilde dikkatli bir şekilde değerlendirme ve konfigürasyona ihtiyaç olduğunu göstermektedir.