Jailbreak ve hızlı enjeksiyon yeni ve artıyor tehditler üretken yapay zekaya (GenAI). Jailbreak, zararlı veya yanıltıcı sonuçlar üretmek için yapay zekayı belirli komutlarla kandırır. İstem enjeksiyonu, veritabanlarındaki SQL enjeksiyonuna benzer şekilde tipik istemler içindeki kötü amaçlı verileri veya talimatları gizler ve bu da modelin istenmeyen çıktılar üretmesine, güvenlik açıkları veya itibar riskleri oluşturmasına yol açar.
Üretilen içeriğe güvenmek başka sorunlar da yaratır. Örneğin birçok geliştirici, kaynak kodunu yazmalarına veya revize etmelerine yardımcı olmak için Microsoft Copilot veya ChatGPT gibi GenAI modellerini kullanmaya başlıyor. Maalesef, Güncel araştırma GenAI tarafından üretilen kod çıktısının, geliştiricilerin fark edemeyeceği güvenlik açıkları ve diğer sorunları içerebileceğini belirtir. Ancak zamanla düzeleceğine dair bir umut da var. GenAI geliştiricilere yardımcı olabilir daha güvenli kod yazın.
Ayrıca GenAI sır saklama konusunda da kötü. Bir yapay zekayı özel veya hassas veriler konusunda eğitmek, bu verilerin dolaylı olarak ifşa edilmesi veya çıkarımlarda bulunulması riskini ortaya çıkarır. Bu, kişisel olarak tanımlanabilir bilgilerin (PII) ve erişim belirteçlerinin sızıntısını içerebilir. Daha da önemlisi, modelin davranışının öngörülememesi nedeniyle bu sızıntıların tespit edilmesi zor olabilir. Bir kullanıcının oluşturabileceği çok sayıda potansiyel istem göz önüne alındığında, bunların hepsini kapsamlı bir şekilde tahmin etmek ve bunlara karşı önlem almak mümkün değildir.
Geleneksel Yaklaşımlar Yetersiz Kalıyor
GenAI’ye yönelik saldırılar, koda yönelik teknik saldırılardan çok, dolandırıcılık, dolandırıcılık oyunları ve sosyal mühendislik gibi insanlara yönelik saldırılara benzer. Öncelikle geleneksel siber tehditler için tasarlanan kural tabanlı güvenlik duvarları gibi geleneksel güvenlik ürünleri, GenAI tehditlerinin dinamik ve uyarlanabilir doğası göz önünde bulundurularak tasarlanmamıştır ve yukarıda özetlenen yeni ortaya çıkan tehditleri ele alamaz. İki yaygın güvenlik metodolojisinin (veri gizleme ve kural tabanlı filtreleme) önemli sınırlamaları vardır.
Hassas bilgileri korumak için orijinal verileri gizleyen veri gizleme veya şifreleme, veri gizliliğini sağlamak için sıklıkla kullanılır. Ancak GenAI için veri gizlemenin zorluğu zorluk Hangi verinin hassas olduğunu tespit etme ve tanımlama. Ayrıca, karşılıklı bağımlılıklar veri kümelerinde, belirli bilgi parçaları gizlenmiş olsa bile diğer veri noktalarının gizlenebileceği anlamına gelir yeterli bağlamı sağlamak Yapay zekanın eksik verileri çıkarması için.
Geleneksel olarak kural tabanlı filtreleme yöntemleri istenmeyen çıktılara karşı koruma sağlar. Girişlerini ve çıkışlarını tarayarak bunu GenAI’ye uygulamak sezgisel görünüyor. Fakat, kötü niyetli kullanıcılar sıklıkla yapabilir bu sistemleri atlaonları AI güvenliği için uygunsuz hale getiriyor.
Bu şekil, basit kurallardan kaçan bazı karmaşık jailbreak istemlerini vurgulamaktadır:
Kurala dayalı savunmalar kolayca yenilebilir (Kaynak: Banghua Zhu, Jiantao Jiao ve David Wagner)
OpenAI ve Antropik kullanım gibi şirketlerin güncel modelleri RLHF Model çıktılarını evrensel insani değerlerle uyumlu hale getirmek. Ancak evrensel değerler yeterli olmayabilir: GenAI’nin her uygulaması, kapsamlı koruma için kendi özelleştirmesini gerektirebilir.
Daha Güçlü Bir Nesil Yapay Zeka Güvenliğine Doğru
Yukarıdaki örneklerde gösterildiği gibi GenAI’ye yönelik saldırılar çeşitli olabilir ve öngörülmesi zor olabilir. Güncel araştırma bir savunmanın etkili olabilmesi için temel model kadar akıllı olması gerektiğini vurguluyor. GenAI’yi korumak için GenAI’yi kullanmak, savunma için umut verici bir yöndür. İki potansiyel yaklaşım öngörüyoruz: kara kutu ve beyaz kutu savunması.
Bir kara kutu savunması, GenAI için, tehditlere yönelik çıktıları analiz eden, mutlaka bir GenAI bileşenine sahip olan akıllı bir izleme sistemini gerektirir. Bu, bir binadan çıkan her şeyi denetleyen bir güvenlik görevlisine sahip olmaya benzer. Modelin kendisini değiştirmenin mümkün olmadığı ticari kapalı kaynaklı GenAI modelleri için muhtemelen en uygun olanıdır.
Beyaz kutu savunması, modelin iç kısımlarını derinlemesine inceleyerek hem bir kalkan hem de onu kullanma bilgisini sağlar. Açık GenAI modelleriyle, tıpkı birini nefsi müdafaa konusunda eğitmek gibi, bilinen kötü amaçlı istemlere karşı bunlara ince ayar yapmak mümkün hale geliyor. Kara kutu yaklaşımı koruma sağlayabilse de özel eğitimden yoksundur; dolayısıyla beyaz kutu yöntemi daha kapsamlı ve görünmeyen saldırılara karşı daha etkilidir.
GenAI, akıllı savunmaların yanı sıra gelişen tehdit yönetimini de talep ediyor. Tüm teknoloji tehditleri gibi GenAI tehditleri de durağan değildir. Bu, saldırganların her savunma hamlesine karşılık bir karşı hamle tasarladığı bir kedi-fare oyunudur. Bu nedenle güvenlik sistemlerinin sürekli gelişmesi, geçmiş ihlallerden ders alması ve gelecekteki stratejileri öngörmesi gerekir. Anında enjeksiyon, jailbreak veya diğer saldırılara karşı evrensel bir koruma yoktur; bu nedenle şimdilik pragmatik bir savunma, tehditleri izlemek ve tespit etmek olabilir. Geliştiricilerin, GenAI’ye yönelik saldırıları izlemek, tespit etmek ve bunlara yanıt vermek için araçların yanı sıra yeni ortaya çıkan tehditleri izlemek için bir tehdit istihbarat stratejisine ihtiyacı olacak.
Savunma tekniklerinde de esnekliği korumamız gerekiyor. Toplumun dolandırıcılara karşı korunmanın yollarını bulmak için binlerce yılı vardı; GenAI’lar yalnızca birkaç yıldır ortalıktalar, bu yüzden hâlâ onları nasıl savunacağımızı bulmaya çalışıyoruz. Yeni savunmaların keşfedildikçe devreye sokulabilmesi için geliştiricilerin sistemleri gelecek için esnekliği koruyacak şekilde tasarlamalarını öneriyoruz.
Yapay zeka çağı yaklaşırken, makinelerin insanlıkla etkili, etik ve güvenli bir şekilde etkileşime girmesine yardımcı olacak yeni güvenlik önlemlerine öncelik vermek çok önemli. Bu, göreve eşit zekayı kullanmak anlamına gelir.