Jailbreak ve hızlı enjeksiyon, üretken yapay zekaya (GenAI) yönelik yeni ve giderek artan tehditlerdir. Jailbreak, zararlı veya yanıltıcı sonuçlar üretmek için yapay zekayı belirli komutlarla kandırır. İstem enjeksiyonu, veritabanlarındaki SQL enjeksiyonuna benzer şekilde tipik istemler içindeki kötü amaçlı verileri veya talimatları gizler ve bu da modelin istenmeyen çıktılar üretmesine, güvenlik açıkları veya itibar riskleri oluşturmasına yol açar.
Üretilen içeriğe güvenmek başka sorunlar da yaratır. Örneğin birçok geliştirici, kaynak kodunu yazmalarına veya revize etmelerine yardımcı olmak için Microsoft Copilot veya ChatGPT gibi GenAI modellerini kullanmaya başlıyor. Ne yazık ki son araştırmalar, GenAI tarafından üretilen kod çıktılarının, geliştiricilerin fark edemeyeceği güvenlik açıkları ve diğer sorunları içerebileceğini gösteriyor. Ancak zamanla GenAI’nin geliştiricilerin daha güvenli kod yazmasına yardımcı olabileceğine dair umut da var.
Ayrıca GenAI sır saklama konusunda da kötü. Bir yapay zekayı özel veya hassas veriler konusunda eğitmek, bu verilerin dolaylı olarak ifşa edilmesi veya çıkarımlarda bulunulması riskini ortaya çıkarır. Bu, kişisel olarak tanımlanabilir bilgilerin (PII) ve erişim belirteçlerinin sızıntısını içerebilir. Daha da önemlisi, modelin davranışının öngörülememesi nedeniyle bu sızıntıların tespit edilmesi zor olabilir. Bir kullanıcının oluşturabileceği çok sayıda potansiyel istem göz önüne alındığında, bunların hepsini kapsamlı bir şekilde tahmin etmek ve bunlara karşı önlem almak mümkün değildir.
Geleneksel Yaklaşımlar Yetersiz Kalıyor
GenAI’ye yönelik saldırılar, koda yönelik teknik saldırılardan çok, dolandırıcılık, dolandırıcılık oyunları ve sosyal mühendislik gibi insanlara yönelik saldırılara benzer. Öncelikle geleneksel siber tehditler için tasarlanan kural tabanlı güvenlik duvarları gibi geleneksel güvenlik ürünleri, GenAI tehditlerinin dinamik ve uyarlanabilir doğası göz önünde bulundurularak tasarlanmamıştır ve yukarıda özetlenen yeni ortaya çıkan tehditleri ele alamaz. İki yaygın güvenlik metodolojisinin (veri gizleme ve kural tabanlı filtreleme) önemli sınırlamaları vardır.
Hassas bilgileri korumak için orijinal verileri gizleyen veri gizleme veya şifreleme, veri gizliliğini sağlamak için sıklıkla kullanılır. Ancak GenAI için veri gizlemenin zorluğu, hangi verinin hassas olduğunu belirleme ve tanımlamanın zorluğudur. Dahası, veri kümelerindeki karşılıklı bağımlılıklar, belirli bilgi parçalarının karartılmış olmasına rağmen diğer veri noktalarının, yapay zekanın eksik verileri çıkarması için yeterli bağlamı sağlayabileceği anlamına gelir.
Geleneksel olarak kural tabanlı filtreleme yöntemleri istenmeyen çıktılara karşı koruma sağlar. Girişlerini ve çıkışlarını tarayarak bunu GenAI’ye uygulamak sezgisel görünüyor. Ancak kötü niyetli kullanıcılar sıklıkla bu sistemleri atlayabilir ve bu da onları yapay zeka güvenliği açısından uygunsuz hale getirebilir.
Bu şekil, basit kurallardan kaçan bazı karmaşık jailbreak istemlerini vurgulamaktadır:
OpenAI ve Anthropic gibi şirketlerin mevcut modelleri, model çıktılarını evrensel insani değerlerle uyumlu hale getirmek için RLHF’yi kullanıyor. Ancak evrensel değerler yeterli olmayabilir: GenAI’nin her uygulaması, kapsamlı koruma için kendi özelleştirmesini gerektirebilir.
Daha Güçlü Bir Nesil Yapay Zeka Güvenliğine Doğru
Yukarıdaki örneklerde gösterildiği gibi GenAI’ye yönelik saldırılar çeşitli olabilir ve öngörülmesi zor olabilir. Son araştırmalar, bir savunmanın etkili olabilmesi için temel model kadar akıllı olması gerektiğini vurguluyor. GenAI’yi korumak için GenAI’yi kullanmak, savunma için umut verici bir yöndür. İki potansiyel yaklaşım öngörüyoruz: kara kutu ve beyaz kutu savunması.
Bir kara kutu savunması, GenAI için, tehditlere yönelik çıktıları analiz eden, mutlaka bir GenAI bileşenine sahip olan akıllı bir izleme sistemini gerektirir. Bu, bir binadan çıkan her şeyi denetleyen bir güvenlik görevlisine sahip olmaya benzer. Modelin kendisini değiştirmenin mümkün olmadığı ticari kapalı kaynaklı GenAI modelleri için muhtemelen en uygun olanıdır.
Beyaz kutu savunması, modelin iç kısımlarını derinlemesine inceleyerek hem bir kalkan hem de onu kullanma bilgisini sağlar. Açık GenAI modelleriyle, tıpkı birini nefsi müdafaa konusunda eğitmek gibi, bilinen kötü amaçlı istemlere karşı bunlara ince ayar yapmak mümkün hale geliyor. Kara kutu yaklaşımı koruma sağlayabilse de özel eğitimden yoksundur; dolayısıyla beyaz kutu yöntemi daha kapsamlı ve görünmeyen saldırılara karşı daha etkilidir.
GenAI, akıllı savunmaların yanı sıra gelişen tehdit yönetimini de talep ediyor. Tüm teknoloji tehditleri gibi GenAI tehditleri de durağan değildir. Bu, saldırganların her savunma hamlesine karşılık bir karşı hamle tasarladığı bir kedi-fare oyunudur. Bu nedenle güvenlik sistemlerinin sürekli gelişmesi, geçmiş ihlallerden ders alması ve gelecekteki stratejileri öngörmesi gerekir. Anında enjeksiyon, jailbreak veya diğer saldırılara karşı evrensel bir koruma yoktur; bu nedenle şimdilik pragmatik bir savunma, tehditleri izlemek ve tespit etmek olabilir. Geliştiricilerin, GenAI’ye yönelik saldırıları izlemek, tespit etmek ve bunlara yanıt vermek için araçların yanı sıra yeni ortaya çıkan tehditleri izlemek için bir tehdit istihbarat stratejisine ihtiyacı olacak.
Savunma tekniklerinde de esnekliği korumamız gerekiyor. Toplumun dolandırıcılara karşı korunmanın yollarını bulmak için binlerce yılı vardı; GenAI’lar yalnızca birkaç yıldır ortalıktalar, bu yüzden hâlâ onları nasıl savunacağımızı bulmaya çalışıyoruz. Yeni savunmaların keşfedildikçe devreye sokulabilmesi için geliştiricilerin sistemleri gelecek için esnekliği koruyacak şekilde tasarlamalarını öneriyoruz.
Yapay zeka çağı yaklaşırken, makinelerin insanlıkla etkili, etik ve güvenli bir şekilde etkileşime girmesine yardımcı olacak yeni güvenlik önlemlerine öncelik vermek çok önemli. Bu, göreve eşit zekayı kullanmak anlamına gelir.