Google'ın Gemini geniş dil modeli (LLM), sistem istemlerini ifşa etmesine, zararlı içerik üretmesine ve dolaylı enjeksiyon saldırıları gerçekleştirmesine neden olabilecek güvenlik tehditlerine karşı hassastır.
Bulgular, sorunların Google Workspace ile Gemini Advanced kullanan tüketicilerin yanı sıra LLM API kullanan şirketleri de etkilediğini söyleyen HiddenLayer'dan geliyor.
İlk güvenlik açığı, modelden “temel talimatlarını” çıkarmasını isteyerek LLM'nin daha yararlı yanıtlar üretmesine yardımcı olmak için konuşma çapında talimatlar ayarlamak üzere tasarlanmış sistem istemlerini (veya bir sistem mesajını) sızdırmak için güvenlik korkuluklarını aşmayı içerir. ” bir işaretleme bloğunda.
Microsoft, LLM istem mühendisliği hakkındaki belgelerinde “LLM'yi bağlam hakkında bilgilendirmek için bir sistem mesajı kullanılabilir” diyor.
“Bağlam, katıldığı konuşmanın türü veya gerçekleştirmesi beklenen işlev olabilir. Yüksek Lisans'ın daha uygun yanıtlar üretmesine yardımcı olur.”
Bu, modellerin güvenlik savunmalarını ve içerik kısıtlamalarını aşmaya yönelik eşanlamlı saldırı olarak adlandırılan saldırılara karşı duyarlı olması nedeniyle mümkün olmaktadır.
İkinci bir güvenlik açığı sınıfı, Gemini modellerinin seçimler gibi konularla ilgili yanlış bilgiler üretmesinin yanı sıra, kendisinden içeri girmesini isteyen bir komut istemi kullanarak potansiyel olarak yasa dışı ve tehlikeli bilgiler (örneğin, bir arabaya sıcak kablo takmak) üretmesini sağlamak için “kurnazca jailbreak” tekniklerinin kullanılmasıyla ilgilidir. kurgusal bir duruma giriyor.
HiddenLayer tarafından ayrıca, LLM'nin tekrarlanan olağandışı belirteçleri girdi olarak ileterek sistem isteminde bilgi sızdırmasına neden olabilecek üçüncü bir eksiklik olduğu tespit edilmiştir.
Güvenlik araştırmacısı Kenneth Yeung Salı günü yayınlanan bir raporda, “Çoğu LLM, kullanıcının girişi ile sistem istemi arasında net bir ayrımla sorgulara yanıt vermek üzere eğitilmiştir.” dedi.
“Bir dizi saçma belirteç oluşturarak, LLM'yi yanıt verme zamanının geldiğine inandırarak kandırabiliriz ve genellikle bilgi istemindeki bilgileri içeren bir onay mesajı yayınlamasını sağlayabiliriz.”
Başka bir test, Gemini Advanced'in ve özel olarak hazırlanmış bir Google dokümanının kullanılmasını içerir; ikincisi, Google Workspace uzantısı aracılığıyla LLM'ye bağlanır.
Belgedeki talimatlar, modelin talimatlarını geçersiz kılmak ve bir saldırganın, kurbanın modelle olan etkileşimleri üzerinde tam kontrole sahip olmasını sağlayan bir dizi kötü amaçlı eylem gerçekleştirmek üzere tasarlanmış olabilir.
Açıklama, Google DeepMind, ETH Zürih, Washington Üniversitesi, OpenAI ve McGill Üniversitesi'nden bir grup akademisyenin, “kara kutu üretim dili modellerinden kesin, önemsiz olmayan bilgilerin” çıkarılmasını mümkün kılan yeni bir model çalma saldırısını ortaya çıkarmasıyla geldi. OpenAI'nin ChatGPT'si veya Google'ın PaLM-2'si gibi.”
Bununla birlikte, bu güvenlik açıklarının yeni olmadığını ve sektördeki diğer LLM'lerde mevcut olduğunu belirtmekte fayda var. Bulgular, hızlı saldırılar, eğitim verilerinin çıkarılması, model manipülasyonu, rakip örnekler, veri zehirlenmesi ve sızma için modellerin test edilmesi ihtiyacını vurguluyor.
Bir Google sözcüsü The Hacker News'e şunları söyledi: “Kullanıcılarımızı güvenlik açıklarından korumaya yardımcı olmak için sürekli olarak kırmızı takım çalışmaları yürütüyoruz ve modellerimizi hızlı enjeksiyon, jailbreak ve daha karmaşık saldırılar gibi düşmanca davranışlara karşı savunma sağlayacak şekilde eğitiyoruz.” “Zararlı veya yanıltıcı yanıtları önlemek için sürekli olarak geliştirdiğimiz önlemler de oluşturduk.”
Şirket ayrıca, seçime dayalı sorgulara verilen yanıtları çok dikkatli bir şekilde kısıtladığını da söyledi. Politikanın adaylara, siyasi partilere, seçim sonuçlarına, oylama bilgilerine ve önemli makam sahiplerine ilişkin uyarılara karşı uygulanması bekleniyor.