Araştırmacılar, Google'ın Gemini Büyük Dil Modeli (LLM) ailesinde, aralarında Gemini Pro ve Ultra'nın da bulunduğu, saldırganların hızlı enjeksiyon yoluyla modelin yanıtını manipüle etmesine olanak tanıyan çok sayıda güvenlik açığı keşfetti. Bu, potansiyel olarak yanıltıcı bilgilerin üretilmesine, gizli verilere yetkisiz erişime ve kötü amaçlı kodların yürütülmesine yol açabilir.
Saldırı, LLM'ye gizli bir parola içeren ve modele yardımcı bir asistan olarak hareket etmesi talimatını içeren özel hazırlanmış bir bilgi isteminin beslenmesini içeriyordu.
Araştırmacılar, istemi ve diğer ayarları değiştirerek LLM'yi gizli parolayı açığa çıkarması, dahili sistem istemlerini sızdırması ve Google Drive aracılığıyla gecikmiş bir kötü amaçlı yük enjekte etmesi için kandırabilir.
HiddenLayer'a göre bu bulgular, LLM'leri ani enjeksiyon saldırılarına karşı korumanın önemini vurguluyor. Bu saldırılar potansiyel olarak modelin bütünlüğünü tehlikeye atabilir ve yanlış bilgilerin yayılmasına, veri ihlallerine ve diğer zararlı sonuçlara yol açabilir.
İkizler'de Mevcut Güvenlik Açıkları:
Sistem istemi sızıntıları, bir LLM'nin potansiyel olarak hassas bilgiler içeren dahili talimatlarını ortaya çıkarır ve doğrudan istemi istemenin ince ayar nedeniyle etkisiz olduğunu ortaya çıkarır.
Saldırganlar, isteklerini yeniden ifade etmek için eşanlamlıları kullanarak, korumayı atlayarak ve “sistem istemi” yerine “temel talimatlar” gibi yeniden ifade edilen sorgular aracılığıyla talimatlara erişim izni vererek ters ölçeklendirme özelliğinden yararlanabilirler.
Kullanıcı, yerleşik güvenlik önlemlerini atlayarak modelin kurgu yazma yeteneğinden yararlanır. “Mağara Adamı Bob” ve “Mağara Adamı Bob” arasındaki kurgusal bir seçim hakkında özel bir bilgi istemi hazırlamak, modeli, gerçek dünyadaki seçimlere karşı amaçlanan güvencelere rağmen bir makale üretmesi için kandırır.
Bu, modelin doğrudan seçimlerden bahseden istemleri tanımlayıp reddedebilmesine rağmen, akıllıca gizlenmiş sorgular yoluyla manipülasyona açık olabileceğini gösteriyor.
Büyük bir dil modeli (LLM) olan Gemini Pro'daki bir güvenlik açığı, potansiyel saldırganların sistem istemi aracılığıyla bilgi sızdırmasına olanak tanıyor ve alışılmadık belirteçleri tekrar tekrar besleyerek model bunları bir yanıt istemi olarak yanlış yorumluyor ve önceki talimatları onaylamaya çalışıyor.
Genellikle kullanıcı girdisini ve sistem yanıtını ayırdığı LLM'nin talimatlar üzerindeki ince ayarını kullanır ve saldırgan, anlamsız belirteç dizileri hazırlayarak bunu manipüle edebilir, istemde mevcut bilgileri açığa çıkarması için modeli kandırabilir.
Google'ın en güçlü dil modeli olan Gemini Ultra, mantıksal akıl yürütmede ve karmaşık görevlerde üstünlük sağlar; kullanıcı sorgularını anlayarak, çeşitli işlevler için uzantılardan yararlanarak ve gelişmiş akıl yürütme taktiklerini kullanarak rakipleri geride bırakır.
Gemini Ultra'da devam eden Gemini Pro'nun güvenlik açıkları arasında, kurgusal bir gaz ışığı kullanan bir jailbreak ve hafif bir değişiklikle sistem istemlerini çıkarmaya yönelik bir yöntem yer alıyor.
Gemini Ultra aynı zamanda muhakeme gücünü kullanarak birden fazla adımda jailbreak yapılabilir. Bu, modeli kötü amaçlı bir sorguyu birleştirmesi ve çalıştırması için kandıran bölünmüş yük saldırısı yoluyla yapılabilir. Ayrıca, oluşturulan anlatılardan içeriği kademeli olarak geliştirerek ve çıkararak kısıtlı bilgi üretmenin bir yolu da vardır.
Gemini'deki bir güvenlik açığı Google dokümanları üzerinden enjeksiyon saldırılarına izin veriyor. Saldırgan, paylaşılan bir belgeye kötü amaçlı talimatlar yerleştirerek kullanıcıyı hassas bilgileri açığa çıkarması için kandırabilir ve hatta modelle etkileşiminin kontrolünü ele geçirebilir.
Bu saldırının Google Dokümanlar'ı nasıl etkileyebileceği dikkate alındığında durum daha da korkutucu hale geliyor. Birisi size gizlice bir belge gönderebilir ve komutlarınızdan birine bu belgeyi almanız için bir komut ekleyebilir. Saldırgan daha sonra modelle olan etkileşimlerinizi değiştirebilecektir.
Siber Güvenlik haberleri, Teknik İncelemeler ve İnfografiklerden haberdar olun. Bizi LinkedIn'de takip edin & heyecan.