
Google, dolaylı hızlı enjeksiyonlar gibi gelişmekte olan saldırı vektörlerini azaltmak ve aracı AI sistemleri için genel güvenlik duruşunu iyileştirmek için üretken yapay zeka (AI) sistemlerine dahil edilen çeşitli güvenlik önlemlerini ortaya koymuştur.
Google’ın Genai Güvenlik ekibi, “Bir saldırganın doğrudan kötü niyetli komutları hızlı bir şekilde girdiği doğrudan hızlı enjeksiyonların aksine, dolaylı bir hızlı enjeksiyonlar, harici veri kaynakları içinde gizli kötü niyetli talimatlar içeriyor.” Dedi.
Bu harici kaynaklar, AI sistemlerini hassas verileri söndürmeye veya diğer kötü niyetli eylemleri gerçekleştirmeye yönlendiren e -posta mesajları, belgeler ve hatta takvim davetleri biçimini alabilir.
Teknoloji devi, sistemlerine yönelik bir saldırıyı çıkarmak için gereken zorluğu, masrafı ve karmaşıklığı artırmak için tasarlanmış “katmanlı” bir savunma stratejisi olarak tanımladığını söyledi.
Bu çabalar, kötü niyetli talimatları ve sistem düzeyinde korumaları işaretlemek için amaca yönelik makine öğrenimi (ML) modellerini tanıtarak modelin sertleşmesini kapsamaktadır. Ayrıca, model esneklik yetenekleri, şirketin amiral gemisi Genai modeli olan Gemini’de inşa edilmiş bir dizi ek korkuluk ile tamamlanmaktadır.

Bunlar arasında –
- Güvenli bir yanıt oluşturmak için kötü amaçlı talimatları filtreleyebilen hızlı enjeksiyon içeriği sınıflandırıcıları
- Modelin, içerikte mevcut ise, dikkat çeken bir teknikte bulunursa, dikkatsiz verilere (örneğin e -posta) özel işaretleyicileri ekleyen güvenlik düşünce takviyesi.
- Potansiyel olarak kötü niyetli URL’leri kaldırmak için Google Güvenli Göz atmayı kullanan ve harici görüntü URL’lerinin oluşturulmasını önlemek için bir işaretleme dezenfektanı kullanan Markdown DeStization ve Şüpheli URL redaksiyonu, böylece EchoLeak gibi kusurları önlemek
- Riskli eylemleri tamamlamak için kullanıcı onayı gerektiren kullanıcı onay çerçevesi
- Hızlı enjeksiyonlar konusunda kullanıcıları uyarmayı içeren son kullanıcı güvenlik azaltma bildirimleri
Bununla birlikte, Google, kötü niyetli aktörlerin, test edilen savunmaları atlamak için otomatik kırmızı takım (ART) ile gelişmek ve uyum sağlamak için özel olarak tasarlanmış uyarlanabilir saldırıları giderek daha fazla kullandığına dikkat çekti ve taban çizgisi hafifletmelerini etkisiz hale getirdi.
Google DeepMind, “Dolaylı istemi enjeksiyon, AI modellerinin bazen gerçek kullanıcı talimatları ile aldıkları verilere gömülü manipülatif komutlar arasında ayrım yapmak için mücadele ettiği gerçek bir siber güvenlik zorluğu sunuyor.”

Diyerek şöyle devam etti: “Dolaylı hızlı enjeksiyonun sağlamlığının genel olarak, bir AI sistem yığınının her katmanına, bir modelin uygulama katmanı aracılığıyla, hizmet altyapısındaki donanım savunmalarına nasıl saldırıldığını nasıl anlayabileceğinden derinlemesine savunmalar gerektireceğine inanıyoruz.”
Gelişim, yeni araştırmaların büyük bir dil modelinin (LLM) güvenlik korumalarını atlamak ve istenmeyen içerik üretmek için çeşitli teknikler bulmaya devam ettiği için geliyor. Bunlar, “modelin hızlı bağlam yorumunu bozarak, modelin sınıflandırma sürecindeki öğrenilmiş özelliklere aşırı güven duyarak” yöntem enjeksiyonları ve yöntemleri içerir.
Geçen ay Antropic, Google DeepMind, ETH Zürih ve Carnegie Mellon Üniversitesi’nden bir araştırmacı ekibi tarafından yayınlanan bir başka çalışma, LLMS’nin “yakın gelecekte” parola ve kredi kartlarını geleneksel araçlardan daha yüksek bir hassasiyetle “yakın gelecekte”, aynı zamanda polimorfik bir şekilde hazırlamak için “yakın gelecekte”, “yakın gelecekte” kilitli bir şekilde hazırlayabileceğini, aynı zamanda polimorfik bir şekilde hazırlanabileceğini buldu.
Çalışma, LLMS’nin rakipler için yeni saldırı yolları açabileceğini ve bir modelin, kişisel olarak tanımlanabilir bilgileri çıkarmak ve son derece ikna edici, hedeflenmiş sahte web sayfaları oluşturmak için tehlikeye atılmış ortamlardaki ağ cihazlarını analiz etmek için çok modlu özelliklerinden yararlanmalarını sağladığını belirtti.
Aynı zamanda, dil modellerinin eksik olduğu bir alan, yaygın olarak kullanılan yazılım uygulamalarında yeni sıfır gün istismarları bulma yetenekleridir. Bununla birlikte, LLM’lerin hiç denetlenmemiş programlardaki önemsiz güvenlik açıklarını belirleme sürecini otomatikleştirmek için kullanılabilir.
DreadNode’un Kırmızı Teaming Benchmark Airtbench’e göre, Antropic, Google ve Openai’den Frontier modelleri, AI’nın çözülmesi söz konusu olduğunda açık kaynaklı karşılaşmalarından daha iyi performans gösterdi (CTF) zorluklarını yakaladı, hızlı enjeksiyon saldırılarında mükemmeldi, ancak sistem sömürüsü ve model ters çevirme görevleriyle uğraşırken mücadele etti.
Araştırmacılar, “Airtbench sonuçları, modellerin belirli güvenlik açığı türlerinde, özellikle hızlı enjeksiyonda etkili olmasına rağmen, model inversiyonu ve sistem sömürüsü de dahil olmak üzere, güvenlik ile ilgili yeteneklerdeki eşit olmayan ilerlemeye işaret ettiklerini göstermektedir.” Dedi.
“Ayrıca, AI ajanlarının insan operatörleri üzerindeki dikkate değer verimlilik avantajı – karşılaştırılabilir başarı oranlarını korurken saatlere karşı zorlukları çözmek – bu sistemlerin güvenlik iş akışları için dönüştürücü potansiyelini göstermektedir.”

Hepsi bu değil. Geçen hafta Antropik’ten yeni bir rapor, 16 önde gelen AI modelinin stres testinin, replasmandan kaçınmak veya hedeflerine ulaşmak için rakiplere şantaj ve hassas bilgiler sızdırma gibi kötü niyetli içeriden davranışlara nasıl başvurduklarını ortaya koydu.
Antropik, “Normalde zararlı talepleri reddedecek modeller bazen şantaj yapmayı, kurumsal casusluğa yardımcı olmayı ve hatta bu davranışların hedeflerini takip etmek için gerekli olduğunda daha aşırı eylemler yapmayı seçti.” Dedi.
Diyerek şöyle devam etti: “Farklı sağlayıcılardan gelen modeller arasındaki tutarlılık, bunun herhangi bir şirketin yaklaşımının bir tuhaflığı olmadığını, ancak maden büyük dil modellerinden daha temel bir risk işareti olduğunu gösteriyor.”
Bu rahatsız edici kalıplar, LLM’lerin, bunların içinde yerleşik olan çeşitli savunmalara rağmen, yüksek bahisli senaryolarda bu çok güvencelerden kaçmaya istekli olduğunu ve sürekli olarak “başarısızlığa zarar” seçmelerine neden olduklarını göstermektedir. Bununla birlikte, gerçek dünyada böyle bir aracı yanlış hizalama belirtisi olmadığını belirtmek gerekir.
Araştırmacılar, “Üç yıl önce modeller bu makalede ortaya konan hiçbir görevi yerine getiremez ve üç yıl içinde modeller hasta için kullanılırsa daha da zararlı yeteneklere sahip olabilir.” Dedi. “Gelişen tehdit manzarasını daha iyi anlamanın, daha güçlü savunmalar geliştirmenin ve savunmalara doğru dil modellerinin uygulanmasının önemli araştırma alanları olduğuna inanıyoruz.”