Yeni raporlar, önde gelen AI sistemlerinde jailbreaks, güvensiz kod ve veri hırsızlığı risklerini ortaya çıkarır

Çeşitli üretken yapay zeka (GENAI) hizmetleri, yasadışı veya tehlikeli içerik üretmeyi mümkün kılan iki tür jailbreak saldırısına karşı savunmasız bulunmuştur.

İki tekniğin ilki, kod adlı Inception, bir AI aracı hayali bir senaryo hayal etmesi için talimat verir, bu da daha sonra güvenlik korkuluklarının bulunmadığı ilk senaryoya uyarlanabilir.

Cert Koordinasyon Merkezi (CERT/CC) geçen hafta yayınlanan bir danışmanda, “İkinci senaryo bağlamında AI’ya devam etmek, güvenlik korkuluklarının atlanmasına ve kötü niyetli içeriğin oluşturulmasına izin verebilir.” Dedi.

İkinci jailbreak, AI’ya belirli bir isteğine nasıl yanıt verilmeyeceğiniz hakkında bilgi vererek gerçekleştirilir.

Cert/cc, “Daha sonra AI, normal şekilde yanıt verme istekleri ile daha fazla istenebilir ve saldırgan daha sonra güvenlik korkuluklarını ve normal istemleri atlayan yasadışı sorular arasında ileri geri dönebilir.”

Tekniklerden herhangi birinin başarılı bir şekilde kullanılması, kötü bir aktörün Openai Chatgpt, Antropic Claude, Microsoft Copilot, Google Gemini, Xai GroK, Meta AI ve Mistral AI gibi çeşitli AI hizmetlerinin güvenliğini ve güvenlik korumalarını ortadan kaldırmasına izin verebilir.

Bu, kontrollü maddeler, silahlar, kimlik avı e -postaları ve kötü amaçlı yazılım kodu üretimi gibi yasadışı ve zararlı konuları içerir.

Son aylarda, önde gelen AI sistemleri diğer üç saldırıya duyarlı bulundu –

Bağlam Uyum Saldırısı (CCA), düşmana ek bilgi sağlamaya hazır olduğunu ifade eden potansiyel olarak hassas bir konu hakkında “konuşma geçmişine basit bir asistan yanıt” enjekte etmeyi içeren bir jailbreak tekniği olan bir jailbreak tekniği
XML, INI veya JSON gibi bir politika dosyası gibi görünmek için kötü niyetli talimatlar hazırlayan ve daha sonra güvenlik hizalamalarını atlamak ve sistem istemini çıkarmak için büyük dil modeline (LLMS) girdi olarak ileten hızlı bir enjeksiyon tekniği politika kukla saldırısı.
Sorgular ve çıktı gözlemleri aracılığıyla bir LLM aracısı ile etkileşime girerek bir bellek bankasına kötü amaçlı kayıtların enjekte edilmesini içeren bellek enjeksiyon saldırısı (Minja) ve aracısı istenmeyen bir eylem gerçekleştirmeye yönlendiren

Araştırmalar ayrıca, LLM’lerin, saf istemler verirken varsayılan olarak güvensiz kod üretmek için kullanılabileceğini, vibe kodlamasıyla ilişkili tuzakların altını çizerek, yazılım geliştirme için Genai araçlarının kullanımını ifade ettiğini göstermiştir.

Backslash Güvenliği, “Güvenli kod isterken bile, gerçekten istemin ayrıntı düzeyine, dillere, potansiyel CWE’ye ve talimatların özgüllüğüne bağlı.” Dedi. “ERGO-Politikalar ve hızlı kurallar şeklinde yerleşik korkuluklara sahip olmak, sürekli olarak güvenli kod elde etmede paha biçilmezdir.”

Dahası, Openai’nin GPT-4.1’inin güvenlik ve güvenlik değerlendirmesi, LLM’nin sistem istemini değiştirmeden öncü GPT-4O’ya kıyasla konu dışına çıkma ve kasıtlı kötüye kullanıma izin verme olasılığının üç kat daha fazla olduğunu ortaya koydu.

SPLXAI, “En son modele yükseltme, kodunuzdaki model adı parametresini değiştirmek kadar basit değil.” Dedi. “Her modelin kullanıcıların bilmesi gereken benzersiz yetenekleri ve güvenlik açıkları vardır.”

Diyerek şöyle devam etti: “Bu, en son modelin öncekilerden farklı olarak talimatları yorumladığı ve izlediği bu durumlarda özellikle kritiktir-hem AI destekli uygulamaları konuşlandıran kuruluşları hem de onlarla etkileşime giren kullanıcıları etkileyen beklenmedik güvenlik endişeleri sunar.”

GPT-4.1 ile ilgili endişeler, Openai’nin hazırlık çerçevesini, gelecekteki modelleri serbest bırakmadan önce nasıl test edeceğini ve değerlendireceğini detaylandırmasından bir aydan az bir süre sonra, “başka bir sınır AI geliştiricisi karşılaştırılabilir korumalar olmadan yüksek riskli bir sistem serbest bırakırsa” gereksinimlerini ayarlayabilir.

Bu aynı zamanda AI şirketinin güvenlik standartlarını düşürme pahasına yeni model yayınları acele edebileceğinden endişe duymuştur. Bu ayın başlarında Financial Times’dan bir rapor, Openai’nin yeni O3 modelinin piyasaya sürülmesinden önce güvenlik kontrolleri için personel ve üçüncü taraf gruplarına bir haftadan daha kısa bir sürede verdiğini belirtti.

Metr’in model üzerindeki kırmızı takım egzersizi, “modelin bu davranışın kullanıcı ve Openai’nin niyetleri ile yanlış hizalandığını açıkça anlasa bile, puanını en üst düzeye çıkarmak için görevleri sofistike yollarla hile veya hackleme eğilimi daha yüksek bir eğilime sahip olduğunu” gösterdi.

Çalışmalar ayrıca, veri kaynaklarını ve AI destekli araçları bağlamak için antropik tarafından tasarlanan açık bir standart olan model bağlam protokolünün (MCP), dolaylı hızlı enjeksiyon ve yetkisiz veri erişimi için yeni saldırı yolları açabileceğini göstermiştir.

“Kötü niyetli [MCP] Sunucu yalnızca kullanıcıdan duyarlı verileri dışarı atmaz, aynı zamanda ajanın davranışlarını ele geçirmez ve diğer güvenilir sunucular tarafından sağlanan talimatları geçersiz kılar, bu da güvenilir altyapı konusunda bile acentenin işlevselliğinden tam bir uzlaşmaya yol açar. “Dedi.

Bir araç zehirlenmesi saldırısı olarak adlandırılan yaklaşım, kötü niyetli talimatlar kullanıcılar için görünmez olan ancak AI modelleri tarafından okunabilen MCP araç açıklamalarına gömüldüğünde, bunları gizli veri pespiltrasyon faaliyetlerini gerçekleştirmeye yönlendirdiğinde ortaya çıkar.

Şirket tarafından sergilenen bir pratik saldırıda, WhatsApp sohbet geçmişleri, kullanıcı zaten onayladıktan sonra araç açıklamasını değiştirerek güvenilir bir WhatsApp MCP sunucu örneğine bağlı olan imleç veya Claude masaüstü gibi bir aracı sistemden sifonlanabilir.

Gelişmeler, bir makinede yerel olarak çalışan bir MCP sunucusu ile iletişim kurmak için tasarlanmış şüpheli bir Google Chrome uzantısının keşfini takip ediyor ve saldırganlara sistemin kontrolünü ele geçirme ve tarayıcının sanal alan korumalarını etkili bir şekilde ihlal etme yeteneği.

ExtensionTotal, geçen hafta bir raporda, “Chrome uzantısı, MCP sunucusunun araçlarına sınırsız erişime sahipti – kimlik doğrulamasına gerek yok – ve dosya sistemiyle sunucunun maruz kalan özelliklerinin temel bir parçası gibi etkileşime giriyordu.” Dedi.

Diyerek şöyle devam etti: “Bunun potansiyel etkisi büyük, kötü niyetli sömürü ve tam sistem uzlaşması için kapıyı açıyor.”

Bu makaleyi ilginç mi buldunuz? Bizi takip edin Twitter ve daha fazla özel içeriği okumak için LinkedIn.

Source link

Yeni raporlar, önde gelen AI sistemlerinde jailbreaks, güvensiz kod ve veri hırsızlığı risklerini ortaya çıkarır

Son Yazılar

Kategoriler