LegalPwn saldırı hileleri Chatgpt ve Gemini gibi AI araçlarını kötü amaçlı kod çalıştırmaya yönlendirir


Güvenlik araştırmacıları, AI araçlarının yasal metni nasıl işlediğini ve popüler dil modellerini tehlikeli kod yürütmeye başarıyla kandıran yeni bir siber saldırı türünü keşfettiler.

Siber güvenlik firması Pangea, görünüşte masum yasal feragatnameler, hizmet şartları ve telif hakkı bildirimleri içine kötü niyetli talimatlar yerleştiren “LegalPWN” adlı sofistike bir saldırı yöntemini açıkladı.

Teknik, hızlı enjeksiyon saldırılarında önemli bir evrimi temsil eder ve AI sistemlerinin resmi yasal dilde yerleştirdiği doğal güveni hedeflemektedir.

Saldırı nasıl çalışır

Açık kötü amaçlı komutlar kullanan geleneksel hızlı enjeksiyonların aksine, LegalPWN, otantik görünümlü yasal metin içinde zararlı talimatları gizler.

Saldırganlar, AI modellerine güvenlik protokollerini görmezden gelmelerini, tehlikeli kodu güvenli olarak yanlış sınıflandırmasını ve hatta kötü amaçlı komutlar yürütmesini öğreten gizli yönergeler içeren feragatnameler oluşturur.

Araştırma ekibi, bu yaklaşımı endişe verici sonuçlarla birden fazla önde gelen AI platformunda test etti.

ChatGPT 4.1, ChatGPT 4O, Google’ın Gemini 2.5 Flash ve Pro, Xai’s GroK 3 ve 4, Meta’s Llama 3.3 70B ve Microsoft’un Phi 4’ü gibi popüler modeller, belirli koşullar altında saldırıya kurban düştü.

Çıkarımlar laboratuvar testlerinin çok ötesine uzanır. Pangea’nın araştırmacıları, Google’ın Gemini-CLI aracı ve GitHub Copilot da dahil olmak üzere canlı ortamlarda LegalPWN saldırılarını başarıyla konuşlandırdılar.

Bir gösteride saldırı, AI güdümlü güvenlik analizini atladı ve sistemlerin kötü niyetli ters kabuk kodunu zararsız bir hesap makinesi programı olarak sınıflandırmasına neden oldu.

En önemlisi, Gemini-CLI’nin sadece tehdidi tespit edemediği, aynı zamanda kullanıcıların kötü amaçlı kodu yürütmelerini ve sistemlerini tehlikeye atmasını aktif olarak tavsiye ettiği bir olaydı.

Github Copilot benzer şekilde tehlikeli ağ kodunu iyi huylu işlevsellik olarak yanlış tanımladı.

Tüm AI sistemleri eşit derecede savunmasız değildi. Antropic’in Claude modelleri (3.5 sonnet ve sonnet 4), tüm test senaryolarında güçlü bir direnç gösterdi ve nasıl gizlendiğine bakılmaksızın sürekli olarak kötü amaçlı kodu tanımladı.

Meta’nın Llama Muhafızları 4 de saldırılara karşı sağlam savunmaları sürdürdü.

Araştırma, LegalPWN saldırılarının etkinliğinin büyük ölçüde sistem bilgi istemlerine – AI davranışına rehberlik eden temel talimatlara bağlı olduğunu ortaya koydu.

Güçlü, güvenlik odaklı sisteme sahip modeller, potansiyel manipülasyon hakkında açıkça uyaran saldırılara karşı önemli ölçüde daha iyi bir direnç gösterdi.

Bu keşif, AI sistemlerinin farklı metin türlerini nasıl işlediği ve güvendiğinde kritik bir güvenlik açığını vurgulamaktadır.

Yasal feragatnameler, gizlilik politikaları ve Hizmet Şartları dijital ortamlarda her yerde bulunur ve aynı inceleme kullanıcı girişlerine uygulanmadan AI araçları tarafından genellikle otomatik olarak işlenir.

Saldırının başarı oranı, yükün karmaşıklığına ve savunma önlemlerinin varlığına bağlı olarak değişiyordu, ancak ileri istemler bile bazı durumlarda güvenlik açığını tamamen ortadan kaldıramadı.

Uzmanlar, LegalPWN’nin AI güvenlik tehditlerinde yeni bir sınır temsil ettiği, özellikle de yasal dilin görünen meşruiyetinden yararlandığı için özellikle tehlikeli olduğu konusunda uyarıyor.

AI sistemleri kritik iş süreçlerine ve güvenlik araçlarına daha fazla entegre hale geldikçe, bu tür saldırıların önemli hasara neden olma potansiyeli önemli ölçüde artar.

Araştırma, gelişmiş AI kasalarına, gelişmiş girdi validasyonuna ve görünüşte meşru metin içinde nasıl gizlendiğine bakılmaksızın kötü niyetli niyeti tanımlayabilen daha sofistike algılama mekanizmalarına olan acil ihtiyacın altını çiziyor.

Find this News Interesting! Follow us on Google News, LinkedIn, and X to Get Instant Updates!



Source link