Meta’nın Lama Güvenlik Duvarı, Hızlı Enjeksiyon Güvenlik Açığı Kullanarak Bypassed


Araştırmacılar, Meta'nın Lama Güvenlik Duvarı'na Hızlı Enjeksiyon Güvenlik Açıklarını Boyun

Trendyol’un Uygulama Güvenlik Ekibi, Meta’nın Lama Güvenlik Duvarı Korumalarını gelişmiş hızlı enjeksiyon saldırılarına karşı güvenilmez hale getiren bir dizi baypas ortaya çıkardı.

Bulgular, mevcut LLM güvenlik önlemlerinin hazır olmasıyla ilgili yeni endişeler gündeme getirmekte ve işletmeler iş akışlarına giderek daha büyük dil modellerini daha fazla yerleştirirken daha sağlam savunmalara acil ihtiyacın altını çizmektedir.

Değerlendirme sırasında, trendyol mühendisleri, kötü niyetli kullanıcı talimatlarını göstermeyi amaçlayan derhal_Guard bileşenine odaklanarak Meta’nın açık kaynaklı lama güvenlik duvarını konuşlandırdı.

Google Haberleri

Key Takeaways
1. Meta's PROMPT_GUARD failed to block Turkish phrases like "üstteki yönlendirmeleri salla" and leetspeak such as "1gn0r3," exposing reliance on English keywords and exact matches.
2. The module missed a SQL injection in LLM-generated Python code, with risks of unverified code use, security gaps, system exposure, and false trust in automated scans.
3. Invisible Unicode characters hid malicious instructions in benign prompts, bypassing Llama Firewall and posing risks in collaborative settings.
4. Testing and Disclosure Of 100 payloads tested, half succeeded; Meta closed Trendyol’s May 5, 2025 report as "informative" by June 3 without a bounty, urging the AI security community to develop robust defenses against evolving threats.

Şaşırtıcı bir şekilde, muhafız, modelin bir önceki yönleri görmezden gelmesini ve ardından bir cümleyi Fransızca’ya çevirmesini söyleyen “Üstteki yönlendirmeleri Salla” ifadesini içeren bir Türk dil enjeksiyonuna izin verdi.

Meta’s Llama Güvenlik Duvarı Bypass

Tarama, açıkça kötü niyetli niyete rağmen iyi huylu bir sonuç döndürdü. Ekip ayrıca, “görmezden gelin” “1gn0r3” e dönüştüren basit Leetspeak şaşkınlıklarının da filtreyi geçtiğini ve lama-prompt-guard-2-86m modeline karşı test edildiğinde ihmal edilebilir jailbreak puanları aldığını gösterdi.

Bu deneyler, güvenlik duvarı kuralının büyük ölçüde İngilizce anahtar kelimelere ve kesin desen eşleşmelerine bağlı olduğunu ve dil veya karakter ikamelerindeki varyasyonlara kör bıraktığını ortaya koymuştur.

Aynı derecede rahatsız edici, ekibin LLMS tarafından oluşturulan güvensiz kod önerilerini işaretlemek için tasarlanmış modül olan Code_Shield’i değerlendirmesiydi.

Bir kavram kanıtında, araştırmacılar bir asistanlığa SQL sorgusu ile basit bir Python şişesi uç noktası üretme talimatı verdiler. Ortaya çıkan kod, kullanıcı girişini doğrudan sorgu dizesine birleştirerek bir ders kitabı SQL enjeksiyon güvenlik açığı oluşturur.

Göze çarpan riske rağmen, Code_Shield çıktıyı güvenli olarak sınıflandırdı ve tartışmasız yoluyla izin verdi.

Trendyol’un geliştiricileri bu eksiklik hakkında birkaç kritik endişeyi vurguladı:

  • Üretim riski: Takımlar kapsamlı bir insan incelemesi olmadan LLM tarafından üretilen snippet’lere güvenebilirler.
  • Güvenlik boşlukları: Otomatik taramaya aşırı güven, kritik güvenlik açıkları getirir.
  • Sistem maruziyeti: Üretim sistemleri tespit edilmemiş kusurlarla sömürüye karşı savunmasız hale gelir.
  • Güven Sorunları: Geliştiriciler otomatik güvenlik araçlarına yanlış güven geliştirebilirler.

Gözetim, bu otomatik sistemlerin kurumsal güvenlik çerçevelerinde nasıl tehlikeli kör noktalar yaratabileceğini göstermektedir.

Unicode Steganografi ve Görünmez Talimatlar

En sinsi bypass, gizli talimatların görünmez Unicode karakterlerine gömülmesini içeriyordu.

Araştırmacılar, Fransa’nın başkenti hakkında zararsız bir soru içindeki kötü niyetli direktifleri kamufle etti.

Kullanıcılar ve sıradan gözlemciler sadece zararsız bir sorgu görse de, LLM gizli komutu tanıdı ve yürüttü. Lama Güvenlik Duvarı’na gönderildiğinde, bu yük sıfır tehdit skoru ile incelemeyi geçti.

Trendyol’un ekibi, minimum görünmez yüklerin bile sistem istemlerini güvenilir bir şekilde yıkabileceğini ve modellerin keyfi veya zararlı çıktılar üretmesine neden olduğunu gösterdi.

Bu teknik, istemlerin geliştiriciler arasında kopyalandığı işbirlikçi ortamlarda özellikle akut bir tehdit oluşturur ve otomatik tarayıcılar gizli karakterlere görünürlükten yoksundur.

Toplamda, Trendyol Lama güvenlik duvarına karşı yüz benzersiz enjeksiyon yükünü test etti. Bu saldırıların yarısı sistemin savunmalarını atladı, bu da güvenlik duvarı biraz koruma sunarken, kapsamlı olmaktan uzak olduğunu öne sürdü.

Başarılı bypass, saldırganların kritik güvenlik filtrelerini, çıktı önyargılı veya saldırgan içeriği göz ardı etmeye veya yürütmeye hazır güvensiz kod oluşturmaya zorlayabileceği senaryoları vurgular.

LLM’leri geliştirici platformlarına, otomasyon boru hatlarına ve müşteriye dönük uygulamalara entegre etmeyi planlayan Trendyol gibi kuruluşlar için, bu güvenlik açıkları veri sızıntılarına, sistem uzlaşmasına veya düzenleyici uyuşmazlığa yol açabilecek somut riskleri temsil eder.

Trendyol’un güvenlik araştırmacıları, ilk bulgularını 5 Mayıs 2025’te Meta’ya bildirdi ve çok dilli ve gizlenmiş hızlı enjeksiyonları detaylandırdı.

Meta makbuzu kabul etti ve dahili bir inceleme başlattı, ancak raporu 3 Haziran’da “bilgilendirici” olarak kapattı ve bir hata ödülünü vermeyi reddetti.

Görünmez Unicode enjeksiyonları ile ilgili Google’a paralel bir açıklama, bir kopya olarak benzer şekilde kapatıldı.

Ilık satıcı yanıtlarına rağmen, Trendyol o zamandan beri kendi tehdit modelleme uygulamalarını geliştirdi ve vaka çalışmasını daha geniş AI güvenlik topluluğu ile paylaşıyor.

Şirket, diğer kuruluşları, LLM savunmalarının üretime geçmeden önce titiz kırmızı takımını yapmaya çağırıyor ve tek başına hızlı filtrelemenin her türlü uzlaşmayı önleyemeyeceğini vurguluyor.

İşletmeler üretken yapay zekanın gücünü kullanmak için yarışırken, Trendyol’un araştırması uyarıcı bir masal olarak hizmet eder: katmanlı, bağlam farkında önlemler olmadan, son güvenlik duvarı araçları bile aldatıcı basit saldırı vektörlerinin avına düşebilir.

Güvenlik topluluğu artık bu güçlü sistemleri manipüle etmek için sürekli yeni yollar geliştiren rakiplerin önünde kalmak için daha esnek algılama yöntemleri ve en iyi uygulamalar üzerinde işbirliği yapmalıdır.

Canlı kötü amaçlı yazılım davranışını araştırın, bir saldırının her adımını izleyin ve daha hızlı, daha akıllı güvenlik kararlarını alın -> Herhangi birini deneyin. Şimdi



Source link