Derin öğrenme modellerinde arka kapı saldırılarını tespit etmek için bir çerçeve


Kendini süren otomobiller ve tıbbi cihazlar gibi güvenlik açısından kritik sistemlerin giderek ayrılmaz bir parçası olan derin öğrenme modelleri, gizli arka kapı saldırılarına karşı savunmasızdır.

Bu saldırılar, gizli tetikleyicilerin modellere enjekte edilmesini içerir ve tetiklendiğinde yanlış davranmalarına neden olur.

Katar Computing Araştırma Enstitüsü ve Mohamed Bin Zayed Yapay Zeka Üniversitesi’nden araştırmacılar, bu tür saldırıları gerçekçi kısıtlamalar altında tespit etmek için tasarlanmış yeni bir çerçeve olan Debackdoor’u geliştirdiler.

Gerçekçi kısıtlamaları ele almak

Birçok senaryoda, geliştiriciler eğitim verilerine erişmeden veya modelin iç kısımlarını inceleme yeteneği olmadan üçüncü taraf kaynaklardan derin modeller elde ederler.

Mevcut tekniklerin çoğu, modelin mimarisine, eğitim verilerine veya modelin birden fazla örneğine erişim gerektirdiğinden, arka kapı algılama için zorlu bir ortam yaratır.

Debackdoor, aday tetikleyiciler üretmek ve etkili tetikleyicileri tanımlamak için bir arama tekniği kullanarak tümdengelimli bir yaklaşım kullanarak bu sınırlamaları ele almaktadır.

Çerçeve, arka kapı etkinliğini değerlendirmek için anahtar bir metrik olan Saldırı Başarı Oranı’nın (ASR) sürekli bir versiyonunu optimize etmeye odaklanmaktadır.

Tespit metodolojisi

Debackdoor’un algılama metodolojisi, saldırının açıklamasına göre olası tetik şablonlarının arama alanının tanımlanmasını içerir.

Rapora göre, aday tetikleyicileri yinelemeli olarak inşa etmek ve test etmek için stokastik bir arama tekniği olan Simüle Tavlama (SA) kullanır.

SA, yerel minimadan kaçınma yeteneği için seçilir ve tepe tırmanışı gibi daha basit yöntemlere kıyasla tetik alanının daha kapsamlı bir şekilde araştırılmasını sağlar.

Bu tetikleyicileri küçük bir temiz giriş setine uygulayarak ve modelin yanıtlarını değerlendirerek Debackdoor, bir modelin geri yüklenmediğini belirleyebilir.

Debackdoor Framework, farklı tetikleyici tipler ve All2one, All2all ve One2one gibi etiket stratejileri de dahil olmak üzere çeşitli saldırı senaryolarında yüksek algılama performansı göstermiştir.

Kapsamları ve etkinlikleri ile sınırlı olan AEVA ve B3D gibi mevcut tespit taban çizgilerinden daha iyi performans gösterir.

Debackdoor’un uyarlanabilirliği, saldırı stratejisinin bilinmediği veya çeşitli olduğu senaryolarda özellikle değerli hale getirerek, kritik uygulamalarda derin öğrenme modellerinin güvenliğini sağlamak için sağlam bir çözüm sağlar.

SOC/DFIR ekiplerinden misiniz? -Kötü amaçlı yazılımları, kimlik avı olaylarını analiz edin ve herhangi biriyle canlı erişim sağlayın. Run -> Şimdi ücretsiz başlayın.



Source link