Vigil: Açık kaynaklı LLM güvenlik tarayıcısı


Vigil, Büyük Dil Modellerine (LLM’ler) yönelik hızlı enjeksiyonları, jailbreak’leri ve diğer potansiyel tehditleri tespit eden açık kaynaklı bir güvenlik tarayıcısıdır.

İstemi enjeksiyon, bir saldırganın özel olarak tasarlanmış girdileri kullanarak bir LLM’yi başarılı bir şekilde etkilemesi durumunda ortaya çıkar. Bu, LLM’nin saldırgan tarafından belirlenen hedefleri istemeden gerçekleştirmesine yol açar.

LLM güvenlik tarayıcısı

“LLM’lerin sunduğu olanaklar beni gerçekten heyecanlandırdı, ancak aynı zamanda bunların etrafında oluşturulan uygulamalar ve uygulamalara erişim izni verdiğimiz veriler etrafında daha iyi güvenlik uygulamalarına duyulan ihtiyacı da fark ettim. Bu proje bana yapay zeka ve siber güvenliğin kesiştiği noktada bir şeyler inşa etme şansı verdi. Umarız bu, diğer güvenlik araştırmacılarına ve geliştiricilerine, mevcut Yüksek Lisans giriş ve çıkış güvenlik önlemlerini deneme ve hatta kendi güvenlik önlemlerini oluşturma konusunda bir başlangıç ​​sağlar. Vigil’in yaratıcısı Adam M. Swanda, Help Net Security’ye, doğrudan üretimde kullanılmasını beklediğim her şeyden daha “mümkün olan” dedi.

Vigil LLM güvenlik tarayıcısının öne çıkanları

  • Modüler ve genişletilebilir tasarım
  • YARA’yı (buluşsal yöntem), vektör DB benzerliğini, transformatör modelini, hızlı yanıt benzerliğini destekler
  • Küçük kodlarla özel tarayıcılar eklenebilir
  • Kendi kendine barındırılan veya OpenAI’yi kullanan
  • Gömülü veri kümeleri ve YARA imzaları sağlandı
  • Vector DB, tarayıcı eşiği eşleştiğinde algılanan istemlerle otomatik olarak güncellenebilir
  • Çok yapılandırılabilir (tarayıcıları etkinleştirme/devre dışı bırakma, eşikleri değiştirme, farklı yerleştirme modelleri kullanma vb.)
  • Özel tarayıcılar, yeni YARA imzaları ekleyerek veya vektör veritabanını güncelleyerek kolayca genişletilebilir

Vigil GitHub’dan indirilebilir. Bu depo aynı zamanda kendi kendine barındırmaya başlamak için gereken algılama imzalarını ve veri kümelerini de sağlar.

Swanda yakın vadede Vigil’i geliştirmeye devam etmeyi planlıyor. Özellikle, Vigil’i ve çeşitli tarayıcılarını özel veri kümelerine göre değerlendirmek için tasarlanmış bir uygulama üzerinde çalışıyor. Bu uygulama, yanlış pozitifler ve diğer ilgili ölçümler gibi hususları değerlendirir. Ek olarak Swanda, görüntü tabanlı anlık enjeksiyonları tespit etmeye yönelik yöntemler araştırıyor.

Dikkate alınması gereken daha fazla açık kaynak araç:



Source link