AI Güvenliği ve AI Güvenliği [2 Types of AI Red Teaming]


Yapay zeka güvenliği ile AI güvenliği için kırmızı takım arasındaki fark nedir?

AI Red Teaming, kusurları ve güvenlik açıklarını bulmak için bir AI testi biçimidir ve yöntem hem AI güvenliği hem de AI güvenlik egzersizleri için kullanılabilir. Ancak, infaz ve hedefler birinden diğerine değişir.

Güvenlik sorunları için AI Kırmızı Takım, AI sistemlerinin bomba oluşturma veya hücum dili üretme talimatları sağlamak gibi zararlı içerik üretmesini önlemeye odaklanır. Yapay zekanın sorumlu kullanılmasını ve etik standartlara uymayı sağlamayı amaçlamaktadır.

Öte yandan, AI güvenliği için kırmızı ekip egzersizleri, AI sistemlerinin, AI’nın yerleşik olduğu sistemlerin gizliliğini, bütünlüğünü veya mevcudiyetini tehlikeye atma konusunda kötü aktörlerin kötüye kullanılmasını önlemek amacıyla AI sistemlerinin test edilmesini içerir.

AI Güvenlik Örneği: Snap, Inc.

Snap Inc., AI Safety Red Teaming’in erken benimseyen bir kişi oldu ve bu yeni teknolojinin etrafında bulundukları katı önlemleri test etmek için Hackerone ile ortaklık kurdu. Birlikte, daha önce bilinmeyen problemleri ortaya çıkarmak için daha etkili bir yaklaşıma yol açan AI Güvenlik Kırmızı Takım için metodolojide önemli gelişmeler yaptık.

SNAP, programının arka ucunda görüntü üreten AI modellerini kullanır. Güvenlik ekibi, şiddet, cinsiyet, kendine zarar verme ve yeme bozuklukları da dahil olmak üzere test etmek istedikleri sekiz zararlı görüntü kategorisini tespit etmişti.

“Ürün üzerinde çekişmeli testler yapmak istediğimizi biliyorduk ve ekibimizdeki bir güvenlik uzmanı hata ödül tarzı bir program önerdi. Oradan, ‘bayrağı yakalama’ (CTF) stil egzersizi kullanma fikrini tasarladık. Araştırmacıları, bayrak egzersizlerini yakalamak için teşvik edin. görüntü modelleri ama bunun etkili olabileceğini düşündüm. “
– Ilana Arbisser, teknik kurşun, Snap Inc.’de AI Güvenliği

Ödülleri ayarlayarak, topluluğumuzu ürünü test etmeye teşvik ettik ve içeriğe odaklanmak için en çok platformlarında oluşturulma konusunda endişeliydi. Snap ve Hackerone, ödülleri dinamik olarak ayarladı ve araştırmacı katılımı için optimize etmek için fiyatları denemeye devam etti. Egzersiz, SNAP’a filtrelerini test etmek ve modeli daha fazla değerlendirmek için kullanılabilecek veriler oluşturmak için bir süreç verebildi. Diğer sosyal medya şirketlerinin içerik test etmek için aynı bayrakları kullanmaları için kriterler ve standartlar oluşturmaya yardımcı olacak araştırmaları ve sonraki bulguları tahmin ediyoruz.

AI Güvenlik Örneği: Google Bard

AI Security için kırmızı bir takım egzersizinde, bilgisayar korsanları Joseph “Rez0” Thacker, Justin “Rhynorater” Gardner ve Roni “Lupin” Carta, Genai asistanı Bard’ı hacklemek için birlikte işbirliği yaptı.

Bard’ın Uzantıları AI özelliğinin başlatılması, Bard’a Google Drive, Google Dokümanlar ve Gmail’e erişim sağlar. Bu, Bard’ın kişisel olarak tanımlanabilir bilgilere (PII) erişebileceği ve hatta e -postaları okuyabileceği, belgeleri ve konumları kullanabileceği anlamına gelir. Bilgisayar korsanları, güvenilmeyen verileri analiz ettiğini ve rızası olmadan kullanıcılara teslim edilebilen dolaylı hızlı enjeksiyona duyarlı olabileceğini belirlediler.

Bard uzantılarının piyasaya sürülmesinden 24 saatten daha kısa bir sürede, bilgisayar korsanları şunları gösterebildiler:

  1. Google Bard, uzantılardan elde edilen veriler yoluyla dolaylı hızlı enjeksiyona karşı savunmasızdır.
  2. Kötü niyetli görüntü hızlı enjeksiyon talimatları güvenlik açığından yararlanacaktır.
  3. İstismar yazarken, hızlı bir enjeksiyon yükü geliştirildi. Kurbanın e -postalarını ekleyin.

Google Bard'da Dolaylı Hızlı Enjeksiyon

Kişisel e -postaların ortaya çıkması gibi güçlü bir etkisi olan bilgisayar korsanları, Google’a bu güvenlik açığını derhal bildirdi ve bu da 20.000 dolarlık bir ödül ile sonuçlandı.

Bunun gibi hatalar sadece Genai’de bulunan güvenlik açıklarının yüzeyini çizer. Genai ve LLM’leri geliştiren ve konuşlandıran kuruluşlar, rekabetçi bir şekilde tanıtmak konusunda ciddi olacaklarsa, LLM’ler için OWASP Top 10’da uzmanlaşmış güvenlik yeteneklerine ihtiyaç duyuyor. Ve güvenli bir şekilde.

Güvenlik için AI kırmızı takım Ve Hackerone ile güvenlik

Etik bilgisayar korsanlarının uzmanlığını kullanarak ve HackerOne’un AI Red Teaming için AI güvenlik ve emniyete yönelik oyun kitabını ele alacak şekilde böcek ödül modelini uyarlayarak, potansiyel riskleri hafifletirken AI’yi güçlendirmek için proaktif bir yaklaşımdır. AI entegrasyonuna giren teknoloji ve güvenlik liderleri için, hackerone ve etik bilgisayar korsanlarının AI güvenlik yolculuğunuza nasıl katkıda bulunabileceğini keşfetmek için sizinle ortaklık kurmayı bekliyoruz. Kuruluşunuz için AI Red Teaming’in nasıl uygulanacağı hakkında daha fazla bilgi edinmek için Hackerone’deki uzmanlarımızla iletişime geçin.



Source link