Yapay Zeka Güvenliği ve Yapay Zeka Güvenliği [2 Types of AI Red Teaming]


Yapay Zeka Güvenliği ve Yapay Zeka Güvenliği İçin Kırmızı Takım Oluşturma Arasındaki Fark Nedir?

Yapay zeka kırmızı ekip oluşturma, kusurları ve güvenlik açıklarını bulmaya yönelik bir yapay zeka testi biçimidir ve yöntem hem yapay zeka güvenliği hem de yapay zeka güvenlik egzersizleri için kullanılabilir. Ancak uygulama ve hedefler birbirinden farklıdır.

Güvenlik sorunlarına yönelik yapay zeka kırmızı ekibi, yapay zeka sistemlerinin bomba oluşturma talimatları sağlama veya saldırgan bir dil üretme gibi zararlı içerik üretmesini önlemeye odaklanır. Yapay zekanın sorumlu kullanımını ve etik standartlara bağlılığı sağlamayı amaçlamaktadır.

Öte yandan, Yapay Zeka Güvenliği için kırmızı ekip çalışmaları, kötü aktörlerin yapay zekayı kötüye kullanmasını, örneğin yapay zekanın gömülü olduğu sistemlerin gizliliğini, bütünlüğünü veya kullanılabilirliğini tehlikeye atmasını önlemek amacıyla yapay zeka sistemlerinin test edilmesini içerir.

Yapay Zeka Güvenliği Örneği: Snap, Inc.

Snap Inc., yapay zeka güvenlik kırmızı ekibini ilk benimseyenlerden biri oldu ve bu yeni teknoloji etrafında uygulanan katı güvenlik önlemlerini test etmek için HackerOne ile ortaklık kurdu. Birlikte, daha önce bilinmeyen sorunların ortaya çıkarılmasında daha etkili bir yaklaşıma yol açan yapay zeka güvenliği kırmızı ekip oluşturma metodolojisinde önemli gelişmeler kaydettik.

Snap, programının arka ucunda görüntü üreten yapay zeka modellerini kullanıyor. Güvenlik ekibi, şiddet, seks, kendine zarar verme ve yeme bozuklukları dahil olmak üzere test etmek istediği sekiz zararlı görüntü kategorisini zaten belirlemişti.

“Ürün üzerinde çekişmeli testler yapmak istediğimizi biliyorduk ve ekibimizdeki bir güvenlik uzmanı, hata ödülü tarzı bir program önerdi. Buradan hareketle, ‘Bayrağı Ele Geçirme’ (CTF) tarzı bir egzersiz kullanma fikrini tasarladık. Araştırmacıları belirli ilgi alanlarımıza bakmaya teşvik etmek Bayrağı Yakalama egzersizleri yaygın bir siber güvenlik uygulamasıdır ve DEFCON’da büyük dil modellerini (LLM’ler) test etmek için bir CTF kullanılmıştır. Bunun testlerde uygulandığını görmemiştik. metinden resme modeller ancak bunun etkili olabileceğini düşündüm.”
— Ilana Arbisser, Teknik Lider, Snap Inc.’de Yapay Zeka Güvenliği

Ödüller belirleyerek topluluğumuzu ürünü test etmeye ve Snap’in platformlarında oluşturulmasından en çok endişe duyduğu içeriğe odaklanmaya teşvik ettik. Snap ve HackerOne, ödülleri dinamik olarak ayarladı ve araştırmacı katılımını optimize etmek için fiyatları denemeye devam etti. Bu alıştırma, Snap’e filtrelerini test edebileceği ve modeli daha ileri düzeyde değerlendirmek için kullanılabilecek verileri oluşturabileceği bir süreç sunabildi. Araştırmanın ve sonraki bulguların, diğer sosyal medya şirketlerinin içerik testi için aynı işaretleri kullanmalarına yönelik karşılaştırmalar ve standartlar oluşturmaya yardımcı olacağını öngörüyoruz.

Yapay Zeka Güvenliği Örneği: Google Bard

Yapay zeka güvenliğine yönelik kırmızı ekip çalışması kapsamında bilgisayar korsanları Joseph “rez0” Thacker, Justin “Rhynorater” Gardner ve Roni “Lupin” Carta, GenAI asistanı Bard’ı hacklemek için birlikte çalıştı.

Bard’ın Extensions AI özelliğinin kullanıma sunulması, Bard’a Google Drive, Google Dokümanlar ve Gmail’e erişim olanağı sağlıyor. Bu, Bard’ın Kişisel Olarak Tanımlanabilir Bilgilere (PII) erişebileceği ve hatta e-postaları okuyabileceği, belgeleri ve konumları yönlendirebileceği anlamına gelir. Bilgisayar korsanları, bu yazılımın güvenilmeyen verileri analiz ettiğini ve kullanıcılara rızaları olmadan gönderilebilen Dolaylı İstem Enjeksiyonu’na karşı duyarlı olabileceğini belirledi.

Bard Extensions’ın piyasaya sürülmesinden 24 saatten kısa bir süre sonra bilgisayar korsanları şunları göstermeyi başardı:

  1. Google Bard, Uzantılardan gelen veriler yoluyla Dolaylı İstem Eklemeye karşı savunmasızdır.
  2. Kötü amaçlı görüntü İstemi Enjeksiyon talimatları bu güvenlik açığından yararlanacaktır.
  3. İstismar yazarken, hızlı bir enjeksiyon verisi geliştirildi. kurbanın e-postalarını sızdırın.

Google Bard'da dolaylı istem enjeksiyonu

Kişisel e-postaların sızması gibi güçlü bir etkiye sahip olan bilgisayar korsanları, bu güvenlik açığını derhal Google’a bildirdi ve bunun sonucunda 20.000 ABD doları tutarında bir ödül elde edildi.

Bunun gibi hatalar GenAI’da bulunan güvenlik açıklarının yalnızca yüzeyini çiziyor. GenAI ve LLM’leri geliştiren ve dağıtan kuruluşlar, eğer rekabetçi bir şekilde tanıtma konusunda ciddi olacaklarsa, LLM’ler için OWASP Top 10’da uzmanlaşmış güvenlik yeteneklerine ihtiyaç duyuyorlar Ve güvenli bir şekilde.

Güvenlik için AI Kırmızı Ekip Oluşturma Ve HackerOne ile Güvenlik

HackerOne’ın AI Red Teaming’e yönelik taktik kitabı, etik bilgisayar korsanlarının uzmanlığını kullanarak ve hata ödül modelini AI emniyeti ve güvenliğini ele alacak şekilde uyarlayarak, potansiyel riskleri azaltırken AI’yı güçlendirmeye yönelik proaktif bir yaklaşımdır. Yapay zeka entegrasyonuna girişen teknoloji ve güvenlik liderleri için, HackerOne ve etik bilgisayar korsanlarının yapay zeka güvenliği yolculuğunuza nasıl katkıda bulunabileceğini keşfetmek üzere sizinle ortaklık kurmayı sabırsızlıkla bekliyoruz. Kuruluşunuz için AI Red Teaming’i nasıl uygulayacağınız hakkında daha fazla bilgi edinmek için HackerOne’daki uzmanlarımızla iletişime geçin.



Source link