AI Red Teaming: Hackerone’un oyun kitabı


AI’nın daha güvenli ve güvenilir olmasını sağlamak için EO, AI geliştiren şirketleri ve kritik altyapıdaki diğer şirketleri “Kırmızı Takım” a güvenmek için kullanan AI’yı çağırıyor: kusurları ve güvenlik açıklarını bulmak için test. EO ayrıca bu kırmızı takım test sonuçlarının bazılarının geniş açıklamalarını gerektirir.

AI sistemlerini test etmek mutlaka yeni değildir. 2021’de hackerone bir genel algoritmik önyargı incelemesi Def Con 29’daki AI köyünün bir parçası olarak Twitter ile. İnceleme, AI ve güvenlik topluluklarının üyelerini Twitter’ın görüntü kırpma algoritmalarındaki önyargıyı belirlemeye teşvik etti. . Katılım sonuçları Algoritmaları daha adil hale getirmek için iyileştirmeleri bilgilendirerek çeşitli onaylanmış önyargıları ortaya çıkardı.

Bu blog yazısında, HackerOne tarafından geliştirilen ve bu sistemleri güçlendirmek için etik bilgisayar korsanları ve AI güvenliği arasındaki işbirliğine odaklanarak ortaya çıkan oyun kitabına gireceğiz. Hata ödül programlarının güvenlik açıklarını bulmada etkili olduğu kanıtlanmıştır, ancak AI güvenliği yeni bir yaklaşım gerektirir. 7. Yıllık Hacker Powered Güvenlik Raporunda yayınlanan son bulgulara göre, bilgisayar korsanlarının% 55’i Genai araçlarının kendilerinin önümüzdeki yıllarda kendileri için önemli bir hedef haline geleceğini ve% 61’i Genai’yi kullanarak hack araçlarını kullanmayı ve geliştirmeyi planladıklarını söyledi. Daha fazla güvenlik açıkları bulun.

“Düzgün tasarlanmış her AI uygulaması benzersiz bir güvenlik tehdidi modeli vardır ve olumsuz sonuçlara karşı korumak için bazı güvenlik parametreleri veya koruma rayları uygulamalıdır. En çok önem verdiğiniz korumalar, uygulama ve amaçlanan kitle için kullanım durumuna göre değişecektir. Ancak bu koruma rayları ne kadar kolay atlanır? AI Red Teaming ile bulduğunuz şey bu. ”
– Dane Sherrets, Kıdemli Çözümler Mimarı, Hackerone

Hackerone’nin AI kırmızı takımına yaklaşımı

Hackerone, güvenlik sorunları için AI dağıtımlarını değerlendirmek için önde gelen teknoloji firmaları ile ortaklık kuruyor. Erken AI kırmızı takımımız için seçilen etik bilgisayar korsanları tüm beklentileri aştı. Bu deneyimlerden yola çıkarak, AI Safety Red Teaming için gelişen oyun kitabımızı şekillendiren Glearned Insights’ı paylaşmaya hevesliyiz.

Yaklaşımımız, Hackerone’un on yılı aşkın bir süredir başarılı bir şekilde sunduğu, ancak optimal AI güvenlik katılımı için gerekli çeşitli değişikliklerle birlikte güçlü böcek ödül modeline dayanıyor.

  • Takım Kompozisyonu: Titiz bir şekilde seçilmiş ve daha da önemlisi, çeşitli ekip etkili bir değerlendirmenin belkemiğidir. Arka plan, deneyim ve beceri setlerinde çeşitliliği vurgulamak, güvenli bir yapay zeka sağlamak için çok önemlidir. Merak odaklı düşünürlerin, çeşitli deneyimlere sahip bireylerin bir karışımı ve üretim LLM hızlı davranışında yetenekli bireyler en iyi sonuçları vermiştir.
  • İşbirliği ve boyutu: AI Red Teaming üyeleri arasında işbirliği, genellikle geleneksel güvenlik testlerininkini aşan benzersiz bir öneme sahiptir. 15-25 testçi arasında değişen bir takım büyüklüğü, etkili katılımlar için doğru dengeyi vurduğu ve çeşitli ve küresel perspektifler getirdiği bulunmuştur.
  • Süre: Yapay zeka teknolojisi çok hızlı bir şekilde geliştiğinden, 15 ila 60 gün arasındaki katılımların AI güvenliğinin belirli yönlerini değerlendirmek için en iyi çalıştığını bulduk. Bununla birlikte, en azından bir avuç vakada, tanımlanmış bir bitiş tarihi olmayan sürekli bir katılım benimsenmiştir. Bu sürekli AI kırmızı takım yöntemi mevcut bir hata ödül programı ile iyi eşleşir.
  • Bağlam ve kapsam: Geleneksel güvenlik testlerinden farklı olarak, AI Red Teamers bir modele körü körüne yaklaşamazlar. Müşterilerle işbirliği içinde hem geniş bağlam hem de belirli kapsam oluşturmak, AI’nın amacını, dağıtım ortamını, mevcut güvenlik özelliklerini ve sınırlamaları belirlemek için çok önemlidir.
  • Özel ve Kamu: AI Red takımlarının çoğu, güvenlik sorunlarının hassasiyeti nedeniyle özel olarak faaliyet gösterse de, Twitter’ın Algoritmik Önyargı Ödül Mücadelesiönemli bir başarı sağlamıştır.
  • Teşvik modeli: Teşvik modelinin uyarlanması AI Güvenlik Oyun Kitabının kritik bir yönüdür. Belirli güvenlik sonuçlarına (ödüllere benzeyen) ulaşma ödülleri ile birlikte her iki sabit fara katılım ödülünü içeren hibrit bir ekonomik modelin en etkili olduğunu kanıtlamıştır.
  • Empati ve rıza: Birçok güvenlik düşüncesi zararlı ve saldırgan içerikle karşılaşmayı içerebileceğinden, yetişkinlerden (18+ yaş) açık katılım izni almak, zihinsel sağlık için düzenli destek sunmak ve değerlendirmeler arasında kırılmaları teşvik etmek önemlidir.

“Farklı AI modellerinin veya dağıtımlarının büyük ölçüde farklı tehdit modellerine sahip olacağını vurgulamak önemlidir. Bir sosyal medya ağına dağıtılan bir AI metin-imaj jeneratörü, tıbbi bir bağlamda AI Chabot’tan farklı bir tehdit modeli olacaktır. Bu konuşmaların başlarında, tehdit modelinin kullanım durumuna, düzenleyici ortama, mimariye ve diğer faktörlere dayandığını tanımlıyoruz. ”
– Dane Sherrets, Kıdemli Çözümler Mimarı, Hackerone

Hackerone topluluğunda, 750’den fazla aktif hacker hızlı hackleme ve diğer AI güvenlik ve güvenlik testi konusunda uzmanlaşmıştır. Bugüne kadar, bu bilgisayar korsanlarının 90’dan fazla Hackerone’un AI Red Teaming nişanlarına katıldı. Son zamanlarda yapılan tek bir katılımda, 18 kişilik bir ekip ilk 24 saat içinde 26 geçerli bulgu belirledi ve iki haftalık katılımda 100’den fazla geçerli bulgu biriktirdi. Dikkate değer bir örnekte, ekibe verilen zorluklardan biri, gamalı haç içeren görüntülerin üretilmesini önlemek için oluşturulan önemli korumaları atlamaktı. AI Red ekibindeki özellikle yaratıcı bir hacker, bu korumaları hızlı bir şekilde atlayabildi ve bulguları sayesinde model artık bu tür bir istismara karşı çok daha dayanıklı.

Yapay zeka geleceğimizi şekillendirmeye devam ettikçe, Hackerone gibi platformlarla işbirliği içinde etik hacker topluluğu, güvenli entegrasyonunu sağlamaya kararlıdır. AI kırmızı ekiplerimiz, işletmelere AI modellerinin sorumlu bir şekilde konuşlandırılmasının karmaşıklıklarında gezinmelerine yardımcı olmaya hazırdır ve olumlu etki potansiyellerinin istenmeyen sonuçlara karşı korunurken en üst düzeye çıkarılmasını sağlar.

“Bence, AI’yı güvence altına almanın en iyi yolu da kitle kaynak kullanımı kullanmaktır. Hacker’ları AI Red Teaming nişanları aracılığıyla ilgilendirerek, AI güvenliğinin ve AI güvenliğinin hızla değişen doğasını daha iyi anlayabileceğimize inanıyorum. Bu, bu heyecan verici yeni teknolojilerin uygulanmasında risk alacak ve tüm faydalardan yararlanmamıza izin verecektir. ”
– Josh Donlan, Kıdemli Çözümler Mühendisi, Hackerone

Etik bilgisayar korsanlarının uzmanlığını kullanarak ve HackerOne’un oyun kitabı, AI güvenliğini ele alacak şekilde böcek ödül modelini uyarlayarak, potansiyel riskleri hafifletirken AI’yi güçlendirmek için proaktif bir yaklaşımdır. AI entegrasyonuna giren teknoloji ve güvenlik liderleri için, hackerone ve etik bilgisayar korsanlarının AI güvenlik yolculuğunuza nasıl katkıda bulunabileceğini keşfetmek için sizinle ortaklık kurmayı bekliyoruz. Kuruluşunuz için AI Red Teaming’in nasıl uygulanacağı hakkında daha fazla bilgi edinmek için, AI Red Teaming Solution Brief’i indirin veya HackerOne’daki uzmanlarımızla iletişime geçin.





Source link