Yapay zekanın daha güvenli ve güvenilir olmasını sağlamak için EO, yapay zeka geliştiren şirketlere ve yapay zekayı kullanan kritik altyapıdaki diğer şirketlere “kırmızı ekip” kurmaya, yani kusurları ve güvenlik açıklarını bulmak için test etmeye çağırıyor. EO ayrıca bu kırmızı takım test sonuçlarının bazılarının geniş bir şekilde açıklanmasını da gerektirir.
Yapay zeka sistemlerini test etmek mutlaka yeni bir şey değil. HackerOne 2021’de bir etkinlik düzenledi. kamuya açık algoritmik önyargı incelemesi DEF CON 29’da Yapay Zeka Köyü’nün bir parçası olarak Twitter ile birlikte. İnceleme, yapay zeka ve güvenlik topluluklarının üyelerini Twitter’ın görüntü kırpma algoritmalarındaki önyargıları tespit etmeye teşvik etti. katılımın sonuçları çeşitli doğrulanmış önyargıları gün ışığına çıkardı ve algoritmaları daha adil hale getirecek iyileştirmeler sağladı.
Bu blog yazısında, HackerOne tarafından geliştirilen ve bu sistemleri güçlendirmek için etik bilgisayar korsanları ile yapay zeka güvenliği arasındaki işbirliğine odaklanan, yeni ortaya çıkan taktik kitabını inceleyeceğiz. Hata ödül programlarının güvenlik açıklarını bulmada etkili olduğu kanıtlanmıştır, ancak yapay zeka güvenliği yeni bir yaklaşım gerektirir. 7. Yıllık Hacker Destekli Güvenlik Raporu’nda yayınlanan son bulgulara göre, bilgisayar korsanlarının %55’i GenAI araçlarının önümüzdeki yıllarda kendileri için önemli bir hedef haline geleceğini söylüyor ve %61’i GenAI kullanarak hackleme araçlarını kullanmayı ve geliştirmeyi planladıklarını söylüyor. daha fazla güvenlik açığı bulun.
“Düzgün tasarlanmış her yapay zeka uygulamasının benzersiz bir güvenlik tehdidi modeli vardır ve olumsuz sonuçlara karşı koruma sağlamak için bazı güvenlik parametreleri veya korkuluklar uygulamalıdır. En çok önemsediğiniz korumalar, uygulamanın kullanım durumuna ve hedef kitleye göre değişecektir. Peki bu korkuluklar ne kadar kolay aşılabilir? Yapay zekanın kırmızı takım oluşturmasıyla öğreneceğiniz şey budur.”
— Dane Sherrets, Kıdemli Çözüm Mimarı, HackerOne
HackerOne’ın Yapay Zeka Kırmızı Takım Oluşturmaya Yaklaşımı
HackerOne, yapay zeka dağıtımlarını güvenlik sorunları açısından değerlendirmek üzere önde gelen teknoloji firmalarıyla ortaklık kuruyor. İlk Yapay Zeka Kırmızı Takım çalışmamız için seçilen etik hackerlar tüm beklentileri aştı. Bu deneyimlerden yola çıkarak, yapay zeka güvenliği için kırmızı takım oluşturmaya yönelik gelişen oyun kitabımızı şekillendiren, toplanan içgörüleri paylaşmayı sabırsızlıkla bekliyoruz.
Yaklaşımımız, HackerOne’ın on yılı aşkın bir süredir başarıyla sunduğu güçlü hata ödül modeli üzerine kuruludur, ancak yapay zeka güvenliğinin optimum düzeyde devreye girmesi için gerekli çeşitli modifikasyonlar da mevcuttur.
- Takım Bileşimi: Titizlikle seçilmiş ve daha da önemlisi çeşitliliğe sahip bir ekip, etkili bir değerlendirmenin omurgasıdır. Arka plan, deneyim ve beceri setlerindeki çeşitliliği vurgulamak, güvenli bir yapay zeka sağlamak için çok önemlidir. Merak odaklı düşünürlerin, çeşitli deneyimlere sahip bireylerin ve üretimde LLM hızlı davranışı konusunda yetenekli olanların bir karışımı en iyi sonuçları vermiştir.
- İşbirliği ve Boyut: AI Red Teaming üyeleri arasındaki işbirliği, genellikle geleneksel güvenlik testlerini aşan benzersiz bir öneme sahiptir. 15-25 test uzmanından oluşan bir ekibin, çeşitli ve küresel bakış açıları getirerek etkili katılımlar için doğru dengeyi sağladığı görüldü.
- Süre: Yapay zeka teknolojisi çok hızlı geliştiğinden, Yapay Zeka Güvenliğinin belirli yönlerini değerlendirmek için 15 ila 60 gün arasındaki katılımların en iyi sonucu verdiğini gördük. Ancak en azından birkaç durumda, belirli bir bitiş tarihi olmayan sürekli bir sözleşme benimsenmiştir. Bu sürekli AI kırmızı ekip oluşturma yöntemi, mevcut bir hata ödül programıyla iyi bir şekilde eşleşir.
- Bağlam ve Kapsam: Geleneksel güvenlik testlerinin aksine, AI Red Team çalışanları bir modele körü körüne yaklaşamaz. Müşterilerle işbirliği içinde hem geniş bağlam hem de özel kapsam oluşturmak, yapay zekanın amacını, dağıtım ortamını, mevcut güvenlik özelliklerini ve sınırlamalarını belirlemek açısından çok önemlidir.
- Özel ve Kamuya Karşı: Yapay Zeka Kırmızı Ekiplerinin çoğu, güvenlik konularının hassasiyeti nedeniyle özel olarak faaliyet gösterse de, halkın katılımının olduğu durumlar da vardır: Twitter’ın algoritmik önyargı ödülü mücadelesiönemli bir başarı elde etti.
- Teşvik Modeli: Teşvik modelinin uyarlanması, yapay zeka güvenlik taktik kitabının kritik bir yönüdür. Belirli güvenlik sonuçlarına (ödüllere benzer) ulaşmaya yönelik ödüllerle birlikte sabit ücretli katılım ödüllerini içeren hibrit bir ekonomik modelin en etkili olduğu kanıtlanmıştır.
- Empati ve Rıza: Pek çok güvenlik hususu, zararlı ve rahatsız edici içerikle karşılaşmayı içerebileceğinden, yetişkinlerden (18+ yaş) açık katılım izni almak, zihinsel sağlık için düzenli destek sunmak ve değerlendirmeler arasında ara verilmesini teşvik etmek önemlidir.
“Farklı yapay zeka modellerinin veya dağıtımlarının çok farklı tehdit modellerine sahip olacağının altını çizmek önemli. Bir sosyal medya ağında konuşlandırılan yapay zeka metinden görüntüye oluşturucu, tıbbi bağlamdaki yapay zeka chabot’undan farklı bir tehdit modeline sahip olacaktır. Bu konuşmaların başında, kullanım senaryosuna, düzenleyici ortama, mimariye ve diğer faktörlere dayalı olarak tehdit modelinin ne olduğunu tanımlıyoruz.”
— Dane Sherrets, Kıdemli Çözüm Mimarı, HackerOne
HackerOne topluluğunda 750’den fazla aktif bilgisayar korsanı, anında bilgisayar korsanlığı ve diğer yapay zeka güvenlik ve güvenlik testlerinde uzmanlaşmıştır. Bugüne kadar bu bilgisayar korsanlarının 90’dan fazlası HackerOne’ın Yapay Zeka Kırmızı Takım çalışmalarına katıldı. Yakın zamanda yapılan tek bir çalışmada, 18 kişilik bir ekip, ilk 24 saat içinde hızlı bir şekilde 26 geçerli bulgu belirledi ve iki haftalık çalışmada 100’ün üzerinde geçerli bulgu biriktirdi. Dikkate değer bir örnekte, ekibin karşılaştığı zorluklardan biri, Swastika içeren görsellerin oluşturulmasını engellemek için oluşturulmuş önemli korumaları atlamaktı. Yapay Zeka Kırmızı Ekibindeki son derece yaratıcı bir bilgisayar korsanı, bu korumaları hızlı bir şekilde aşmayı başardı ve bulguları sayesinde model artık bu tür kötüye kullanımlara karşı çok daha dayanıklı.
Yapay zeka geleceğimizi şekillendirmeye devam ederken, etik hacker topluluğu HackerOne gibi platformlarla işbirliği yaparak yapay zekanın güvenli entegrasyonunu sağlamaya kararlıdır. Yapay Zeka Kırmızı Ekiplerimiz, istenmeyen sonuçlara karşı koruma sağlarken olumlu etki potansiyellerinin en üst düzeye çıkarılmasını sağlayarak, kuruluşların yapay zeka modellerini sorumlu bir şekilde devreye almanın karmaşıklıklarını aşmalarına yardımcı olmaya hazırdır.
“Bence yapay zekayı güvence altına almanın en iyi yolu aynı zamanda kitle kaynak kullanımının kullanılmasıdır. Yapay zeka kırmızı ekip çalışmaları aracılığıyla bilgisayar korsanlarıyla etkileşim kurarak, yapay zeka güvenliğinin ve yapay zeka güvenliğinin hızla değişen doğasını daha iyi anlayabileceğimize inanıyorum. Bu, bu heyecan verici yeni teknolojilerin uygulanmasında riskin azalmasına neden olacak ve tüm avantajlardan faydalanmamıza olanak tanıyacak.”
— Josh Donlan, Kıdemli Çözüm Mühendisi, HackerOne
HackerOne’ın taktik kitabı, etik bilgisayar korsanlarının uzmanlığını kullanarak ve hata ödül modelini yapay zeka güvenliğini ele alacak şekilde uyarlayarak, potansiyel riskleri azaltırken yapay zekayı güçlendirmeye yönelik proaktif bir yaklaşımdır. Yapay zeka entegrasyonuna girişen teknoloji ve güvenlik liderleri için, HackerOne ve etik bilgisayar korsanlarının yapay zeka güvenliği yolculuğunuza nasıl katkıda bulunabileceğini keşfetmek üzere sizinle ortaklık kurmayı sabırsızlıkla bekliyoruz. Kuruluşunuzda Yapay Zeka Kırmızı Ekip Oluşturmayı nasıl uygulayacağınız hakkında daha fazla bilgi edinmek için Yapay Zeka Kırmızı Ekip Oluşturma çözüm özetini indirin veya HackerOne’daki uzmanlarımızla iletişime geçin.