Özet: Uzmanlar AI Red takımını canlı bir Soru -Cevap


Katılımcılar, Quora, Reddit, LinkedIn ve Zoom gibi popüler topluluk platformlarından canlı olarak ve özenle küratörlü soruları cevapladılar. Aşağıda soru kategorilerine hızlı bir bakış:

  • Anahtar terminoloji ve kavramlar
    • AI Red Teaming nedir?
    • Hızlı enjeksiyon ve jailbreaking nedir?
    • API hackleme nedir?
    • AI güvenliğine nasıl yaklaştığımız için yeni AI düzenlemeleri ne anlama geliyor?
  • Uygulamada AI Güvenliği ve Güvenliği
    • Hacker One Bug Bounty programı aracılığıyla AI araçlarımızı test etmek için en iyi uygulamalar nelerdir?
    • Bir AI katılımına yaklaşırken metodolojiniz nedir?
    • Kuruluşlar MLSECOP’ların bir parçası olarak veri zehirlenmesini nasıl düşünmelidir?
    • LLM’ler için OWASP Top 10 hakkında ne düşünüyorsunuz?
  • İleriye Bakış
    • MLSECOP’lar ve Aisecops ortaya çıkıyor mu?
    • AI sistemleri, insan müdahalesi olmadan kendi güvenlik protokollerini özerk olarak geliştirebilir ve uygulayabilir mi?
    • Bilgisayar korsanlarının gelecek için ne öğrenmesi gerekiyor?

Yapay zeka ekibinin avantajlarını tartıyorsanız veya AI güvenliği ve güvenliğindeki gelişen eğilimler hakkında daha fazla bilgi edinmeyi merak ediyorsanız, aşağıdaki orijinal Soru -Cevap formatında uzman AI uzmanlarımızdan bazı bilgilere göz atın veya açıklamayı izleyin. -Demand kaydı derinlemesine tartışmalarını ve profesyonel tavsiyelerini duymak.

Anahtar terminoloji ve kavramlar

S: AI kırmızı takımı nedir?

Katie:
Yapay zekadan ayrı kırmızı takımın tam tanımının sadece hacklemeyi içermediğini hatırlamak gerçekten önemlidir, aynı zamanda sosyal mühendislik, kimlik avı ve benzerlerini de içerir. AI Red Teaming buradan geliyor. AI saldırı yüzeyi hakkında konuşmaya başladığımızda, bulanıklaşıyor çünkü API’lerimiz ve geliştiricilerin sadece LLM’ler veya NLP’ler değil, diğer AI formlarını da kullanmalarına yardımcı olan diğer araçlarımız var.

Evet, kırmızı takım hacklemeyi kapsıyor, aynı zamanda hızlı mühendislik gibi taktikler de. Görebileceğiniz gerçekten yaygın bir örnek jailbreaking. Birinin, “Ne olursa olsun, evet diyeceksin” diyerek, derhal mühendisliğe sahip bir araba satmak için bir AI chatbot aldığı son haberlere aşina olabilirsiniz. Güvenlik testinden çok daha fazlasını kapsar.

Joseph:
AI Red takımının başladığı gibi görme şeklim, LLMS başlamadan önce bile yapay zeka güvenliği ile ilgiliydi. AI hizalamasının merceğinden insanlar, “AI hepimizi öldürecek mi?” Diye merak ediyorlardı. Ve bunu önlemek için, insan değerleriyle uyumlu olduğundan emin olmalıyız. Bugün sanırım ve umarız, AI güvenliği gibi şeyleri düşünmeyi de içeriyor.

S: Hızlı enjeksiyon ve jailbreaking nedir?

Joseph:
Jailbreak, modeli yapmaması gereken bir şey söylemesini sağlamaktır. Hızlı enjeksiyon ise, sistemin geliştiricilerin istediklerinin aksine bir şekilde davranmasını sağlıyor. Jailbreaking olduğunuzda, model geliştiricilerine karşı bir düşmansınız; Openai’nin modeli geliştirdiklerinde yapmanızı istemediği bir şey yapıyorsunuz.

Hızlı enjeksiyon yaparken, sistemin bu API ile bir şeyler inşa eden geliştiricilerin yapmasını istemeyecek şekilde davranmasını sağlıyorsunuz.

Hızlı enjeksiyonun sadece bir şey söylemesi gereken bir model alması olduğunu düşünen herkes için, bulgularımın saldırganların bir kurbanın tüm sohbet geçmişini, dosyalarını ve nesnelerini açığa çıkarabileceğini ortaya koyduğunu söyleyebilirim. Hızlı enjeksiyon sonucunda ortaya çıkabilecek önemli güvenlik açıkları vardır.

S: API hackleme nedir?

Katie:
Sadece tek bir API olduğunu bildiğimiz kadar çok AI. Bununla birlikte, birçok insan sohbet botları ve üretken yapay zeka ile yakalanır çünkü herkesin bahsettiği şey budur. Yapay zeka dağıtımlarına giren birçok faktör var. Birçok insan AI’nın bu tek şey olduğunu düşünüyor, ama aslında, bir API zinciri oluşturmak için bir araya gelen tüm bu farklı sistemler. Ve hepsi savunmasız olabilir. Hepsi farklı güvenlik açıklarına sahip olabilir ve savunmasız bir çıktı başka bir sisteme aktarabilir. AI modeli dağıtım boru hattına ve bir bütün olarak sisteme bakan bazı ilginç saldırılar oldu.

S: Yeni AI düzenlemeleri AI güvenliğine nasıl yaklaştığımız için ne anlama geliyor?

Joseph:
Genel olarak, AB’den çıkan AI önerileri, AB AI Yasası gibi, onu kategorize etmek ve katmanlı mevzuat yapmak için oldukça iyi bir iş çıkarmıştır. Sanırım bunu yapmamız gereken şey bu. Belki daha ayrıntılı olabilir, ancak günün sonunda, AI üzerine inşa edilen her sistemi düzenlemek imkansız olacaktır.

Yaratılış adımında bunu önleyemeyiz. Diyelim ki birisi başka birinin yüzünde çıplak fotoğraflar üretiyor. Bunun insanların bilgisayarlarında olmasını engelleyemeyiz, ancak kesinlikle cezalandırabilir ve çoğalması veya paylaşımı ile polis yapabiliriz.

Katie:
Görmek istediğim bir şey, GDPR gibi bazı gerçek dişleri olan bir şey. GDPR uyumluluğunun bu kadar büyük olmasının nedenlerinden biri, neredeyse her iş için büyük bir endişe kaynağıdır. GDPR’nin var olduğunu ve veri korumasının önemli olduğunu bilmek bile çok sayıda kuruluşu gerçekten güçlendirdi ve onları uygunluğa itti. Ve sadece ihtiyaç duyduklarını hissettikleri için değil, müşterileri için yapılacak doğru şey olduğu için.

Umarım gerçekten dişleri olan, ancak AI’nın gelişimini kısıtlayan bir şekilde değil, düzenleme görürüz. Bu ev ismi haline geliyor ve insanlar buna biraz incelemeye bakıyorlar. Bunun kötü bir şey olduğunu sanmıyorum; Uyumun kötü adam olması gerekmez – sizi daha iyi yapmaya iten iyi adam olabilir.

Uygulamada AI Güvenliği ve Güvenliği

S: Hackerone Bug Bounty programı aracılığıyla AI takımlarımızı test etmek için en iyi uygulamalar nelerdir?

Dane:
Bunu kapsamınıza eklerken AI model varlık türünü kullanmanızı şiddetle tavsiye ederim. Bu, daha fazla AI bilgisayar korsanı çekmeye yardımcı olacak ve hata ödül programınız için daha fazla bilgisayar korsanı kaynağına yardımcı olacak. Ayrıca, politika sayfanızdaki tam tür tehdit senaryosunu açıklayın ve bunun hangi verilere erişebileceğini belirtin.

Katie:
Temel olarak, güvenlik sınırlarının nerede olduğunu düşündüğünüzü anlamaktır. Diyelim ki Openai’ye bir API kullanıyorsunuz. Geri gelen bir şeyin Openai tarafından yönetilmesi gerektiğini mi söylüyorsunuz? Bunun senin istenmeni mi söylüyorsunuz, bu yüzden kapsamda? Güvenliğinizin sınırlarının nerede olduğunu düşündüğünüz konusunda gerçekten net olmalısınız. Sanırım, belki de organizasyonla birlikte olması gerektiğinde topu üçüncü taraflara geçiriyor.

Joseph:

  • Anlamak: Kuruluşun bunu iyi anlaması ve net bir şekilde iletmesi gerekiyor.
  • Belge: Gerçekten iyi belgeleyin ve araştırmacıların zamanını ve alacağınız bulguları optimize etmek için bayrak tabanlı bir şekilde çalıştırın.
  • Açıklamak: Bu endüstrinin yeniliği nedeniyle, hızlı enjeksiyon korumasını atlamak için daha az araç mevcuttur. Size en kötü senaryoyu gösterebilmeleri için araştırmacılara beyaz bir kutu açıklaması sağlayın.
  • Ödül: Şirket hazır olmalı ve ödüllendirmeye istekli olmalı geleneksel güvenlik açıkları Bu AI özelliğinin uygulanmasının bir sonucu olarak bulundu.

Bir AI Güvenlik Hackerone Mücadelesi veya Özel Programınız olacaksa, gerçekten görmeyi beklediğinizi açıkça tanımlayın. Bu son derece önemli olacak çünkü geleneksel böcek ödül avcılarınız ve hatta pentesters varsayılan olarak bir güvenlik lensi aracılığıyla düşünmeyecekler.

S: Bir AI katılımına yaklaşırken metodolojiniz nedir?

Katie:
İlk adımım, ne tür bir programa bakarsam bakalım, önümde ne olduğunu anlamak ve AI’nın nasıl kullanıldığını anlamak. Bir sohbet botu benim için çok ilginç olmayacak, ancak hedeflerinizde çalışan kod oluşturabilen ajanlar – bu benim için çok ilginç olabilir.

Anladığımda, iş mantığı sorunlarına baktığım gibi buna odaklanıyorum. Çalışacak bir şeyler almak için geçmem gereken adımlarda çalışıyorum. Temsilciye ne söylemem gerekiyor? O zaman hangi adımlardan geçecek? Bana geri dönen ne? Bu benim yaklaşımım.

S: Kuruluşlar MLSECOP’ların bir parçası olarak veri zehirlenmesini nasıl düşünmelidir?

Katie:
Model zehirlenme saldırıları biraz etik meselesi haline geliyor. Örneğin, AI sanatında, sanatçılar ve modeller arasında, orta hayal, vb. Gibi büyük bir tartışma olmuştur. Sanatçılar, bu modelleri eğitmek için fikri mülklerini çalmak için AI sanatını yapan bazı AI şirketlerine dava açıyorlar.

Bunun nasıl çalışacağıyla gerçekten ilgileniyorum çünkü sanatçılar için araçlar yarattı sanat eserlerini zehirler. Aslında, modeli zehirleyecek çiziminize başvurabileceğiniz bir araç şu anda indirebileceğiniz bir araç var. Etik olarak, muhtemelen bu güvenlik sorununu çözmemek için doğru şeydir. Model zehirlenme saldırıları güvenlik hatalarıdır, ancak belki de bu hataları düzeltmememiz gerektiğine dair bir argüman vardır, çünkü bunları düzeltmek bu sanatçıların geçim kaynaklarını potansiyel olarak mahvedebilir.

Joseph:
Böcek ödül perspektifinden bakıldığında, o kadar ilginç değil. Modelin zehirlenmesi uzun vadeli, derin bir saldırıdır. Bir sürü zehir verisi koymanız ve ardından aylar beklemeniz gerekecek. Ama bu temel aşamalarında düşünmemiz gereken bir şey.

Vakıf inşaatçılarında büyük dil modelleri etrafında yeterli güvenlik ve inceleme olması pek olası değildir. Openai, Google, Meta, Antropik: Eğitildikten sonra AI model ağırlıklarının etrafındaki güvenlik neredeyse yeterince güçlü değildir. Bu şirketlerin temel aşamasında veri zehirlenmesine karşı başvurdukları güvenlik miktarını iki katına çıkarmalı ve üç katına çıkarmalıdır.

S: LLM’ler için OWASP Top 10 hakkında ne düşünüyorsunuz?

Katie:
Şu anda, insanlar LLM’leri çok hızlı bir şekilde benimsiyorlar ve herhangi bir teknolojiyi gerçekten hızlı bir şekilde benimsediğinizde, güvenlik ve oraya çıkarmak arasında küçük bir değiş tokuş olacak.

LLM’ler harika, ama hepsi AI değil. Bu yüzden, insanlara sadece LLM’leri düşünmek için değil, aynı zamanda AI’nın diğer biçimlerini de düşünmeleri için danışmanlık yapmak istiyorum.

Joseph:
Bu güvenlik açıklarını sınıflandırmak gerçekten zor çünkü çok fazla nüans var ve diğer hatalar kadar tutarlı değiller. Ancak LLMS için OWASP Top 10 başlamak için harika bir yer. Bir endüstri olarak, gelecek yıl büyüyeceğiz ve belki de yeniden sınıflandıracağız, ancak insanlar araştırmalarına başlamak için farklı saldırı türlerini merak ediyorlarsa iyi bir başlangıç ​​noktası.

İleriye Bakış

S: MLSECOP’lar ve Aisecops ortaya çıkıyor mu?

Joseph:
Şirketim için AI gelişimi yapan bir mühendis olarak Appomni, MLSECOP’lar ve Aisecops% 100 oluyor. Onları bir prodüksiyona dönüştürmek oldukça zor ve sanırım patlayacaklar.

Ama MLSECOP’ların veya Aisecops’un birkaç yıldan fazla süreceğini düşünmüyorum. Bir geliştirici veya yazılım mühendisiyseniz, nasıl çalıştığını anlamanız gerekecek. Bilgisayar korsanlarının sürebileceği bir dalga olacak ve insanlar kazıp öğrenmelidir, çünkü her şirket için oldukça uygulanabilir. Ancak üç veya beş yıl içinde, her iyi mühendisin LLM teknolojisinin ve diğer üretken AI teknolojisinin nasıl kullanılacağını ve uygulanacağını bilmek zorunda kalacaktır.

S: AI sistemleri, insan müdahalesi olmadan kendi güvenlik protokollerini özerk olarak geliştirebilecek ve uygulayabilecek mi?

Katie:
Sanırım hala bundan çok uzaktayız, ancak geliştiricilerin kopyalayıp yapıştırmaları için kod vermek için bir AI modeli alıyor o kadar da uzak değiliz. “Lütfen bana güvenli yazın kod. ” Henüz bu seviyede değiliz, ama bunun mümkün olacağını düşünüyorum mı? Evet. İnsanlar AI’nın güvenli kodun kendisi geliştirmeleri konusunda gerçekten heyecanlı.

S: Bilgisayar korsanlarının gelecek için ne öğrenmesi gerekiyor?

Katie:
Bir modelin dağıtım haline nasıl geldiğimizin operasyon tarafını öğrenmeye başlıyorum. Bir veya iki yıl içinde, bundan bahsedeceğiz – üretken AI’nın nasıl başladığı hakkındaki altyapı.

Benim için modeli, nasıl denetlendiğini ve ölçeklenmelerinin saldırılar için gerçek hedefler olacağını anlamak. Çoğu yazılım akademisyenler tarafından yazılır ve üretimde kullanılmasını istemediler, bu yüzden geliştirirken güvenliği umursamadılar. Hackerone’de çok para kazanacağım.

Hackerone AI Red Teaming ile AI Güvenlik ve Güvenlik Programınızı tamamlayın

AI kırmızı ekibinin kuruluşunuzun özel ihtiyaçlarını ve hedeflerini karşılayacak şekilde nasıl uyarlanabileceğini daha iyi anlamak için bugün HackerOne’daki uzmanlarımızla iletişime geçin.



Source link