Yapay Zeka Ürünlerindeki Hataların Bildirilmesi için Ödül Kriterlerinin Oluşturulması


Google’da biz bir Güvenlik Açığı Ödül Programı Google’ın sahibi olduğu ve Alphabet’in yan kuruluşu olan Web mülklerindeki sorunları ele alan son teknoloji ürünü harici katkıları onurlandırmak. Yapay zeka teknolojilerindeki hızlı gelişmelere ayak uydurmak ve güvenlik zorluklarını hızlı bir şekilde ele almaya hazır olduğumuzdan emin olmak sorumlu yakın zamanda mevcut ağımızı genişlettik Hata Avcıları programı Yapay zeka sistemlerimize özel sorunların ve güvenlik açıklarının üçüncü taraflarca keşfedilmesini ve raporlanmasını teşvik etmek. Bu genişleme, aşağıdakileri uygulama çabalarımızın bir parçasıdır: gönüllü yapay zeka taahhütleri Temmuz ayında Beyaz Saray’da yaptığımız.

Güvenlik topluluğunun bu gelişmeleri daha iyi anlamasına yardımcı olmak için ödül programı öğeleri hakkında daha fazla bilgi ekledik.

Ödüllerin Kapsamında Neler Var?

Son zamanlarda AI kırmızı ekip raporudayalı olan Google’ın Yapay Zeka Kırmızı Ekibi tatbikatlarda, en alakalı ve gerçekçi olduğunu düşündüğümüz ortak taktikleri, teknikleri ve prosedürleri (TTP’ler) belirledik. Yapay zeka sistemlerine karşı kullanılabilecek gerçek dünyadaki rakipler. Aşağıdaki tablo, araştırma topluluğunun AI hata raporları için kriterlerimizi ve ödül programımızın kapsamını anlamasına yardımcı olmak için öğrendiklerimizi içermektedir. Ödül miktarlarının saldırı senaryosunun ciddiyetine ve etkilenen hedefin türüne bağlı olduğunu unutmamak önemlidir (ziyaret edin) program kuralları sayfası Ödül tablomuz hakkında daha fazla bilgi için).

İstem Saldırıları: Bir saldırganın modelin davranışını ve dolayısıyla çıktıyı, uygulama tarafından amaçlanmayan şekillerde etkilemesine olanak tanıyan düşmanca istemler oluşturmak.

Mağdurlar tarafından görülemeyen hızlı enjeksiyonlar ve mağdurun hesabının veya herhangi bir varlığının durumunu değiştirir.

Mağdur kullanıcıları doğrudan etkileyen kararlar almak için yanıtın kullanıldığı tüm araçlara hızlı enjeksiyonlar.

Kullanıcının modeli hazırlamak için kullanılan ilk istemi yalnızca çıkarılan giriş bölümünde hassas bilgiler mevcut olduğunda çıkarabildiği bilgi istemi veya giriş eki çıkarma.

Kendi oturumunuzda kuralları ihlal eden, yanıltıcı veya gerçeklere dayalı olarak yanlış içerik oluşturmak için bir ürün kullanmak: örneğin “jailbreak”. Buna “halüsinasyonlar” ve gerçekte yanlış yanıtlar da dahildir. Google’ın üretken yapay zeka ürünlerinde bu tür içerik sorunları için halihazırda özel bir raporlama kanalı bulunmaktadır.

Eğitim Veri Çıkarma: Hassas bilgiler içeren birebir eğitim örneklerini başarıyla yeniden oluşturabilen saldırılar. Üyelik çıkarımı da denir.

Eğitim veri setinde kullanılan, hassas, kamuya açık olmayan bilgileri sızdıran öğeleri yeniden yapılandıran eğitim verilerinin çıkarılması.

Hassas olmayan/kamuya açık bilgileri yeniden yapılandıran çıkarma.

Modelleri Manipüle Etme: Bir saldırganın, önceden tanımlanmış düşmanca davranışları tetikleyebilecek şekilde bir modelin davranışını gizlice değiştirebilmesi.

Bir saldırganın, Google’ın sahip olduğu ve işlettiği bir modeldeki (“arka kapılar”) belirli bir girdi yoluyla güvenilir bir şekilde tetikleyebildiği düşmanca çıktı veya davranış. Yalnızca bir modelin çıktısının kurbanın hesabının veya verilerinin durumunu değiştirmek için kullanıldığı kapsam dahilindedir.

Saldırganın, kurbanın oturumundaki model çıktısını saldırganın tercihine göre etkilemek için modelin eğitim verilerini değiştirdiği saldırılar. Yalnızca bir modelin çıktısının kurbanın hesabının veya verilerinin durumunu değiştirmek için kullanıldığı kapsam dahilindedir.

Olumsuz Pertürbasyon: Bir modele sağlanan ve modelden deterministik ancak oldukça beklenmedik bir çıktıyla sonuçlanan girdiler.

Bir saldırganın, bir güvenlik kontrolünde yanlış sınıflandırmayı güvenilir bir şekilde tetikleyebileceği ve kötü niyetli kullanım veya düşmanca kazanç amacıyla kötüye kullanılabilecek bağlamlar.

Bir modelin hatalı çıktısının veya sınıflandırmasının zorlayıcı bir saldırı senaryosu oluşturmadığı veya Google’a veya kullanıcıya zarar verebilecek olası bir yol oluşturmadığı bağlamlar.

Model Hırsızlığı/Sızıntısı: Yapay zeka modelleri genellikle hassas fikri mülkiyet hakları içerir, bu nedenle bu varlıkların korunmasına yüksek öncelik veriyoruz. Süzme saldırıları, saldırganların bir modelin mimarisi veya ağırlıkları gibi ayrıntılarını çalmasına olanak tanır.

Gizli/tescilli bir modelin tam mimarisinin veya ağırlıklarının çıkarıldığı saldırılar.

Mimarinin ve ağırlıkların tam olarak çıkarılmadığı veya gizli olmayan bir modelden çıkarıldığı saldırılar.

Yapay zeka destekli bir araçta yukarıda listelenenlerin dışında bir kusur bulursanız, yine de gereksinimleri karşılaması koşuluyla gönderebilirsiniz. program sayfamızda listelenen nitelikler.

Geçerli bir güvenlik veya kötüye kullanım sorununa ilişkin niteliklerimizi açıkça karşılayan bir hata veya davranış.

Diğer araçlarla zaten mümkün olan, potansiyel olarak zararlı bir şeyi yapmak için bir yapay zeka ürününü kullanmak. Örneğin, açık kaynaklı yazılımda bir güvenlik açığı bulmak (kamuya açık yazılımlar kullanılarak zaten mümkündür) Statik analiz araçları) ve cevabı zaten çevrimiçi olarak mevcutken zararlı bir sorunun cevabını üretmek.

Programımız gereği halihazırda bildiğimiz konular ödüle uygun değildir.

Potansiyel telif hakkı sorunları: Ürünlerin telif hakkı korumalı içerik döndürdüğü bulgular. Google’ın üretken yapay zeka ürünlerinde bu tür içerik sorunları için halihazırda özel bir raporlama kanalı bulunmaktadır.

Hata ödül programımızı yapay zeka sistemlerimize genişletmenin destek sağlayacağına inanıyoruz Sorumlu yapay zeka yeniliğiYapay zeka destekli özelliklerimizdeki güvenlik ve kötüye kullanım sorunlarını keşfedip düzeltmek için araştırma topluluğuyla çalışmalarımızı sürdürmeyi sabırsızlıkla bekliyoruz. Uygun bir sorun bulursanız lütfen Hata Avcıları web sitemize giderek bize hata raporunuzu gönderin ve sorunun geçerli olduğu tespit edilirse kullanıcılarımızı güvende tutmamıza yardımcı olduğunuz için ödüllendirilin.





Source link