Antropik model güvenlik hatası ödül programını genişletiyor


Model Güvenlik Hata Ödül Programımızı Genişletme

AI model yeteneklerinin hızlı ilerlemesi, güvenlik protokollerinde eşit derecede hızlı bir ilerleme gerektirir. Yeni nesil AI koruma sistemlerimizi geliştirmeye çalışırken, modellerimizin kötüye kullanılmasını önlemek için kullandığımız hafifletmelerde kusurlar bulmaya odaklanan yeni bir girişim sunmak için hata ödül programımızı genişletiyoruz.

Hata ödül programları, teknoloji sistemlerinin güvenliğini ve güvenliğini güçlendirmede önemli bir rol oynamaktadır. Yeni girişimimiz evrensel jailbreak saldırılarını tanımlamaya ve azaltmaya odaklanmıştır. Bunlar, AI güvenlik korkuluklarının çok çeşitli alanlarda tutarlı bir şekilde atlanmasına izin verebilecek istismarlardır. Universal Jailbreak’leri hedefleyerek, CBRN (kimyasal, biyolojik, radyolojik ve nükleer) ve siber güvenlik gibi kritik, yüksek riskli alanlarda en önemli güvenlik açıklarından bazılarını ele almayı amaçlıyoruz.

Bu çaba konusunda küresel güvenlik ve güvenlik araştırmacıları topluluğu ile çalışmak ve ilgili başvuru sahiplerini programımıza başvurmaya ve yeni korumalarımızı değerlendirmeye davet etmek istiyoruz.

Yaklaşımımız

Bugüne kadar, halka açık AI modellerimizdeki model güvenlik sorunlarını belirlemek için araştırmacıları ödüllendiren HackerOne ile ortaklaşa sadece davetkar bir hata ödül programı işlettik. Bugün duyurduğumuz Bug Bounty Girişimi, henüz kamuya açıklanmadığımız AI güvenlik azaltmaları için geliştirdiğimiz yeni nesil sistemimizi test edecek. İşte nasıl çalışacak:

  • Erken Erişim: Katılımcılara, en son güvenlik azaltma sistemimizi kamuoyuna yerleştirilmeden önce test etmek için erken erişim verilecektir. Bunun bir parçası olarak, katılımcılar kontrollü bir ortamda güvenlik önlemlerimizi atlatmanın potansiyel güvenlik açıklarını veya yollarını belirlemeye zorlanacaktır.
  • Program kapsamı: CBRN (kimyasal, biyolojik, radyolojik ve nükleer) ve siber güvenlik gibi kritik, yüksek riskli alanlarda güvenlik açıklarını ortaya çıkarabilecek yeni, evrensel jailbreak saldırıları için 15.000 dolara kadar ödül ödülleri sunuyoruz. Daha önce yazdığımız gibi, AI’daki bir jailbreak saldırısı, bir AI sisteminin yerleşik güvenlik önlemlerini ve etik yönergelerini atlatmak için kullanılan bir yöntemi ifade ederek bir kullanıcının AI’dan tipik olarak kısıtlanacak veya yasaklanacak yanıtları veya davranışları ortaya çıkarmasına izin verir. . Evrensel bir jailbreak, AI sistemlerinde bir kullanıcının çok çeşitli konularda güvenlik önlemlerini tutarlı bir şekilde atlamasına izin veren bir tür güvenlik açığıdır. Evrensel jailbreak’lerin belirlenmesi ve azaltılması, bu hata ödül girişiminin temel odağıdır. Eğer sömürülürse, bu güvenlik açıkları çeşitli zararlı, etik dışı veya tehlikeli alanlarda geniş kapsamlı sonuçlara sahip olabilir. Jailbreak, modelin tanımlanmış sayıda belirli zararlı soruyu cevaplamasını sağlayabilirse evrensel olarak tanımlanacaktır. Ayrıntılı talimatlar ve geri bildirimler programın katılımcıları ile paylaşılacaktır.

Dahil olmak

Bu model güvenlik hatası Bounty girişimi, hackerone ile ortaklaşa sadece davet olarak başlayacak. Yalnızca davet edilecek olsa da, bu girişimi gelecekte daha geniş bir şekilde genişletmeyi planlıyoruz. Bu başlangıç ​​aşaması, süreçlerimizi geliştirmemize ve gönderimlere zamanında ve yapıcı geri bildirimlerle yanıt vermemizi sağlayacaktır. Deneyimli bir AI güvenlik araştırmacısıysanız veya dil modellerinde jailbreak’lerin belirlenmesi konusunda uzmanlık gösterdiyseniz, sizi bir davet için başvurmanızı öneririz. başvuru formu 16 Ağustos Cuma. Sonbaharda seçilen başvuru sahiplerini takip edeceğiz.

Bu arada, mevcut sistemlerimizi sürekli olarak geliştirmek için model güvenliği endişeleri hakkında aktif olarak raporlar arıyoruz. Mevcut sistemlerimizde potansiyel bir güvenlik sorunu belirlediyseniz, lütfen sorunu çoğaltmamız için yeterli ayrıntılarla [email protected] adresine bildirin. Daha fazla bilgi için lütfen sorumlu açıklama politikamıza bakın.

Bu girişim, Beyaz Saray tarafından ilan edilen gönüllü AI taahhütleri ve G7 Hiroşima süreci ile geliştirilen ileri AI sistemleri geliştiren kuruluşlar için davranış kuralları gibi sorumlu AI geliştirmek için diğer AI şirketleriyle imzaladığımız taahhütlerle uyumludur. Amacımız, evrensel jailbreaklerin azaltılmasındaki ilerlemeyi hızlandırmaya ve yüksek riskli alanlarda AI güvenliğini güçlendirmeye yardımcı olmaktır. Bu alanda uzmanlığınız varsa, lütfen bu önemli çalışmada bize katılın. Katkılarınız, AI yeteneklerinin ilerledikçe güvenlik önlemlerimizin ayakta kalmasını sağlamada önemli bir rol oynayabilir.



Source link