Anthropic, Model Güvenlik Hatası Ödül Programını Genişletiyor

Model Güvenlik Hatası Ödül Programımızı Genişletiyoruz

Yapay zeka modeli yeteneklerinin hızlı ilerlemesi, güvenlik protokollerinde de aynı derecede hızlı bir ilerlemeyi gerektirir. Yeni nesil yapay zeka koruma sistemlerimizi geliştirmeye çalışırken, modellerimizin kötüye kullanımını önlemek için kullandığımız hafifletme yöntemlerindeki kusurları bulmaya odaklanan yeni bir girişim sunmak üzere hata ödül programımızı genişletiyoruz.

Hata ödül programları, teknoloji sistemlerinin güvenliğini ve emniyetini güçlendirmede çok önemli bir rol oynamaktadır. Yeni girişimimiz evrensel jailbreak saldırılarını tanımlamaya ve azaltmaya odaklanıyor. Bunlar, çok çeşitli alanlarda AI güvenlik korkuluklarının tutarlı bir şekilde atlanmasına olanak verebilecek istismarlardır. Evrensel jailbreak’leri hedef alarak KBRN (kimyasal, biyolojik, radyolojik ve nükleer) ve siber güvenlik gibi kritik, yüksek riskli alanlardaki en önemli güvenlik açıklarından bazılarını ele almayı amaçlıyoruz.

Bu çabada küresel güvenlik ve emniyet araştırmacıları topluluğuyla birlikte çalışmaya istekliyiz ve ilgilenen başvuru sahiplerini programımıza başvurmaya ve yeni koruma önlemlerimizi değerlendirmeye davet ediyoruz.

Yaklaşımımız

Bugüne kadar, HackerOne ile ortaklaşa, halka açık yapay zeka modellerimizdeki model güvenliği sorunlarını tespit eden araştırmacıları ödüllendiren, yalnızca davetle girilebilen bir hata ödül programı yürüttük. Bugün duyurduğumuz hata ödülü girişimi, yapay zeka güvenlik önlemleri için geliştirdiğimiz ve henüz kamuya açık hale getirmediğimiz yeni nesil sistemimizi test edecek. İşte nasıl çalışacağı:

Erken Erişim: Katılımcılara, halka açık dağıtımdan önce en son güvenlik azaltma sistemimizi test etmeleri için erken erişim verilecek. Bunun bir parçası olarak, katılımcılardan potansiyel güvenlik açıklarını veya kontrollü bir ortamda güvenlik önlemlerimizi aşmanın yollarını belirlemeleri istenecek.
Program Kapsamı: KBRN (kimyasal, biyolojik, radyolojik ve nükleer) ve siber güvenlik gibi kritik, yüksek riskli alanlardaki güvenlik açıklarını ortaya çıkarabilecek yeni, evrensel jailbreak saldırıları için 15.000 $’a kadar ödül ödülleri sunuyoruz. Daha önce de yazdığımız gibi, yapay zekadaki bir jailbreak saldırısı, bir yapay zeka sisteminin yerleşik güvenlik önlemlerini ve etik yönergelerini atlatmak için kullanılan ve kullanıcının yapay zekadan genellikle kısıtlanacak veya yasaklanacak yanıtlar veya davranışlar elde etmesine olanak tanıyan bir yöntemi ifade eder. . Evrensel jailbreak, AI sistemlerinde, kullanıcının çok çeşitli konulardaki güvenlik önlemlerini tutarlı bir şekilde atlamasına olanak tanıyan bir tür güvenlik açığıdır. Evrensel jailbreak’leri tespit etmek ve azaltmak, bu hata ödülü girişiminin ana odak noktasıdır. Bu güvenlik açıklarından yararlanılması durumunda çeşitli zararlı, etik olmayan veya tehlikeli alanlarda geniş kapsamlı sonuçlar doğurabilir. Modelin belirli sayıda belirli zararlı soruyu yanıtlamasını sağlayabilirse jailbreak evrensel olarak tanımlanacaktır. Ayrıntılı talimatlar ve geri bildirimler program katılımcılarıyla paylaşılacaktır.

Katılın

Bu model güvenlik hatası ödül girişimi, HackerOne ortaklığıyla yalnızca davetle başlayacak. Başlamak için yalnızca davetle yapılacak olsa da, bu girişimi gelecekte daha geniş bir alana yaymayı planlıyoruz. Bu ilk aşama, süreçlerimizi iyileştirmemize ve başvurulara zamanında ve yapıcı geri bildirimlerle yanıt vermemize olanak tanıyacak. Deneyimli bir yapay zeka güvenlik araştırmacısıysanız veya dil modellerinde jailbreak’leri belirleme konusunda uzmanlığınız varsa, davetiyeye başvuruda bulunmanızı öneririz. başvuru formu 16 Ağustos Cuma gününe kadar. Seçilen başvuru sahiplerini sonbaharda takip edeceğiz.

Bu arada, mevcut sistemlerimizi sürekli olarak iyileştirmek için model güvenliğiyle ilgili endişelere ilişkin her türlü raporu aktif olarak arıyoruz. Mevcut sistemlerimizde potansiyel bir güvenlik sorunu tespit ettiyseniz lütfen sorunu tekrarlamamız için yeterli ayrıntıyla birlikte [email protected] adresine bildirin. Daha fazla bilgi için lütfen Sorumlu Açıklama Politikamıza bakın.

Bu girişim, Beyaz Saray tarafından açıklanan Gönüllü Yapay Zeka Taahhütleri ve G7 Hiroşima Süreci aracılığıyla geliştirilen Gelişmiş Yapay Zeka Sistemleri Geliştiren Kuruluşlar için Davranış Kuralları gibi sorumlu yapay zeka geliştirmek için diğer yapay zeka şirketleriyle imzaladığımız taahhütlerle uyumludur. Amacımız, evrensel jailbreak’lerin azaltılmasında ilerlemenin hızlandırılmasına yardımcı olmak ve yüksek riskli alanlarda yapay zeka güvenliğini güçlendirmektir. Bu alanda uzmanlığınız varsa lütfen bu önemli çalışmada bize katılın. Katkılarınız, yapay zeka yetenekleri geliştikçe güvenlik önlemlerimizin de buna ayak uydurmasını sağlamada önemli bir rol oynayabilir.

Source link

Anthropic, Model Güvenlik Hatası Ödül Programını Genişletiyor

Model Güvenlik Hatası Ödül Programımızı Genişletiyoruz

Yaklaşımımız

Katılın

Son Yazılar

Kategoriler