DEF CON 2023 — Las Vegas — DEF CON’un hakkında en çok konuşulan etkinliği olan AI Village, binlerce bilgisayar korsanının Google ve Open AI dahil olmak üzere sekiz farklı büyük dil modelinden (LLM) birini tehlikeli bir şey söylemesi için ellerinden gelenin en iyisini yapmasına izin verdi.
Göre için sözcüler Geleceğin Yapay Zeka Köyü’nü Hackleyin, etkinlik büyük bir hit oldu, ancak şimdilik halka açıklananların hepsi bu — sonuçlar en az bir hafta, belki daha fazla açıklanmayacak.
Son AI bilgisayar korsanlığı mücadelesi skor tablosu, hem birincilik hem de üçüncülük ödüllerinin sırasıyla “cody3” ve “cody2” için gittiğini gösterdi. DEF CON AI Köyü’nün kendisi, kazanan ve hatta ödüller hakkında herhangi bir ayrıntı hakkında ağzı sıkı değildi, ancak raporlar, AI Köyü yarışmasında ilk üçe giren her iki kişinin arkasındaki kişinin Stanford bilgisayar bilimi öğrencisi Truc Cody Ho olduğunu belirtti. yarışmada toplam beş kez.
Bunları derleyen yazarlardan biri olan Avijit Ghosh’a göre, bilgisayar korsanlığı yarışması sonuçları hakkında daha fazla ayrıntı yakında açıklanacak.
“Anonimleştirilmiş verileri inceleyeceğiz ve katılımcıların meydan okuma sırasında keşfettikleri güvenlik açıkları kalıplarını bulacağız ve makine öğrenimi ve güvenlik araştırmacılarının LLM’ler hakkında daha iyi içgörüler elde etmelerine ve politika yapıcıların yapay zeka hakkında daha bilinçli düzenlemeler yapmalarına yardımcı olacak bir rapor hazırlayacağız” diyor Ghosh.
Kazanan LLM hack’lerinden herhangi biri hakkındaki soruları doğrudan yanıtlamayacak olsa da Ghosh, LLM’leri ayrımcı kod, kredi kartı numaraları, yanlış bilgi ve daha fazlasını oluşturmak için kullanabildiğini söylüyor.
Etkinliğin bir başka organizatörü olan Jutta Williams’ın Reddit’in kıdemli direktörü ve gizlilik ve güvenceden sorumlu küresel başkanı olarak günlük bir işi var; ve diğer tarafta, tüketicilere yapay zeka ürünleri sağlayan şirketler için güvenlik, etik ve diğer konularda rehberlik sağlayan kar amacı gütmeyen bir kuruluş olan Humane-Intelligence’ın kurucusudur.
Etkinlik İçin Tarihi Katılım
Williams, olayı “bugüne kadarki en büyük LLM kırmızı takımı” olarak lanse etti.
Williams, AI Köyü’nün DEF CON 31 boyunca 2.240 bilgisayar korsanını çektiğini söyledi. ve amacın LLM’lerinden birini “tatsız bir şey yapmasını” sağlamak olduğunu açıkladı. Bu, yanlış bilgi üretmek veya chatbot’u yasa dışı bir şey yapmaya yönlendirmek için doğru soruyu kullanmak anlamına gelebilir – veri çalmak, kötü amaçlı yazılım oluşturmak veya insanları takip etmek gibi.
AI Köyü, 200 dizüstü kablolu bir ağ sağladı ve her bilgisayar korsanına becerilerini 21 farklı AI mücadelesine karşı test etmeleri için 50 dakika verdi.
Ghosh, “Mücadelede birkaç sorun ifadesi vardı” diyor. “Bunlardan biri, bir demografiye karşı diğerine karşı ayrımcı davranış üretecek bir model elde etmekti. Testlerimde, model farklı ırklara (ABD ırk tanımı) karşı ayrımcılık yapmak için kod oluşturmayı reddetti, ancak sıralama kodu oluşturmaktan mutlu oldu farklı kastlardan insanlar farklı (kast sisteminin Hint tanımı).”
Cumartesi öğleden sonra Williams, DEF CON ekibinin LLM modellerinde düzinelerce güvenlik açığı keşfettiğini ancak yine de ayrıntıların şimdilik gizli kaldığını söyledi.
“Büyükanneler ve Kırmızı Takımlılar”
Williams, “Çılgınca başarılı oldu,” dedi. “Bu hafta sonu büyükannelerden deneyimli Red Teamers’a kadar herkesi buraya getirdik.”
TBiden Yönetimi’nin üst düzey bilim ve teknoloji danışmanı Arati Prabhakar’ın fotoğraf fırsatı ziyareti sayesinde Beyaz Saray’dan büyük bir destek aldı.
Bugcrowd, AI Köyü meydan okumalarının tasarlanmasına yardımcı oldu ve şirketin kurucusu ve CTO’su Casey Ellis, etkinliğin jüri üyesiydi. DEF CON’da yapay zekayı kırmak için ellerinden gelenin en iyisini yapmaya hazır, istikrarlı ve uzun bir katılımcı sırası olduğunu söyledi.
Ellis, “Genel olarak, bulguları satıcılara, yarışma organizatörlerine ve jüri üyelerine sunanlardan dahil olan herkesin çok şey öğrendiğini düşünüyorum” diye açıklıyor. “Bunun oldukça görünür ve inanılmaz derecede önemli hale geldiği hız göz önüne alındığında, yarışma, bu güvenlik sınıfının ileriye dönük olarak nasıl yürütüldüğüne dair kritik bir girdi oluşturacak.”