Birleşik Krallık hükümetinin Yapay Zeka Güvenlik Enstitüsü (AISI), yapay zeka (AI) modeli güvenlik testi sonuçlarını ilk kez kamuya açıklayarak San Fransisco’da ofisler kuracağını duyurdu.
Kasım 2023’teki Birleşik Krallık Yapay Zeka Güvenliği Zirvesi öncesinde kurulan AISI, yeni yapay zeka türlerini incelemek, değerlendirmek ve test etmekle görevlendirildi ve halihazırda yetenekleri paylaşmak ve yapay zeka güvenlik testlerine yönelik ortak yaklaşımlar oluşturmak için ABD’li mevkidaşı ile işbirliği yapıyor. .
Bu işbirliğine dayanarak AISI, ABD’nin kendi Güvenlik Enstitüsü ile ilişkisini daha da güçlendirmek ve Anthrophic ve OpenAI gibi önde gelen AI şirketleriyle daha fazla ilerleme sağlamak için yaz boyunca San Fransisco’da ofisler açacak.
Londra’daki 30’dan fazla çalışanıyla ABD’deki genişleme, aynı zamanda AISI’ye Körfez Bölgesi’ndeki teknik yeteneklere daha fazla erişim sağlayacak ve öncelikle bir teknik personel ekibi ve bir araştırma direktörü işe alma planları da olacak.
Ancak şu anda Enstitü’nün hangi belirli roller için veya kaç kişi için işe alım yapacağına dair daha fazla bilgi yok.
Dijital sekreter Michelle Donelan, “Bu genişleme, yapay zeka alanında Britanya’nın liderliğini temsil ediyor” dedi. “Bu, Birleşik Krallık’ın yapay zekanın hem risklerini hem de potansiyelini küresel bir mercekten inceleme, ABD ile ortaklığımızı güçlendirme ve biz dünyaya liderlik etmeye devam ederken diğer ülkelerin uzmanlığımızdan faydalanmasının önünü açma becerisi açısından çok önemli bir an. AI güvenliği.
“Yurtdışına kapılarımızı açmak ve ABD ile ittifakımızı geliştirmek, bu hafta Seul Zirvesi’nde tartışacağımız yapay zeka güvenliği konusunda yeni, uluslararası standartlar belirleme planımın merkezinde yer alıyor.”
Güvenlik testi sonuçları
Genişleme, AISI’nin halka açık beş gelişmiş büyük dil modelinin (LLM) son güvenlik testlerinden bir dizi sonucu kamuya açık hale getirmesinin ardından geldi.
Modeller, siber güvenlik, biyoloji ve kimya, özerklik ve güvenlik önlemleri dahil olmak üzere dört temel risk alanına göre değerlendirildi; özellikle geliştiricilerin kurduğu güvenlik önlemlerinin pratikte ne kadar etkili olduğuna odaklanıldı.
AISI, hiçbir modelin daha karmaşık, zaman alıcı görevleri, insanlar onları denetlemeden yerine getiremediğini ve hepsinin, güvenlik önlemlerinin temel “jailbreak”lerine karşı oldukça savunmasız kaldığını buldu. Ayrıca bazı modellerin, bu güvenlik önlemlerini aşmaya yönelik özel girişimler olmasa bile zararlı çıktılar üretebileceğini de tespit etti.
Bununla birlikte AISI, modellerin temel ve orta düzey siber güvenlik zorluklarını tamamlama kapasitesine sahip olduğunu ve birçoğunun kimya ve biyoloji alanında doktora eşdeğeri bilgi düzeyi sergilediğini iddia ediyor (yani uzman düzeyinde bilgi ve bilime verilen yanıtları elde etmek için kullanılabilecekleri anlamına geliyor) temelli sorular doktora düzeyindeki uzmanların verdikleri sorularla aynı düzeydeydi).
Modeller ayrıca kod yürütme veya web sitelerinde gezinme gibi görevleri bağımsız olarak ne kadar iyi yerine getirebildiklerini test etmek için “aracı” değerlendirmelerine de tabi tutuldu. Modellerin, kısa ufuklu görevler sırasında sıklıkla küçük hatalar (koddaki sözdizimi hataları gibi) yapmasına rağmen, yürütülmesi daha derin düzeyde planlama gerektiren uzun ufuklu görevleri yeterince tamamlayamadıklarını buldu.
Bunun nedeni, başlangıçta iyi planlar yapmalarına rağmen modellerin başlangıçtaki hatalarını düzeltememiş olmalarıdır; geliştirilen çözümleri yeterince test edemedi; ve sıklıkla alt görevlerin tamamlandığını “halüsinasyonla” görüyorlardı.
Hızlı saldırılar
Yüksek Lisans geliştiricileri bunların kamu kullanımı için güvenli olacak şekilde ince ayarını yapacak olsa da (yani yasa dışı, toksik veya açık çıktılardan kaçınmak için eğitildikleri anlamına gelir), AISI bu koruma önlemlerinin genellikle nispeten basit anlık saldırılarla aşılabileceğini buldu.
AISI başkanı Ian Hogarth, “Bu testlerin sonuçları, model değerlendirme çalışmalarımızın bazı ayrıntılarını kamuoyuyla ilk kez paylaşabildiğimizi gösteriyor” dedi. “Değerlendirmelerimiz, model yeteneklerinin ampirik değerlendirmesine ve mevcut koruma önlemleri söz konusu olduğunda sağlamlık eksikliğine katkıda bulunmaya yardımcı olacaktır.
“Yapay zeka güvenliği hâlâ çok genç ve gelişmekte olan bir alan” dedi. “Bu sonuçlar AISI’nin geliştirmekte olduğu değerlendirme yaklaşımının yalnızca küçük bir bölümünü temsil ediyor. Amacımız, ulusal güvenlikle ilgili risklere vurgu yaparak, en son değerlendirmeleri geliştirerek bu alanın sınırlarını zorlamaya devam etmektir.”
Ancak AISI, hangi şirketlerin hangi modellerini test ettiğini kamuoyuna açıklamayı reddetti ve sonuçların yalnızca model yeteneklerinin anlık görüntüsünü sağladığını ve sistemleri herhangi bir resmi sıfatla “güvenli” veya “güvensiz” olarak tanımlamadığını açıkça belirtti.
Sonuçların açıklanması, AISI’nin Inspect değerlendirme platformunu Mayıs 2024’ün başlarında kamuya açık hale getirmesinin ardından geldi. Bu platform, çok daha geniş bir grup grubunun AI değerlendirmeleri geliştirmesini ve test ekosistemini güçlendirmesini kolaylaştırmayı amaçlıyor.
AISI testinin sınırları
Ada Lovelace Enstitüsü (ALI), 17 Mayıs 2024’te yayınlanan bir blog yazısında, AISI’nin genel etkinliğini ve AI güvenlik alanındaki model değerlendirmelerindeki baskın yaklaşımı sorguladı. Ayrıca, AISI’nin yalnızca şirketlerin anlaşmasıyla modellere erişebileceği anlamına gelen gönüllü test çerçevesini de sorguladı.
Değerlendirmelerin model yeteneklerini keşfetme açısından bir değeri olsa da, yapay zeka modellerinin ve bunlar üzerine inşa edilen ürün veya uygulamaların gerçek dünya koşullarında insanlar ve toplum için güvenli olup olmadığını belirlemek için yeterli olmadıklarını söyledi.
Bunun nedeni, modelleri değerlendirme veri seti ile eğiterek veya değerlendirmede hangi değerlendirmelerin kullanıldığını stratejik olarak kullanarak manipüle edilmesi veya oynanması kolay olan kırmızı takım oluşturma ve kıyaslama gibi yöntemlerin teknik ve pratik sınırlamalarıdır; ve yapay zekanın yinelemeli doğası, yani modellerde yapılan küçük değişiklikler, davranışında öngörülemeyen değişikliklere neden olabilir veya mevcut güvenlik özelliklerini geçersiz kılabilir.
ALI, bir yapay zeka sisteminin güvenliğinin aynı zamanda boşlukta değerlendirilebilecek doğal bir özellik olmadığını ve bunun modellerin belirli bağlamlarda veya ortamlardaki etkileri açısından test edilmesini ve değerlendirilmesini gerektirdiğini ekledi. “Laboratuvar ortamında yapılması gereken değerli testler ve model düzeyinde yapılması gereken önemli güvenlik müdahaleleri var, ancak bunlar hikayenin tamamını sunmuyor” dedi.
Tüm bu sorunların, AISI’nin modellere etkili erişimi yasakladığını söylediği gönüllü çerçevesi nedeniyle daha da kötüleştiğini ekledi (son raporlarda gösterildiği gibi) Politika Bu durum, dört büyük temel model geliştiricisinden üçünün, en yeni modelleri için üzerinde anlaşmaya varılan yayın öncesi AISI erişimini sağlayamadıklarını ortaya çıkardı).
“Gönüllü rejimin sınırları erişimin ötesine geçiyor ve aynı zamanda değerlendirmelerin tasarımını da etkiliyor” dedi. “Konuştuğumuz birçok değerlendiriciye göre, mevcut değerlendirme uygulamaları kamu veya düzenleyici kurumlardan ziyade şirketlerin çıkarlarına daha uygun. Büyük teknoloji şirketlerinde ticari teşvikler, onların (toplumsal açıdan daha önemli bir etkiye sahip olabilecek güvenlik sorunları yerine) itibar riski oluşturan performans ve güvenlik sorunlarına ilişkin değerlendirmelere öncelik vermelerine yol açıyor.”
ALI, AISI’nin zararlı veya güvenli olmayan modellerin piyasaya sürülmesini önleme konusunda da güçsüz olduğunu ve piyasaya sürülmesine ilişkin daha fazla test veya özel güvenlik önlemleri gibi koşullar dayatamayacak durumda olduğunu da sözlerine ekledi.
“Kısacası, bir test rejimi yalnızca kanunla desteklenen piyasa öncesi onay yetkileri ile anlamlıdır” dedi.
Bununla birlikte, kendi blog yazısına göre AISI, gelişmiş yapay zeka sistemlerinin kendi değerlendirmelerindeki performansı ile vahşi ortamda nasıl performans gösterebilecekleri arasındaki potansiyel farkın “kesinlikle farkında” olduğunu söyledi.
“Kullanıcılar modellerle tahmin etmediğimiz şekillerde etkileşime girebilir ve değerlendirmelerimizin yakalayamayacağı zararlar ortaya çıkabilir” dedi. “Dahası, model değerlendirmeleri resmin yalnızca bir kısmı. Gelişmiş yapay zeka sistemlerinin kullanıcı üzerinde yaratabileceği doğrudan etkiyi araştırmanın da önemli olduğunu düşünüyoruz. Bu sorunları anlamak ve çözmek için araştırmalarımız sürüyor.
“Çalışmamız bir modelin ‘güvenli’ veya ‘güvensiz’ olduğuna dair herhangi bir güvence sağlamıyor. Ancak bunun, model yeteneklerine ve mevcut koruma önlemlerinin sağlamlığına ilişkin ortaya çıkan tabloya katkıda bulunacağını umuyoruz.”