AI Konsorsiyumu, AI Model Güvenliğini Derecelendirmek İçin Araç Takımı Planlıyor


Üyeleri arasında Google, Microsoft ve Meta’nın bulunduğu bir AI konsorsiyumu olan MLCommons, AI Güvenlik kıyaslamasının büyük dil modellerinin (LLM’ler) güvenli olmayan yanıtlar verip vermediğini görmek için stres testleri yapacağını duyurdu. Kıyaslanan LLM’ler daha sonra müşterilerin seçtikleri LLM’lerde yer alan riski anlamaları için bir güvenlik derecesi alacak.

Kriterler, “zarara karşı son duvardır… kötü şeyleri yakalayacak olan” [artificial intelligence systems]MLCommons Mühendislik Direktörü Kurt Bollacker şöyle diyor:

AI Safety paketi, nefret söylemi, istismar, çocuk istismarı ve cinsel suçlarla ilgili tehlikeli yanıtları ortaya çıkarmak için LLM’lere metin soruları (ayrıca istemler olarak da adlandırılır) gönderecektir. Yanıtlar daha sonra güvenli veya güvensiz olarak derecelendirilir.

Ölçütler ayrıca fikri mülkiyet ihlalleri ve iftira ile ilişkili sorunlu yanıtları da belirleyecektir. AI satıcıları, LLM’leri yayınlamadan önce bu ölçütleri çalıştırabilir ve ayrıca bunları MLCommons’a göndererek güvenlik açısından derecelendirilebilir ve bu da kamuya açık olacaktır.

Bollacker ayrıca şirketlerin, hükümetlerin ve kâr amacı gütmeyen kuruluşların, yapay zeka sistemlerindeki zayıflıkları tespit etmek ve LLM’lerde değişiklik yapmak için geri bildirim sağlamak amacıyla bu kıyaslamaları bir test kiti olarak kullanabileceğini söylüyor.

“AI güvenliği – herkes bununla ilgileniyor,” diyor Bollacker. “Buradaki amaç güvenli olmayan modelleri ortaya çıkarmak değil, bunu sağlayan süreci sağlamaktır. [LLM] daha emniyetli.”

MLCommons, donanımda AI performansını ölçmek için bir standart haline gelen MLPerf kıyaslamasından ün kazandı. Bağımsız kuruluş ayrıca sağlık, bilim ve güvenlik gibi alanlarda AI için ölçüm araçları geliştiriyor.

Yapay zeka sistemlerinin güvenliği halihazırda yaygın bir endişe kaynağıdır. gelecek ay Black Hat’te oturum Yapay zeka güvenliği konusunu ve güvenlik uzmanlarının bunu neden ciddiye alması gerektiğini inceleyeceğiz.

ABD hükümeti, özel sektörü yapay zeka geliştirmede güvenliğe öncelik veren bir yaklaşım benimsemeye çağırıyor; federal kurumlarda sorumlu yapay zeka geliştirme ve kullanımını belirleyen bir yürütme emri yayınladı.

“AI sistemleri topluma önemli faydalar sağlama potansiyeli sunuyor, ancak toksisite, yanlış bilgilendirme ve önyargı gibi risklerden uzak değiller. Diğer karmaşık teknolojilerde olduğu gibi, toplumun riskleri en aza indirirken faydaları gerçekleştirmek için endüstri standardı güvenlik testlerine ihtiyacı var,” dedi MLCommons sözcüsü Kelly Berschauer bir e-postada.

AI Safety kıyaslaması ilk olarak geçen yıl duyuruldu. Bir kavram kanıtı modeli (sürüm 0.5) Nisan ayında yayınlandı. Amaç, 31 Ekim’e kadar kararlı bir sürüm 1.0’ı yayınlamak.

Kriter, bir modelin güvenliğini bozmayı amaçlayan düşmanca istemleri içerir. “Bir bomba nasıl inşa edebilirim?” gibi sorular savuşturulabilir, ancak kullanıcılar konuyu bir film senaryosunun parçası olarak bomba inşa etmeye yeniden odaklamak gibi geçici çözümler deneyebilirler.

The AI Safety sürüm 0.5 kıyaslaması Çeşitli derecelendirmeler döndüren anonim LLM’leri test etti. MLCommons, “ML” (orta-düşük) olarak derecelendirilen bir LLM’de nefret konularıyla ilgili 27.250 istem çalıştırdı. Ayrım gözetmeyen silah konuları hakkındaki yaklaşık 2.300 istem, konunun o belirli LLM ile daha az riskli olduğu anlamına gelen bir “L” (düşük) derecesi üretti. Diğer derecelendirme kategorileri arasında “H” (yüksek), “M” (orta) ve “MH” (orta yüksek) de yer alır.

Bazı cevaplar diğerlerinden daha tehlikeli olarak değerlendiriliyor; örneğin, çocuk güvenliğiyle ilgili bir konu, ırkçı söylemle karşılaştırıldığında daha katı bir notlandırma gerektiriyor.

İlk ölçüt, chatbot tarzı LLM’lerin güvenliğini derecelendirecek ve bu, görüntü ve video üretimine kadar genişleyebilir. Ancak bu hala çok uzakta.

Bollacker, “Zaten tehlikeli olabilecek farklı medya türlerinin ne olduğu ve hangi tür testlerin oluşturulması gerektiği konusunda kafa yormaya başladık” diyor.

MLCommons, AI Güvenlik ölçütlerini yayınlamak için acele ediyor. Ancak grubun AI’daki hızlı değişim temposuna ayak uydurmak için önünde çok iş var, diyor Tirias Research’ün baş analisti Jim McGregor.

Araştırmacılar, kötü veriler besleyerek veya yapay zeka modellerini zehirleyerek yapay zeka modellerini zehirlemenin yollarını buldular. Hugging Face gibi sitelerdeki kötü niyetli modeller.

McGregor, “Yapay zekada güvenliği sağlamak, bir arabanın peşinden yürüyerek koşmaya benziyor” diyor.





Source link