Şirketler, ürünlerinde ve günlük operasyonlarında yapay zeka ve makine öğrenimi (AI/ML) modellerini geliştirmek ve test etmek için acele ederken, modellerin güvenliği genellikle sonradan akla gelen bir düşünce oluyor ve firmaları arka kapı ve kaçırılan modellerin tuzağına düşme riskiyle karşı karşıya bırakıyor.
Kendi makine öğrenimi ekibine sahip şirketlerin üretimde 1.600'den fazla modeli bulunuyor ve şirketlerin %61'i, tüm makine öğrenimi varlıklarına ilişkin iyi bir görünürlüğe sahip olmadıklarını kabul ediyor. HiddenLayer tarafından yayınlanan anket verileri, bir AI/ML güvenlik firması. Sonuç: Saldırganlar, modelleri riske giren şirketler için potansiyel bir vektör olarak belirlediler. yazılım güvenliği firması JFrog tarafından yakın zamanda yapılan bir araştırma Hugging Face deposuna gönderilen modellerin, kurbanın makinesinde arka kapı oluşturan kötü amaçlı dosyaları bulması.
HiddenLayer teknik araştırma direktörü Eoin Wickens, şirketlerin yapay zeka destekli yetenekler geliştirmek için acele ederken AI/ML modellerinin ve MLOps işlem hattının güvenliğine bakmaları gerektiğini söylüyor.
“Yapay zekanın demokratikleşmesi ve bugünlerde model depolarından önceden eğitilmiş modellerin indirilebilmesinin kolaylığı sayesinde, bir model alabilir, amaca göre ince ayar yapabilir ve üretime her zamankinden daha kolay bir şekilde koyabilirsiniz” diyor. “Bu modellerin konuşlandırıldıktan sonra emniyetini ve emniyetini nasıl sağlayabileceğimiz hala açık bir soru.”
Yapay zekanın benimsenme hızı güvenlik uzmanlarını endişelendiriyor. Nisan ayında Black Hat Asia'da yapılacak bir konuşmada Dropbox'lı iki güvenlik araştırmacısı, kötü amaçlı modellerin yürütüldükleri ortamlara nasıl saldırabileceğine ilişkin araştırmalarını sunacak. Araştırma, modelin çalıştırılmasının gömülü kötü amaçlı yazılımın ana bilgisayar ortamını tehlikeye atmasına olanak tanıdığı ve modelin davranışını etkileyecek ve belirli sonuçlar üretecek şekilde değiştirildiği arka kapının ele geçirildiği modelleri ele geçirmenin yollarını belirledi.
Dropbox'ta kırmızı ekipte güvenlik mühendisi ve Black Hat Asia'nın ortak sunumcularından biri olan Adrian Wood, modellerin güvenliğini ve bütünlüğünü kontrol etme çabaları olmadan, saldırganların kodu çalıştırmanın veya ortaya çıkan çıktıyı etkilemenin yollarını kolayca bulabileceğini söylüyor.
Veri bilimcileri ve yapay zeka geliştiricileri “her türden insan ve her türden kuruluş tarafından oluşturulan veri havuzlarındaki modelleri kullanıyor ve bu modelleri yakalayıp çalıştırıyorlar” diyor. “Sorun şu ki, bunlar sadece programdır ve herhangi bir program her şeyi içerebilir, dolayısıyla onu çalıştırdıklarında her türlü soruna neden olabilir.”
Yapay Zeka Modellerinin Sisi
HiddenLayer araştırmadan sorumlu başkan yardımcısı Tom Bonner, üretimde 1.600'den fazla yapay zeka modelinin tahmini kulağa yüksek gelebilir ancak veri bilimi, makine öğrenimi veya veri odaklı yapay zekaya odaklanan ekiplere sahip şirketlerin üretimde çok sayıda modeli olduğunu söylüyor. Bir yılı aşkın bir süre önce, şirketin kırmızı ekibi bir finansal hizmetler kuruluşunun katılım öncesi değerlendirmesini yürüttüğünde yalnızca birkaç makine öğrenimi ve yapay zeka modelinin üretimde olmasını bekliyorlardı. Gerçek sayı mı? 500'den fazla diyor.
Bonner, “Pek çok yerde çok özel görevler için belki de küçük modeller yetiştirdiklerini görmeye başlıyoruz, ancak bunun günün sonunda genel yapay zeka ekosistemi açısından önemli olduğu açık” diyor. “Yani ister finans, ister siber güvenlik, ister ödeme süreçleri olsun [that they are applying AI to]insanların şirket içinde kendilerini eğittiği modellerin sayısında büyük bir artış görmeye başlıyoruz.”
Şirketlerin, veri bilimcileri ve makine öğrenimi uygulama geliştiricileri tarafından hangi modellerin indirildiğine dair görünürlük eksikliği, artık yapay zeka saldırı yüzeyleri üzerinde kontrol sahibi olmadıkları anlamına geliyor.
Pickle, Keras: Kötü Amaçlı Yazılım Eklemek Kolay
Modeller sıklıkla çerçeveler kullanılarak oluşturulur; bunların tümü, model verilerini, tedbirsiz bir veri bilimcinin makinesinde kod çalıştırabilecek dosya formatlarında kaydeder. Popüler çerçeveler arasında TensorFlow, PyTorch, Scikit-Learn ve daha az ölçüde TensorFlow'un üzerine inşa edilen Keras bulunur. Üretken yapay zekayı benimseme telaşında olan birçok şirket, aynı zamanda aşağıdaki sitelerden önceden eğitilmiş modeller de indiriyor: Sarılma Yüz, Tensorflow Merkezi, PyTorch MerkeziVe Model Hayvanat Bahçesi.
Tipik olarak modeller, Scikit-Learn (.pkl) ve PyTorch (.pt) tarafından Pickle dosyaları olarak ve Keras ve TensorFlow tarafından sıklıkla kullanılan Hiyerarşik Veri Formatı sürüm 5 (HDF5) dosyaları olarak kaydedilir. Ne yazık ki, bu dosya biçimleri yürütülebilir kod içerebilir ve genellikle güvenlik açıklarına açık, güvenli olmayan serileştirme işlevlerine sahiptir. Bir yapay zeka uygulama güvenliği firması olan Koruma AI'nın bilgi güvenliği sorumlusu Diana Kelley, her iki durumda da bir saldırganın modelin çalıştırıldığı makinelere saldırabileceğini söylüyor.
“Modellerin çalışma şekli nedeniyle, bir kuruluş içinde çok yüksek ayrıcalıklarla çalışma eğilimindedirler, dolayısıyla veri kaynaklarına dokunmaları veya onlardan girdi almaları gerektiğinden birçok şeye erişimleri vardır” diyor. “Yani eğer bir modele kötü amaçlı bir şey yerleştirebilirseniz, o zaman bu çok geçerli bir saldırı olacaktır.”
Örneğin Hugging Face, 2022'nin sonunda 100.000'den az olan model sayısını şu anda 540.000'den fazla modele çıkarıyor. Koruma yapay zeka tarafından taranan Hugging Face ve 3.354 güvensiz model buldu; bunların yaklaşık 1.350'si Hugging Face'in kendi tarayıcısı tarafından gözden kaçırılmıştı. Şirketin Ocak ayında belirttiği.
Şirketlerin Eğitim Verilerine Güvenebilme Yeteneğine İhtiyacı Var
Uzmanlar, yapay zeka modellerinin geliştirilmesini ve dağıtımını güvence altına almak için kuruluşların, genellikle MLSecOps olarak adlandırılan bir kavram olan ML hattı boyunca güvenliği entegre etmeleri gerektiğini söylüyor.
Bu görünürlük, modeller oluşturmak için kullanılan eğitim verileriyle başlamalıdır. Örneğin modellerin, kötü niyetli bir kaynak tarafından değiştirilemeyecek yüksek kaliteli ve güvenli verilerle eğitildiğinden emin olmak, nihai AI/ML sistemine güvenebilme yeteneği açısından kritik öneme sahiptir. Geçen yıl yayınlanan bir makalede, aralarında Google DeepMind mühendisi Nicholas Carlini'nin de bulunduğu bir araştırmacı ekibi, saldırganların kolayca zehirlemek Veri setlerine dahil olduğu bilinen alanları satın alarak yapay zeka modellerinin eğitimi.
Hidden Layer's Wickens, ML işlem hattının güvenliğinden sorumlu ekibin, belirli bir model oluşturmak için kullanılan her veri kaynağını bilmesi gerektiğini söylüyor.
“Veri toplama ve veri iyileştirme sürecinizden özellik mühendisliğine, model oluşturma ve devreye almaya kadar makine öğrenimi operasyonlarınızın yaşam döngüsünü anlamanız gerekiyor” diyor. “Kullandığınız veriler hatalı olabilir.”
Güvenlik İçin Puanlama Modelleri
Şirketler, modelin temel güvenliğine dair ipucu verebilecek ölçümlere bakarak başlayabilir. Şirketlerin güvenlik için bir karne oluşturmak amacıyla farklı açık kaynak proje özelliklerini kullanan araçları giderek daha fazla kullandığı açık kaynak yazılım dünyasına benzer şekilde, bir model hakkındaki mevcut bilgiler onun temel güvenliğine dair ipuçları verebilir.
İndirilen modellere güvenmek zor olabilir, çünkü bunların birçoğu çok az geçmiş performansa sahip olan makine öğrenimi araştırmacıları tarafından yapılmıştır. Örneğin HiddenLayer'ın ModelScanner'ı genel depolardaki modelleri analiz eder ve bunları kötü amaçlı kodlara karşı tarar. Koruma AI'dan Radar gibi otomatik araçlar, yapay zeka hattında kullanılan malzeme listelerinin bir listesini oluşturur ve ardından kaynaklardan herhangi birinin risk oluşturup oluşturmadığını belirler.
Koruma AI'dan Kelley, açık kaynaklı projelerin bu ekosistem için güvenlik yetenekleri yarattığı gibi, şirketlerin de makine öğrenimi bileşenleri etrafında bir güvenlik araçları ekosistemini hızlı bir şekilde uygulaması gerektiğini söylüyor.
“Açık kaynağın güvenliğinin sağlanması ve açık kaynağın sorumlu ve güvenli bir şekilde kullanılması hakkında öğrendiğimiz tüm dersler, teknik gezegenin tamamı yapay zeka ve makine öğrenimini benimseme yolculuğuna devam ederken çok değerli olacak” diyor.
Genel olarak şirketler, satış kanallarına yönelik daha fazla görünürlük kazanmaya başlamalıdır. Kelley, bu bilgi olmadan model tabanlı saldırıları önlemenin zor olduğunu söylüyor.