Google, Şimdiye Hazırlanmak İçin 6 Gerçek Dünya Yapay Zeka Saldırısını Sınıflandırıyor



Google araştırmacıları, gerçek dünyadaki yapay zeka sistemlerine karşı gerçekleşebilecek altı özel saldırı belirlediler ve bu yaygın saldırı vektörlerinin benzersiz bir karmaşıklık sergilediğini keşfettiler. Bu, sağlam bir savunma oluşturmak için düşman simülasyonları ile yapay zeka konu uzmanlığının bir kombinasyonunu gerektireceğini belirttiler.

Şirket, bu hafta yayınlanan bir raporda, özel yapay zeka kırmızı ekibinin, hızla büyüyen teknolojiye yönelik çeşitli tehditleri zaten ortaya çıkardığını açıkladı.

Saldırılar büyük ölçüde teknolojinin beklenmedik ve hatta kötü niyetli sonuçlar üretmesine neden oluyor; bu da, ortalama bir kişinin fotoğraflarının bir ünlünün fotoğraf web sitesinde görünmesi kadar zararsız sonuçlara, güvenlikten kaçan kimlik avı saldırıları veya veri hırsızlığı gibi daha ciddi sonuçlara yol açabiliyor.

Google’ın bulguları, şirketin AI güvenlik sorununun çok geç olmadan önüne geçmeyi amaçladığını söylediği Güvenli AI Çerçevesinin (SAIF) yayınlanmasının hemen ardından geldi, çünkü teknoloji zaten hızlı bir şekilde benimseniyor ve ardından yeni güvenlik tehditleri yaratıyor.

Modern Yapay Zeka Sistemlerine Yönelik 6 Yaygın Saldırı

Google kimliğinin tespit ettiği ilk yaygın saldırı grubu: hızlı saldırılar, “hızlı mühendislik” içeren. Bu, LLM’lere istenen görevleri gerçekleştirme talimatı veren etkili bilgi istemleri hazırlamayı ifade eden bir terimdir. Araştırmacılar, model üzerindeki bu etkinin, kötü niyetli olduğunda, LLM tabanlı bir uygulamanın çıktısını amaçlanmayan şekillerde kötü niyetli olarak etkileyebileceğini söyledi.

Buna bir örnek, birisinin yapay zeka tabanlı bir kimlik avı saldırısına son kullanıcı tarafından görülemeyen ancak yapay zekayı bir kimlik avı e-postasını meşru olarak sınıflandırması için yönlendirebilecek bir paragraf eklemesi olabilir. Bu, e-posta kimlik avına karşı korumaları aşmasına ve kimlik avı saldırısının başarılı olma şansını artırmasına izin verebilir.

Ekibin ortaya çıkardığı başka bir saldırı türü de eğitim-veri çıkarmabir LLM’nin kullandığı kelimesi kelimesine eğitim örneklerini yeniden oluşturmayı amaçlayan – örneğin, İnternet içeriği.

Bu şekilde, saldırganlar verilerden birebir kişisel olarak tanımlanabilir bilgiler (PII) veya parolalar gibi sırları çıkarabilir. Araştırmacılar, “Saldırganlar, hassas bilgileri toplamak için kişiselleştirilmiş modelleri veya PII içeren veriler üzerinde eğitilmiş modelleri hedeflemeye teşvik ediliyor” diye yazdı.

Üçüncü bir potansiyel AI saldırısı, modeli arka kapıdan almakAraştırmacılar, bir saldırganın “arka kapı olarak da bilinen belirli bir” tetikleyici “kelime veya özellikle yanlış çıktılar üretmek için bir modelin davranışını gizlice değiştirmeye çalışabileceğini” yazdı. Bu tür bir saldırıda, bir tehdit aktörü, kötü amaçlı etkinlik yürütmek için modelde veya modelin çıktısında kodu gizleyebilir.

Adı verilen dördüncü bir saldırı türü düşmanca örnekler, bir saldırganın “belirleyici, ancak oldukça beklenmedik bir çıktı” ile sonuçlanmak üzere bir modele sağladığı girdilerdir, diye yazdı araştırmacılar. Bir örnek, modelin insan gözüne bir şeyi açıkça gösteren ancak modelin tamamen farklı bir şey olarak algıladığı bir görüntüyü gösterebilmesi olabilir. Bu tür bir saldırı oldukça zararsız olabilir Bir kişinin modeli, kendi fotoğrafının bir ünlü web sitesine dahil edilmeye değer olduğunu kabul etmesi için eğitebileceği bir durumda veya tekniğe ve amaca bağlı olarak kritik.

Saldırgan ayrıca bir veri zehirleme saldırısı saldırganın tercihine göre modelin çıktısını etkilemek için modelin eğitim verilerini manipüle etmek – geliştiriciler yazılım geliştirmelerine yardımcı olmak için yapay zeka kullanıyorsa, yazılım tedarik zincirinin güvenliğini de tehdit edebilecek bir şey. Araştırmacılar, bu saldırının etkisinin, modele arka kapıdan girmeye benzer olabileceğini belirtti.

Google’ın özel yapay zeka kırmızı ekibi tarafından tanımlanan son saldırı türü, sızma saldırısıSaldırganların, içinde depolanan hassas fikri mülkiyeti çalmak için bir modelin dosya temsilini kopyalayabildiği . Daha sonra bu bilgileri, saldırganlara özel hazırlanmış saldırılarda benzersiz yetenekler vermek için kullanılabilecek kendi modellerini oluşturmak için kullanabilirler.

Geleneksel Güvenlik Sayıları

İnternet devi Google’a göre, Google’ın ilk yapay zeka kırmızı takım tatbikatı, araştırmacılara diğer işletmelerin de yapay zeka sistemlerine yönelik saldırılara karşı savunmak için kullanabilecekleri bazı değerli dersler verdi. Birincisi, kırmızı takım faaliyeti iyi bir başlangıç ​​olsa da, kuruluşların maksimum savunma için gerçekçi uçtan uca düşman simülasyonları yürütmek üzere yapay zeka uzmanlarıyla ekip oluşturması gerektiğidir.

Gerçekten de, bir kuruluşun potansiyel güvenlik açıklarını belirlemek için kendi sistemlerine sızmaya çalışmak üzere etik korsanlardan oluşan bir ekibi görevlendirdiği kırmızı ekip tatbikatları, kuruluşların genel güvenlik duruşlarını güçlendirmelerine yardımcı olmak için popüler bir trend haline geliyor.

Araştırmacılar raporda, “Kırmızı ekibin, her kuruluşu yapay zeka sistemlerine yönelik saldırılara hazırlamada belirleyici bir rol oynayacağına inanıyoruz ve herkesin yapay zekayı güvenli bir şekilde kullanmasına yardımcı olmak için birlikte çalışmayı dört gözle bekliyoruz.”

Bununla birlikte, ekibin öğrendiği başka bir derste kuruluşlar için bazı iyi haberler de vardı: Geleneksel güvenlik kontrolleri, yapay zeka sistemlerine yönelik riski etkili ve önemli ölçüde azaltabilir.

Araştırmacılar, “Bu, özellikle veri zehirlenmesini ve arka kapı saldırılarını önlemek için AI modellerinin bütünlüğünü yaşam döngüleri boyunca korumak için geçerlidir.”

Geleneksel bir kurumsal sistemdeki diğer tüm varlıklarda olduğu gibi, kuruluşlar da yapay zeka saldırılarına karşı savunma yapmak için sistemlerin ve modellerin uygun şekilde kilitlendiğinden emin olmalıdır. Araştırmacılar ayrıca, kuruluşların AI sistemlerine yönelik saldırıları tespit etmek için geleneksel saldırıları tespit etmek için kullandıklarına benzer bir yaklaşım kullanabileceğini belirtti.

Yazdılar: “Modellere hem girdi hem de çıktıyı doğrulamak ve sterilize etmek gibi geleneksel güvenlik felsefeleri, AI alanında hala geçerlidir.”



Source link