Giderek daha popüler ve yaygın hale gelen yapay zeka (AI) ile ilişkili güvenlik riskleri hakkında artan endişeler var.
Yeni nesil yapay zekanın (AI) oluşturulmasında önemli bir katılımcı olan Google, AI kullanırken dikkatli olunması gerektiğini vurguladı.
Yakın tarihli bir blog gönderisinde Google, kendilerini yapay zekanın güvenliğini sağlamaya adamış etik korsanlardan oluşan ekibini duyurdu. Bu, şirketin bu bilgiyi ilk kez kamuya açıkladığı anlamına geliyor.
Şirket, Kırmızı Takım’ın yaklaşık on yıl önce kurulduğunu söyledi. Ekip, hızla gelişen alana yönelik, çoğunlukla rakiplerin ChatGPT, Google Bard ve diğerleri gibi üretken yapay zeka sistemlerini güçlendiren büyük dil modellerini (LLM’ler) nasıl tehlikeye atabileceğine bağlı olarak çeşitli riskler belirledi.
Google araştırmacıları, gerçek dünyadaki AI sistemlerine karşı oluşturulabilecek altı özel saldırı belirledi. Bu yaygın saldırı vektörlerinin benzersiz bir karmaşıklık sergilediğini keşfettiler.
Çoğu durumda, saldırılar teknolojinin istenmeyen ve hatta kötü niyetli etkiler üretmesine neden olur. Sonuçlar, zararsız olanlardan daha tehlikeli olanlara kadar değişebilir.
Yapay Zeka Sistemlerine Yönelik Kırmızı Takım Saldırılarının Türleri
- Hızlı saldırılar
- Eğitim verisi çıkarma
- Modelin arka kapısı
- Düşman örnekler
- Veri zehirlenmesi
- sızma
Google’ın tespit edebildiği ilk sık sık saldırı türü, hızlı saldırılar, “hızlı mühendislik” kullanan. LLM’lere belirli görevleri yerine getirmek için gereken talimatları sağlayan etkili bilgi istemleri oluşturmakla ilgilidir.
Araştırmacılara göre, model üzerindeki bu etki kötü niyetli olduğunda, LLM tabanlı bir uygulamanın çıktısını amaçlanmayan şekillerde kasıtlı olarak etkileyebilir.
Araştırmacılar ayrıca olarak bilinen bir saldırı keşfettiler. eğitim-veri çıkarmaİnternet içeriği gibi bir LLM tarafından kullanılan tam eğitim örneklerini yeniden oluşturmaya çalışır.
Araştırmacılar, “Saldırganlar, hassas bilgileri toplamak için kişiselleştirilmiş modelleri veya PII içeren veriler üzerinde eğitilmiş modelleri hedeflemeye teşvik ediliyor” dedi.
Saldırganlar, bu şekilde verilerden parolaları veya diğer kişisel olarak tanımlayıcı bilgileri (PII) toplayabilir.
Modelin arka kapısıgenellikle arka kapı olarak bilinir, bir saldırganın belirli bir ‘tetikleme’ cümlesi veya özelliği ile yanlış çıktılar vermek için bir modelin davranışını gizlice değiştirmeye çalışabileceği üçüncü bir olası AI saldırısıdır.
Bu tür bir saldırıda, bir tehdit aktörü, modelde veya çıktısında zararlı eylemler gerçekleştirmek için kodu gizleyebilir.
Düşman örneklerDördüncü bir saldırı türü olan , bir saldırganın “belirleyici ama oldukça beklenmedik bir çıktı” üretmek için bir modele verdiği girdilerdir. Örneğin, model bir kedi görürken, resim insan gözüne bir köpeği tasvir ediyormuş gibi görünebilir.
Araştırmacılar, “Bir saldırganın başarılı bir şekilde rakip örnekler oluşturmasının etkisi, ihmal edilebilirden kritik düzeye kadar değişebilir ve tamamen yapay zeka sınıflandırıcısının kullanım durumuna bağlıdır” dedi.
Yazılım geliştiricileri, yazılım geliştirmelerine yardımcı olmak için yapay zekayı kullanıyorsa, bir saldırgan ayrıca veri zehirleme saldırısı modelin çıktısını saldırganın tercih ettiği yönde etkilemek için modelin eğitim verilerini manipüle etmek.
Bu, yazılım tedarik zincirinin güvenliğini tehlikeye atabilir. Araştırmacılar, bu saldırının etkilerinin, modele arka kapıdan girmekle karşılaştırılabilir olabileceğini vurguladı.
Nihayet, Sızma saldırılarıSaldırganların, içinde barındırılan kritik fikri mülkiyeti çalmak için bir modelin dosya temsilini aktarabildiği saldırılar, Google’ın uzman yapay zeka kırmızı ekibi tarafından tanınan son saldırı biçimidir.
Özel hazırlanmış saldırılarda saldırganlara özel güçler sunmak için yararlanabilecekleri modellerini oluşturmak için bu verileri kullanabilirler.
Öneri
Modellerin ve sistemlerin güvenli bir şekilde kilitlendiğinden emin olmak gibi geleneksel güvenlik önlemleri tehlikeyi büyük ölçüde azaltabilir.
Araştırmacılar, işletmelere ürün oluşturma ve araştırma çabalarını desteklemek için iş süreçlerinde kırmızı takım oluşturmayı kullanmalarını tavsiye ediyor.