Düşmanlar yapay zeka sistemlerini kasıtlı olarak yanıltabilir veya “zehirleyebilir”, bu da onların arızalanmasına neden olabilir ve geliştiriciler buna karşı henüz şaşmaz bir savunma bulamadılar. NIST araştırmacıları ve ortakları, son yayınlarında bu yapay zeka ve makine öğrenimi açıklarına dikkat çekiyor.
Üretken Yapay Zeka sistemlerine yönelik saldırıların sınıflandırılması
Yapay zeka sistemlerine yönelik potansiyel saldırıları anlama
“Çekişmeli Makine Öğrenimi: Saldırı ve Azaltmaların Taksonomisi ve Terminolojisi (NIST.AI.100-2)” adlı yayın, NIST’in güvenilir yapay zeka oluşturulmasını teşvik etmeye yönelik daha geniş girişiminin önemli bir bileşenidir. Bu çaba, NIST’in Yapay Zeka Risk Yönetimi Çerçevesinin uygulanmasını kolaylaştırmayı amaçlıyor ve sihirli bir çözüm olmadığını kabul ederek yapay zeka geliştiricilerinin ve kullanıcıların potansiyel saldırıları ve bunlara karşı koyma stratejilerini anlamalarına yardımcı olmayı amaçlıyor.
“Bu gördüğüm en iyi yapay zeka güvenlik yayını. En dikkat çekici olanı derinlik ve kapsamdır. Yapay zeka sistemlerine yapılan düşmanca saldırılarla ilgili karşılaştığım en kapsamlı içerik. Daha önce iyi etiketlenmemiş bileşenler için terminolojiyi detaylandırarak ve vererek hızlı enjeksiyonun farklı biçimlerini kapsar. Hatta DAN (Şimdi Her Şeyi Yap) jailbreak’i ve şaşırtıcı dolaylı anlık enjeksiyon çalışmaları gibi gerçek dünyadan üretken örneklere bile gönderme yapıyor. Potansiyel azaltımları kapsayan çok sayıda bölüm içerir ancak bunun henüz çözülmüş bir sorun olmadığı açıktır. Ayrıca açık ve kapalı model tartışmasını da kapsar. Sonunda, AI güvenliğini yazarken veya araştırırken büyük dil modellerine ekstra “bağlam” olarak kullanmayı planladığım yararlı bir sözlük var. AppOmni’nin baş yapay zeka mühendisi ve güvenlik araştırmacısı Joseph Thacker, Help Net Security’ye verdiği demeçte, “LLM ve benim bu konu alanına özgü aynı tanımlarla çalışmamızı sağlayacak” dedi.
Yapay zeka entegrasyonu ve veri güvenilirliğinin zorlukları
Yapay zeka sistemleri artık modern yaşamın çeşitli yönlerine entegre edilmiş durumda; araç sürmekten müşteri etkileşimi için çevrimiçi sohbet robotları olmaya ve hatta doktorlara hastalıkları teşhis etmede yardımcı olmaya kadar çeşitli roller üstleniyor. Bu sistemler kapsamlı veri setleri kullanılarak eğitilir. Örneğin otonom bir araç, yolların ve trafik işaretlerinin görüntüleri ile eğitilir. Aynı zamanda, büyük dil modeline (LLM) dayanan bir sohbet robotu, çevrimiçi konuşma kayıtlarından öğrenebilir. Bu veriler, yapay zekanın farklı senaryolara uygun şekilde yanıt verebilmesi için çok önemlidir.
Ancak önemli bir endişe bu verilerin güvenilirliğidir. Çoğu zaman web sitelerinden ve halka açık etkileşimlerden elde edilen veriler, kötü niyetli aktörlerin manipülasyonuna karşı savunmasızdır. Bu risk, yapay zeka sisteminin eğitim aşamasında ve daha sonra yapay zekanın davranışını gerçek dünya etkileşimleri yoluyla uyarlamasıyla ortaya çıkar. Bu tür bir müdahale, istenmeyen yapay zeka performansına yol açabilir. Örneğin, stratejik olarak tasarlanmış zararlı istemlerin güvenlik mekanizmalarını aşması durumunda sohbet robotları saldırgan veya ırkçı bir dil kullanmaya başlayabilir.
“Yapay zekanın riskleri, potansiyel faydaları kadar önemlidir. NIST’in en son yayını, yapay zeka sistemlerine yönelik saldırıları keşfetmek ve sınıflandırmak için harika bir başlangıç. Resmi bir sınıflandırmayı tanımlar ve iyi bir dizi saldırı sınıfı sağlar. Araçların zarar verecek şekilde kötüye kullanılması, yapay zekanın bir otorite olduğuna inanan insanlar tarafından miras alınan güvenin kötüye kullanılması ve toplu analiz yoluyla insanların kimliklerini gizleme ve hassas veriler elde etme yeteneği gibi birkaç alanı gözden kaçırıyor.” Matthew Rosenquist, CISO Eclipz.io’da yorum yaptı.
“Bu belge, sistem uygulamasıyla ilgili risklerin en önemlilerini tartışmıyor. Şifreleme araçlarında gördüğümüz gibi, istismar edilen güvenlik açıklarının çoğu algoritmik sistemlerde değil, bunların güvenli olmayan bir şekilde uygulanma biçimindedir. Aynı şey yapay zeka sistemleri için de geçerli olacak. Rosenquist sözlerini şöyle tamamladı: Siber güvenlik, yapay zekanın dağıtımına ve izin verilen kullanımına aktif olarak dahil edilmelidir.
Potansiyel saldırıları anlama ve azaltma
Kısmen yapay zeka eğitiminde kullanılan ve etkili insan izleme ve filtreleme için çok büyük olan veri setlerinin çok büyük boyutundan dolayı, şu anda yapay zekayı yanıltılmaktan koruyacak arıza korumalı bir yöntem mevcut değil. Yeni rapor, geliştiricileri desteklemek için yapay zeka ürünlerinin karşılaşabileceği potansiyel saldırılara ilişkin kapsamlı bir kılavuz sunuyor ve bunların etkilerini azaltacak stratejiler öneriyor.
Rapor, saldırıların dört ana kategorisini inceliyor: kaçırma, zehirlenme, mahremiyet ve istismar. Ayrıca bu saldırıları, saldırganın niyetleri ve hedefleri, yetenekleri ve bilgi düzeyi gibi çeşitli faktörlere göre sınıflandırır.
Kaçış saldırıları Yapay zeka sisteminin konuşlandırılmasından sonra gerçekleşir ve sistemin tepkisini değiştirmek için bir girdinin değiştirilmesini içerir. Örneğin, dur işaretlerine semboller eklemek, otonom bir aracın bunları hız sınırı işaretleri sanmasına yol açabilir.
Zehirlenme saldırıları eğitim aşamasında bozuk verilerin tanıtılması yoluyla gerçekleşir. Örneğin, konuşma kayıtlarına önemli miktarda rahatsız edici dil yerleştirmek, bir chatbot’un bu tür bir dilin normal olduğuna inanmasına ve müşterilerle olan etkileşimlerinde bu dili benimsemesine yol açabilir.
Gizlilik saldırıları Dağıtım aşamasında meydana gelir ve kötü amaçlı amaçlarla yapay zeka veya eğitim verileri hakkındaki gizli bilgileri çıkarmayı amaçlar. Bir saldırgan, bir chatbot’a çok sayıda soru sorabilir, ardından modelin güvenlik açıklarını ortaya çıkarmak veya veri kaynaklarını çıkarmak için yanıtları analiz edebilir. Bu kaynaklara zararlı örneklerin dahil edilmesi, yapay zekanın uygunsuz davranışlarına yol açabilir. Üstelik daha sonra yapay zekanın bu spesifik zararlı örnekleri göz ardı etmesini sağlamak zor olabilir.
Kötüye kullanım saldırıları Bir web sitesi gibi bir kaynağa yanlış bilgilerin yerleştirilmesini gerektirir ve bu daha sonra bir yapay zeka tarafından asimile edilir. Daha önce bahsedilen zehirleme saldırılarından farklı olarak, kötüye kullanım saldırıları, yapay zeka sisteminin orijinal amacını yeniden yönlendirmek amacıyla yapay zekanın hatalı verilerini gerçek ancak değiştirilmiş bir kaynaktan beslemeye odaklanır.
“Bu saldırıların çoğunun kurulumu oldukça kolaydır ve yapay zeka sistemi hakkında minimum bilgi ve sınırlı düşman yetenekleri gerektirir. Örneğin zehirlenme saldırıları, birkaç düzine eğitim örneğinin kontrol edilmesiyle gerçekleştirilebilir; bu da tüm eğitim setinin çok küçük bir yüzdesini oluşturur,” dedi Northeastern Üniversitesi’nden profesör ortak yazar Alina Oprea.
“Yapay zeka ve makine öğreniminin kaydettiği önemli ilerlemeye rağmen, bu teknolojiler, korkunç sonuçlar doğurabilecek olağanüstü arızalara neden olabilecek saldırılara karşı savunmasızdır. Yapay zeka algoritmalarının güvenliğiyle ilgili henüz çözülmemiş teorik sorunlar var. Aksini söyleyen olursa yılan yağı satıyorlar” dedi.