Düşmanca makine öğrenimi - AI modellerinin güvenliği

Sorunlu makine öğrenimi kullanan AI sistemleri kritik altyapı, sağlık ve otonom teknolojilere entegre edildiğinden, savunucuları güçlendiren modeller ile güvenlik açıklarından yararlanan saldırganlar arasında sessiz bir savaş ortaya çıkıyor.

Rakip Makine Öğrenimi (AML) alanı hem bir tehdit vektörü hem de bir savunma stratejisi olarak ortaya çıkmıştır ve 2025, saldırı sofistike, savunma çerçeveleri ve düzenleyici tepkilerdeki benzeri görülmemiş gelişmelere tanıklık eder.

Gelişen tehdit manzarası

Düşmanca saldırılar, insanlar için normal görünen ancak yanlış sınıflandırmaları tetikleyen dikkatle hazırlanmış girdiler yoluyla AI sistemlerini manipüle eder. Son gelişmeler endişe verici yetenekleri göstermektedir:

Google Haberleri

Araştırmacılar, kendi kendine sürüş sistemlerinin nesne algılamasını aldatan araca monte edilmiş ekranlarda hareketli olumsuz yamalar gösterdiler.

Kavşaklarda, bu dinamik pertürbasyonlar, gerçek dünya testlerinde kritik trafik işaretlerinin% 78’inin yanlış tanımlanmasına neden oldu ve potansiyel olarak navigasyon kararlarını değiştirdi. Bu, statik dijital saldırılardan uyarlanabilir fiziksel dünya istismarlarına bir paradigma kaymasını temsil eder.

Başlangıçta sanatçı telif haklarını korumak için tasarlanmış NightShade AI gibi araçların 2024 Advent’i, difüzyon modelleri için eğitim verilerini zehirlemeye yeniden tasarlandı.

Kötü niyetli bir şekilde uygulandığında, metin-imaj model doğruluğunu%41 azaltmak için eğitim verilerindeki piksel dağılımlarını ustaca değiştirebilir.

Tersine, saldırganlar artık sahtekarlık algılama sistemlerini atlayan sentetik veriler oluşturmak için üretken düşmanca ağlar (GANS) kullanıyor. Finansal kurumlar, 2023’ten bu yana AI tarafından üretilen sahte işlem kalıplarında% 230 artış olduğunu bildirmiştir.

Mart 2025 NIST yönergeleri, üçüncü taraf ML bileşenlerini hedefleyen yeni saldırı vektörlerini vurgulamaktadır. Bir olayda, PYPI’ye yüklenen tehlikeye atılan açık kaynaklı görme modeli, tespitten önce 14.000’den fazla aşağı yönlü uygulamaya uzanmıştır.

Bu tedarik zinciri saldırıları, ML topluluğunun önceden eğitilmiş modellere olan bağımlılığından yararlanır ve AI geliştirme ekosistemindeki sistemik riskleri vurgular.

Sektöre özgü etkiler

Tıbbi görüntülemedeki düşmanca bozulmalar akademik meraklardan gerçek dünya tehditlerine ilerlemiştir. Berlin hastane ağındaki 2024 ihlali, tümörleri gizlemek için değiştirilmiş BT taramaları içeriyordu ve tespitten önce iki yanlış tanıya neden oldu.

Saldırı, DICOM meta verilerini ve piksel değerlerini aynı anda değiştirmek için gradyan tabanlı yöntemlerden yararlandı, klinisyenlerden ve siber savunmalardan kaçtı.

Uluslararası Yerleşimler Bankası ‘1. Çeyrek 2025 raporu, 37 Merkez Bankası AML sistemlerine karşı koordineli bir kaçırma saldırısını detaylandırıyor.

Saldırganlar, kara para aklama faaliyetlerini gizlerken, grafik sinir ağlarının kenar ağırlık hesaplamalarında bir güvenlik açığından yararlanırken istatistiksel olarak normal görünen işlem kalıpları oluşturmak için üretken modeller kullandılar.

Tesla’nın 2. çeyrek 200.000 aracı hatırlaması, vizyon tabanlı şerit tespitinde rakip istismarlardan kaynaklandı. Yollar üzerinde belirli aralıklarla yerleştirilen fiziksel çıkartmalar, test senaryolarının% 12’sinde istenmeyen ivmeye neden oldu.

Bu, kamera girişlerinde% 2’den az piksel değişikliğinin çoklu sensör sistemlerde LIDAR konsensüsünü geçersiz kılabileceğini gösteren MIT araştırmalarını izler.

Savunma Stratejileri – Tekniğin durumu

Düşmanca eğitim temel yinelemeli yöntemlerin ötesinde gelişmiştir. AdvSecurenet Toolkit, dinamik düşman üretimi ile çoklu GPU paralelleştirilmiş eğitimi sağlar ve güçlü model geliştirme süresini 2023 yaklaşımlara kıyasla% 63 azaltır.

Microsoft’un yeni “Omnirobust” çerçevesi, eğitim sırasında 12 saldırı vektörünü birleştirerek, önceki yöntemlere göre% 22’lik bir iyileşme olan kombine kaçırma ve zehirlenme saldırıları altında% 89 doğruluk gösteriyor.

Defansif Damıtma 2.0
Bilgi transfer kavramlarına dayanan bu teknik, gradyan tabanlı saldırılara dirençli öğrenci modelleri oluşturmak için bir öğretmen modelleri topluluğu kullanır.

Yüz tanıma sistemlerindeki erken benimseyenler,% 99,3 validasyon doğruluğunu korurken üyelik çıkarım saldırılarını engellemede% 94 başarı bildirmektedir.

Mimari yenilikler

MITER ATLAS Framework’ün en son sürümü aşağıdakileri içeren 17 yeni savunma taktikini tanıtıyor:

Ayırılabilir Veri Doğrulama: İleri yayılma sırasında düşman girişlerini işaretleyen katmanla entegre anomali tespiti
Kuantum gürültü enjeksiyonu: Hassas katmanlarda gerçekten stokastik gürültü için kuantum rastgele sayı jeneratörlerinden yararlanmak
Federasyonlu Düşmanca Eğitim: Veri paylaşımı olmadan kurumlar arasında işbirlikçi model sertleştirme

Düzenleyici ve standardizasyon çabaları

NIST’in kesinleştirilmiş AI Güvenlik Yönergeleri (AI 100-2E2025) Yetkili:

Tüm federal ML sistemleri için diferansiyel gizlilik garantileri (ε <2.0)
Özellik alanı ayrışmasının gerçek zamanlı izlenmesi
Kritik altyapı modelleri için zorunlu düşmanlık testleri
AB’nin AI Yasası artık kaçınma saldırılarını “kabul edilemez risk” olarak sınıflandırıyor ve tıbbi cihazlar ve güç şebekesi yönetimi gibi yüksek riskli uygulamalar için sertifikalı savunma mekanizmaları gerektiriyor.

Önümüzdeki yol: çözülmemiş zorluklar

İlerlemeye rağmen, temel boşluklar devam ediyor:

Transfer saldırısı genellemesi
Son çalışmalar, ResNet-50’de geliştirilen saldırıların, görünmeyen Vision Transformer modellerinde adaptasyon yapmadan% 68 başarı oranlarına ulaştığını göstermektedir. Bu “mimarlıklar arası aktarılabilirlik” mevcut savunma stratejilerini zayıflatıyor.
Gerçek zamanlı tespit gecikmesi
ShieldNet gibi en son teknoloji dedektörler, 10ms altı yanıt gerektiren otonom sistemler için hassas bir şekilde yüksek olan çıkarım başına 23ms gecikme tanıtmaktadır.
Kuantum bilgi işlem tehditleri
Erken araştırmalar, Shor’un algoritmasının federasyonlu öğrenmede kullanılan homomorfik şifrelemeyi 18-24 ay içinde bozabileceğini ve potansiyel olarak dağıtılmış eğitim verilerini ortaya çıkarabileceğini gösteriyor.

Saldırganlar üretici AI ve kuantum gelişmelerden yararlandıkça, savunma topluluğu uyarlanabilir mimarilere ve uluslararası işbirliğine öncelik vermelidir.

2025 Global AI Güvenlik Zirvesi 37 ülkeli bir düşmanlık örnek deposu kurdu, ancak etkinliği rakipler arasında benzeri görülmemiş veri paylaşımına bağlı.

Bu yüksek bahisli ortamda, AI modellerinin güvence altına alınması teknik bir zorluk ve jeopolitik bir zorunluluk olmaya devam etmektedir.

Find this News Interesting! Follow us on Google News, LinkedIn, & X to Get Instant Updates!

Source link

Düşmanca makine öğrenimi – AI modellerinin güvenliği