Yeni K2 AI modelinin rekor sürede jailbreak’e düştüğünü düşünüyor


G42 ile işbirliği içinde BAE’nin Mohamed Bin Zayed Yapay Zeka Üniversitesi’nden (MBZUAI) yeni yayınlanan K2 Think AI modelinde çığır açan bir güvenlik açığı ortaya çıktı.

Güvenlik araştırmacıları, modelin şeffaflık özelliklerini bir saldırı vektörüne dönüştüren kritik bir kusuru ortaya çıkararak, kamuoyunun sürümünden birkaç saat içinde gelişmiş akıl yürütme sistemini başarıyla atladılar.

Güvenlik açığı, saldırganların modelin kendi akıl yürütme sürecinden yararlanarak güvenlik önlemlerini sistematik olarak haritalamasına ve atlamasına izin vererek, başarısız girişimleri nihai uzlaşma için taşlara yöneltiyor.

K2 Think modeli, şeffaf karar verme süreçleri sağlamak için tasarlanmış sofistike akıl yürütme yeteneklerini içerir, bu da denetim izleri ve açıklanabilir yapay zeka gerektiren kurumsal uygulamalara çekici gelmesini sağlar.

Ancak, bu şeffaflık en büyük zayıflığı haline geldi. Adversa AI’nın kırmızı takım platformundan güvenlik araştırmacıları, modelin dahili düşünce sürecinin yanlışlıkla sistem düzeyinde talimatları ve güvenlik protokollerini ortaya çıkardığını ve saldırganların jailbreak girişimlerini yinelemeli olarak hassaslaştırmaları için bir yol haritası oluşturduğunu keşfetti.

Ya başarılı olan veya açık bir şekilde başarısız olan geleneksel AI jailbreak’lerinin aksine, bu yeni saldırı metodolojisi bir geri bildirim döngüsü oluşturmak için akıl yürütme günlüklerini kullanıyor.

Başarısız olan her girişim, belirli kural numaraları, savunma hiyerarşileri ve meta güvenlik protokolleri dahil olmak üzere temel güvenlik mimarisinin parçalarını ortaya çıkarır.

Saldırganlar, tekrarlanan problama yoluyla tüm savunma yapısını sistematik olarak eşleştirdiğinden bu bilgi giderek daha değerli hale gelir.

Akıl Yürütme LLM, Sandbox Yürütme ve İnternet Arama dahil olmak üzere birden çok modülle kullanıcı etkileşimini gösteren bir AI aracı mimarisinin diyagramı

Yinelemeli Saldırı Metodolojisi

Saldırı, güvenliğe karşı şeffaflığı silahlandıran üç fazlı bir desen izliyor. İlk keşif aşamasında, araştırmacılar güvenlik yönergelerini atlamak için tasarlanmış standart jailbreak istemleriyle başladılar.

Model bu talepleri doğru bir şekilde reddederken, akıl yürütme günlükleri, belirli güvenlik kurallarına atıfta bulunma ve endeksleme sistemleri de dahil olmak üzere savunma yapısı hakkında kritik bilgileri ortaya çıkardı.

Örneğin, zararlı faaliyetler hakkında “Kural #7” yi keşfettikten sonra, sonraki istemler daha derin savunma katmanlarını araştırırken bu kısıtlamayı açıkça ele aldı. Her yineleme ek meta-kurallar ve üst düzey güvenlik protokolleri açığa çıkardı.

Nihai sömürü aşaması, bu yaklaşımın yıkıcı kümülatif etkisini göstermiştir. Sistematik problama yoluyla yeterli savunma katmanlarını haritaladıktan sonra, saldırganlar aynı anda keşfedilen güvenlik önlemlerini eşzamanlı olarak ele alan sofistike istemler inşa ettiler.

İkinci aşama, saldırganların önceki denemelerde ortaya çıkan savunma önlemlerine karşı koymak için özel olarak tasarlanmış istemler hazırladığı hedeflenmiş nötralizasyonu içeriyordu.

Bu güvenlik açığı modeli, birden fazla sektörde kurumsal AI dağıtımları için ciddi tehditler oluşturmaktadır.

Teşhis muhakemesini açıklayan sağlık hizmetleri sistemleri, tescilli teşhis kriterlerini ortaya çıkarmak veya sigorta dolandırıcılık planlarını kolaylaştırmak için manipüle edilebilir.

Akıl yürütme şeffaflığı sağlayan finansal ticaret algoritmaları, pazar manipülasyonu amacıyla mantıklarını tersine çevreye sahip olabilir.

Akademik bütünlük izlemesi için açıklanabilir AI kullanan eğitim platformları, öğrenciler yinelemeli testler yoluyla tespit mekanizmalarını sistematik olarak atlamayı öğrenebildikleri için özellikle savunmasız hale gelir.

Basamaklı başarısızlık paterni, ilk güvenlik değerlendirmelerinin saldırılara karşı başarılı bir savunma gösterebileceği ve nihai uzlaşmayı sağlayan kritik bilgi sızıntısını kaçırabileceği anlamına gelir.

Kırmızı ekip, güvenlik açıklarını belirlemek için teknolojinin, insanların ve fiziksel güvenliğin kesişimini içerir.

Güvenlik açığı özellikle ilgilidir, çünkü AI şeffaflığı – düzenleyici uyum ve denetim amaçları için giderek daha fazla talep edilen bir özellik olan bir güvenlik yükümlülüğüne dönüştürür.

Açıklanabilir AI sistemlerini dağıtmak için acele eden şirketler, bilmeden saldırganları gerçek zamanlı olarak eğiten platformlar oluşturabilir ve her savunma tepkisi daha sofistike saldırılar için zeka sağlar.

Hafifletme

Anında koruyucu önlemler, belirli kurallara referansları veya görünür çıktılardan gelen savunma önlemlerini kaldıran akıl yürütme dezenfekte filtrelerinin uygulanmasını içerir.

Sonuç, güvenlik sisteminin tamamen bypass’ıydı, model ayrıntılı kötü amaçlı yazılım oluşturma talimatları ve diğer zararlı çıktılar da dahil olmak üzere kısıtlı içerik üretti.

Üstel gecikmelerle ilgili başarısız girişimler, yinelemeli arıtma saldırılarını pratik hale getirirken, akıl yürütme çıktılarındaki Honeypot kuralları, sahte savunma önlemleri ekleyerek haritalama girişimlerini karıştırabilir.

Uzun vadeli çözümler AI güvenlik mimarisinde temel değişiklikler gerektirir. Kuruluşlar, güvenlik duyarlı operasyonlar sırasında dahili karar verme süreçlerinin tamamen gizli kaldığı opak akıl yürütme modları geliştirmelidir.

Bu olay, kamuoyunun konuşlandırılmasından önce yeni saldırı vektörlerini tanımlamada ileri AI kırmızı takımının kritik öneminin altını çizmektedir.

Diferansiyel gizlilik teknikleri, genel yorumlanabilirliği korurken akıl yürütme günlüklerine gürültü ekleyebilir ve uyarlanabilir savunma sistemleri haritalama girişimlerini algılayabilir ve savunma yapılarını dinamik olarak değiştirebilir.

Siber güvenlik, geleneksel kırmızı ekip ve ortak etik ve yasal hususları içeren AI kırmızı takım arasındaki örtüşmeyi gösteren Venn diyagramı

K2 düşünce kırılganlığı, AI güvenliğinde bir dönüm noktasıdır ve modern AI sistemlerinde şeffaflık ve güvenlik arasındaki temel gerilimi vurgular.

Kuruluşlar, uyum ve denetim amacıyla açıklanabilir yapay zeka talep ettikleri için, bu gereksinimleri güvenlik hususlarına karşı dikkatlice dengelemelidirler.

Geleneksel ikili siber güvenlik görüşü – sistemler ihlal edilir veya güvenlidir – saldırganları savunma tepkileri ile yanlışlıkla eğitebilen AI platformları için yetersiz sunar.

AI sistemleri kritik altyapı ve iş operasyonlarının ayrılmaz hale geldikçe, siber güvenlik topluluğu hem başarılı saldırılara hem de bunları sağlayan bilgi sızıntısına karşı koruyan yeni paradigmalar geliştirmelidir.

AI güvenliği ve AI sömürüsü arasındaki yarış, başarısız saldırıların bile kararlı düşmanlar için zafer sağlayabileceği yeni bir aşamaya girdi.

Bu hikayeyi ilginç bul! Daha fazla güncelleme almak için bizi LinkedIn ve X’te takip edin.



Source link