Yeni Bağlam Uyumluluğu Jailbreaks Major AI modelleri

Microsoft araştırmacıları, en önde gelen AI sistemlerinde güvenlik korkuluklarını atlayabilen şaşırtıcı derecede basit bir yöntem ortaya çıkardılar.

13 Mart 2025’te yayınlanan bir teknik blog yayınında, Microsoft’un Mark Russinovich, müşteri tarafından sağlanan konuşma geçmişine güvenmenin ortak uygulamasından yararlanan “Bağlam Uyum Saldırısı” nı (CCA) detaylandırdı.

Saldırı, çok sayıda büyük AI modeline karşı etkili olduğunu ve mevcut koruma yaklaşımları hakkında önemli endişeler yarattığını kanıtlıyor.

Karmaşık hızlı mühendislik veya optimizasyon gerektiren birçok jailbreakik tekniğin aksine, CCA, birçok AI dağıtımında temel bir mimari kırılganlığı vurgulayarak konuşma geçmişinin basit manipülasyonunu başarır.

Basit Saldırı Yöntemi Gelişmiş AI Korumaları

Bağlam Uyum Saldırısı, her bir istekle tam konuşma geçmişini sağlamak için müşterilere bağlı olan birçok AI sisteminde temel bir tasarım seçiminden yararlanarak çalışır.

AI sistemlerini karıştırmak için ayrıntılı istemler hazırlamak yerine, saldırganlar konuşma tarihine fabrikasyon yardımcı yanıt enjekte edebilirler.

Bu enjekte edilen içerik genellikle hassas bir konunun kısa bir tartışmasını, ek bilgi vermeye istekli bir beyan ve kısıtlı içerik sunan bir soruyu içerir.

Kullanıcı bu fabrikasyon soruya olumlu yanıt verdiğinde, AI sistemi bağlamsal olarak uygun bir takip isteği olarak algıladığı şeyle uyumludur.

Bu saldırının sadeliği, araştırmacılar tarafından geliştirilen giderek artan sofistike önlemlerin tam bir tezat oluşturuyor.

Microsoft’un araştırmasına göre, bir AI sistemi bir konuda kısıtlı bilgi sağlamak için kandırıldıktan sonra, aynı kategoride ve hatta kategoriler arasında ilgili hassas konuları tartışmaya daha istekli hale gelir.

Bu basamaklı etki, ilk güvenlik açığının etkisini önemli ölçüde artırarak AI dağıtım için daha geniş güvenlik endişeleri yaratır.

Microsoft’un değerlendirmesi, yöntemin Claude, GPT, Lama, Phi, İkizler, Deepseek ve Yi modelleri de dahil olmak üzere çok sayıda AI sistemi üzerindeki etkinliğini ortaya koydu.

Test, kendine zarar ve şiddete ilişkin zararlı içerikler oluşturmaktan tehlikeli faaliyetler için talimatlar oluşturmaya kadar çeşitli hassas kategorilerde 11 görevi kapsadı.

Yayınlanan sonuçlara göre, çoğu model saldırının en azından bazı biçimlerine karşı savunmasızdı ve birçoğu birden fazla kategoride duyarlı.

Microsoft Research, savunmasız sistemleri ve savunma stratejilerini tanımlar

CCA tarafından sömürülen mimari zayıflık, öncelikle sunucularında konuşma durumunu korumayan sistemleri etkiler.

Çoğu sağlayıcı, her bir istekle tam konuşma geçmişini göndermek için müşterilere güvenerek ölçeklenebilirlik için vatansız bir mimari seçer.

Bu tasarım seçimi, dağıtım için verimli olsa da, tarih manipülasyonu için önemli bir fırsat yaratır.

Açık kaynak modelleri, bu güvenlik açığına özellikle duyarlıdır, çünkü doğal olarak müşteri tarafından sağlanan konuşma geçmişine bağlıdırlar.

Microsoft’un kendi Copilot ve Openai’nin chatgpt gibi içsel olarak konuşma durumunu koruyan sistemler, bu özel saldırı yöntemine karşı daha fazla dayanıklılık göstermektedir.

Microsoft, potansiyel olarak savunmasız modellerin bile girdi ve çıkış filtreleri gibi ek koruyucu önlemlerden yararlanabileceğini vurguladı.

Şirket, AI sistemleri için derinlemesine savunma güvenliğine olan bağlılıklarını güçlendirerek, bu ve diğer jailbreak tekniklerini ele almaya yardımcı olabilecek bir azaltma örneği olarak Azure içerik filtrelerini özellikle vurguladı.

Farkındalığı teşvik etmek ve bu güvenlik açığı hakkında daha fazla araştırmayı kolaylaştırmak için Microsoft, Bağlam Uyum Saldırısı’nı açık kaynaklı AI Red Team Toolk, Pyrit aracılığıyla kullanılabilir hale getirdi.

Araştırmacılar, sistemlerini bu saldırı vektörüne karşı test etmek için “ContextComplianceOrchestrator” bileşenini kullanabilirler.

Bu tek dönüşüm orkestratörü verimlilik için tasarlanmıştır, bu da çevre ayarlarına göre belleğe otomatik olarak sonuçları ve ara etkileşimleri otomatik olarak kaydederken çoklu alternatiflerden daha hızlı hale getirir.

Yapay zeka güvenlik ve endüstri azaltma çabaları için çıkarımlar

Bu basit ama etkili saldırı yönteminin keşfinin, sektördeki AI güvenlik uygulamaları için önemli etkileri vardır.

Birçok mevcut güvenlik sistemi öncelikle kullanıcıların anında girdilerini analiz etmeye ve filtrelemeye odaklanırken, genellikle konuşma geçmişini minimum doğrulama ile kabul ederler.

Bu, saldırganların tüm etkileşim mimarisini göz önünde bulunduran daha kapsamlı güvenlik yaklaşımlarına olan ihtiyacı vurgulayarak kolayca yararlanabileceği örtük bir güven yaratır.

Açık kaynaklı modeller için, bu güvenlik açığını ele almak belirli zorluklar sunar, çünkü sistem erişimi olan kullanıcılar girişleri serbestçe manipüle edebilir.

Konuşma doğrulaması için kriptografik imzaların uygulanması gibi temel mimari değişiklikler olmadan, bu sistemler doğal olarak savunmasız kalır.

Bununla birlikte, API tabanlı ticari sistemler için Microsoft, birkaç acil etki azaltma stratejisi önermektedir.

Bunlar, sağlayıcıların konuşma geçmişlerini gizli bir anahtarla imzaladığı ve sonraki taleplerde imzaları doğrulamak veya sunucu tarafında sınırlı konuşma durumunu korumanın kriptografik imzalarının uygulanmasını içerir.

Araştırma, AI güvenliği için kritik bir anlayışın altını çizmektedir: Etkili güvenlik, sadece bireysel istemlerin içeriğine değil, tüm konuşma bağlamının bütünlüğüne dikkat edilmesini gerektirir.

Giderek daha güçlü AI sistemleri çeşitli alanlarda dağıtılmaya devam ettikçe, bu bağlamsal bütünlüğün çok önemli hale gelmesini sağlar.

Microsoft’un bağlam uyumu saldırısının kamuya açıklanması, şirketin farkındalığı teşvik etme ve sektördeki sistem tasarımcılarının hem basit hem de sofistike atlatma yöntemlerine karşı uygun güvenceleri uygulamaya teşvik etme konusundaki taahhüdünü yansıtmaktadır.

Microsoft’un bağlam uyumluluk saldırısını açıklaması AI güvenliğinde önemli bir paradoks ortaya koymaktadır: Araştırmacılar giderek daha karmaşık önlemler geliştirirken, en etkili baypas yöntemlerinden bazıları şaşırtıcı derecede basit kalmaktadır.

Find this News Interesting! Follow us on Google News, LinkedIn, and X to Get Instant Updates!

Source link

Yeni Bağlam Uyumluluğu Jailbreaks Major AI modelleri

Basit Saldırı Yöntemi Gelişmiş AI Korumaları

Microsoft Research, savunmasız sistemleri ve savunma stratejilerini tanımlar

Yapay zeka güvenlik ve endüstri azaltma çabaları için çıkarımlar

Son Yazılar

Kategoriler