Basit İstemi Ekleme, Bilgisayar Korsanlarının OpenAI Guardrails Çerçevesini Atlamasına Olanak Sağlıyor


Güvenlik araştırmacıları, OpenAI’nin yeni yayımlanan Guardrails çerçevesinde, temel istem enjeksiyon teknikleri kullanılarak yararlanılabilecek temel bir güvenlik açığı keşfettiler.

Bu güvenlik açığı, saldırganların sistemin güvenlik mekanizmalarını atlatmasına ve herhangi bir güvenlik uyarısını tetiklemeden kötü amaçlı içerik üretmesine olanak tanıyarak, yapay zeka öz düzenleme yaklaşımlarının etkinliği konusunda ciddi endişelere yol açıyor.

Yüksek Lisans Tabanlı Güvenlik Hakimlerinde Kritik Kusur

OpenAI, potansiyel olarak zararlı yapay zeka modeli davranışını tespit etmek ve engellemek için tasarlanmış kapsamlı bir güvenlik çözümü olarak Guardrails çerçevesini 6 Ekim’de başlattı.

Çerçeve, jailbreak girişimleri ve hızlı enjeksiyonlar için özel dedektörler içerir; her ikisi de girdilerin veya çıktıların güvenlik riski oluşturup oluşturmadığını değerlendirmek için büyük dil modellerine dayanır.

Ancak güvenlik araştırmacıları bu yaklaşımda kritik bir zayıflık tespit etti.

Korkuluk kötü niyetli istemimizi engelliyorKorkuluk kötü niyetli istemimizi engelliyor
Korkuluk kötü niyetli istemimizi engelliyor

Temel sorun, hem içerik üretimi hem de güvenlik değerlendirmesi için aynı tip modelin kullanılmasında yatmaktadır.

Hem birincil yapay zeka modeli hem de güvenlik yargıcı anlık enjeksiyon saldırılarına karşı duyarlı olduğundan, tek bir kötü niyetli istem her iki sistemi aynı anda tehlikeye atabilir.

Bu, güvenlik mekanizmasının saldırı vektörüne karşı bir savunma yerine saldırı vektörünün bir parçası haline geldiği kademeli bir başarısızlık yaratır.

Guardrail, şablonlu kötü amaçlı istemimizi engelleyemiyorGuardrail, şablonlu kötü amaçlı istemimizi engelleyemiyor
Guardrail, şablonlu kötü amaçlı istemimizi engelleyemiyor

Araştırmacılar bu güvenlik açığını, LLM tabanlı hakimin güven puanlama mekanizmasını manipüle eden basit bir bypass tekniği geliştirerek gösterdiler.

Saldırı, güvenlik sistemini kötü niyetli bir istemin zararsız olduğuna ikna etmeye çalışmak yerine, yargıcı yanlış güven eşiklerini raporlamaya yönlendirerek hangi içeriğin tehlikeli olarak işaretleneceğine ilişkin çıtayı etkili bir şekilde düşürür.

 Guardrail dolaylı istem enjeksiyonumuzu engelleyemiyor ve gizli değeri sızdırmak için fetch çağrısı yapmaya çalışıyor Guardrail dolaylı istem enjeksiyonumuzu engelleyemiyor ve gizli değeri sızdırmak için fetch çağrısı yapmaya çalışıyor
Guardrail dolaylı istem enjeksiyonumuzu engelleyemiyor ve gizli değeri sızdırmak için fetch çağrısı yapmaya çalışıyor

Araştırma ekibi, basit teknikler kullanarak hem jailbreak tespitini hem de hızlı enjeksiyon tespit sistemlerini başarıyla atlattı.

Jailbreak tespitini bypass ederken, kötü niyetli istemlerini sahte yargıç yanıtlarını içeren bir şablona yerleştirdiler.

Sistem, içeriğin işaretlenmesine ilişkin güven eşiğinin, kötü amaçlı içeriğin gerçek puanından daha düşük olduğuna inandırılarak, zararlı talimatların fark edilmeden geçmesine olanak tanındı.

Anlık enjeksiyon tespitini atlamak için araştırmacılar, web içeriği aracılığıyla dolaylı anlık enjeksiyonu içeren bir senaryo oluşturdular.

Bir web sayfasına genellikle güvenlik uyarılarını tetikleyecek kötü amaçlı talimatlar yerleştirdiler, ancak içeriğe uydurma yargıç muhakemelerini dahil ederek güvenlik sistemini yanlış güven eşikleri uygulamaya ikna ettiler.

Bu, saldırının, hassas bilgileri çıkarmak için tasarlanmış yetkisiz araç çağrılarını yürüterek ilerlemesine olanak sağladı.

Saldırılar başarılı oldu çünkü yüksek lisans temelli yargıçların içeriği objektif olarak değerlendireceği yönündeki temel varsayımdan yararlanıldı.

Bunun yerine, bu yargıçlar, korumaları amaçlanan birincil modeller kadar manipüle edilebilir olduklarını kanıtladılar ve araştırmacıların “bileşik güvenlik açığı” olarak tanımladığı, güvenlik önlemlerinin riskleri azaltmak yerine artırdığı bir durum yarattılar.

Bu keşfin, yapay zeka sistemlerini bariz güvenlik önlemleriyle kullanan kuruluşlar için önemli sonuçları var.

Güvenlik açığı, model tabanlı güvenlik kontrollerinin sistem güvenliği konusunda yanlış güven yaratabildiğini ve aslında kararlı saldırganlara karşı minimum koruma sağladığını gösteriyor.

Kurumsal kullanıcılar, aslında karmaşık anlık enjeksiyon kampanyalarına karşı savunmasız olduklarında, yapay zeka dağıtımlarının güvenli olduğuna inanabilirler.

Araştırma, Yüksek Lisans temelli doğrulamanın ötesine geçen katmanlı savunma stratejilerine olan ihtiyacın altını çiziyor.

Etkili yapay zeka güvenliği, birincil yapay zeka modelleriyle aynı vektörler aracılığıyla tehlikeye atılamayacak bağımsız doğrulama sistemleri, sürekli rakip testler ve harici izleme yetenekleri gerektirir.

Kuruluşlar mevcut korkuluk sistemlerini birincil güvenlik önlemlerinden ziyade tamamlayıcı olarak ele almalıdır.

Güvenlik uzmanları, bu güvenlik açığının yapay zeka güvenlik mimarisinde daha geniş bir sorunu temsil ettiğini vurguluyor.

Yapay zeka sistemleri daha karmaşık hale geldikçe ve yaygınlaştıkça, yapay zekayı denetlemek için yapay zekayı kullanma isteği, saldırganların yararlanabileceği yinelenen güvenlik açıkları yaratıyor.

Gerçek yapay zeka güvenliği, dil modeli etkileşimlerinin manipüle edilebilir bağlamı dışında çalışan çeşitli, bağımsız doğrulama mekanizmaları gerektirir.

Bulgular, sürekli kırmızı takım testinin ve yapay zeka modellerinin etkili bir şekilde kendi kendini düzenleyebileceğini ummak yerine tehlikeye gireceğini varsayan güvenlik çerçevelerinin geliştirilmesinin öneminin altını çiziyor.

Anında Güncellemeler Almak ve GBH’yi Google’da Tercih Edilen Kaynak Olarak Ayarlamak için bizi Google Haberler, LinkedIn ve X’te takip edin.



Source link