HiddenLayer araştırma firmasının yeni bir raporu, Büyük Dil Modelleri (LLM’ler) için güvenlik önlemlerinde endişe verici bir kusuru ortaya koyuyor. OpenAI kısa süre önce, geliştiricilerin AI ajanları oluşturmasına ve güvenliğini sağlamasına yardımcı olmak için yeni AgentKit araç setinin bir parçası olarak Guardrails güvenlik çerçevesini 6 Ekim’de kullanıma sundu.
OpenAI tarafından, Kişisel Tanımlanabilir Bilgilerin (PII) gizlenmesi de dahil olmak üzere istenmeyen veya kötü niyetli davranışlara karşı koruma sağlayan açık kaynaklı, modüler bir güvenlik katmanı olarak tanımlanmaktadır. Bu sistem, jailbreak ve hızlı enjeksiyon gibi zararlı eylemleri tespit etmek ve engellemek için LLM tabanlı hakimler adı verilen özel AI programlarını kullanmak üzere tasarlandı.
Bilginiz olsun, jailbreak, yapay zekanın kendi kurallarını atlamasını sağlamaya çalışan bir istemdir ve hızlı enjeksiyon, birisinin yapay zekayı istenmeyen şeyler yapmaya zorlamak için akıllıca ifade edilmiş bir girdi kullanmasıdır.
HiddenLayer’ın araştırmacıları bu Korkulukları serbest bırakıldıktan hemen sonra atlamanın bir yolunu buldu. Fark ettikleri asıl konu, yanıt üretmek için kullanılan modelin aynısının güvenlik denetleyicisi olarak da kullanılması durumunda her ikisinin de aynı şekilde kandırılabileceğidir. Araştırmacılar hızlı bir şekilde ana güvenlik dedektörlerini devre dışı bırakmayı başardılar ve bu da bu kurulumun “doğal olarak kusurlu” olduğunu gösterdi.
“Aynı Model Farklı Şapka” Sorunu
Basit bir teknik kullanarak araştırmacılar Korkulukları başarıyla aştılar. Sistemi zararlı tepkiler vermeye ve herhangi bir alarmı tetiklemeden gizli istemli enjeksiyonlar yapmaya ikna ettiler.
Hackread.com ile paylaşılan araştırma, güvenlik açığının eylem halinde olduğunu ortaya koydu. Bir testte, yapay zeka hakeminin güven puanını manipüle ederek, istemlerinin jailbreak olduğundan %95 emin olan bir dedektörü atlatmayı başardılar.
Daha ileri araştırmalar, sistemi kandırarak araç çağrıları yoluyla “dolaylı uyarı enjeksiyonuna” izin verecek şekilde kandırabileceklerini ve bunun muhtemelen kullanıcının gizli verilerini açığa çıkarabileceğini ortaya çıkardı.


Araştırmacılar ayrıca bu güvenlik açığının yanlış bir güvenlik hissi verdiğini de kaydetti. Kuruluşlar önemli görevler için giderek daha fazla LLM’lere bağımlı hale geldikçe, kendi davranışını kontrol etmek için modelin kendisine güvenmek bir güvenlik riski oluşturur.
OpenAI için Tekrarlayan Risk
Bu dolaylı anlık enjeksiyon saldırılarının tehlikesi, OpenAI için ciddi ve tekrar eden bir sorundur. Hackread.com tarafından Eylül 2025’te bildirilen başka bir keşifte, Radware’den güvenlik araştırmacıları, farklı bir OpenAI aracı olan ChatGPT Deep Research aracısını bir kullanıcının özel verilerini sızdırmak için kandırmanın bir yolunu buldu. Bu kusura ShadowLeak adını verdiler; bu aynı zamanda normal görünümlü bir e-postanın içine gizlenmiş sıfır tıklama saldırısı olarak gizlenen dolaylı bir istem enjeksiyonuydu.
HiddenLayer’ın en son bulguları, yapay zeka güvenliğinin ayrı koruma katmanlarına ve zayıf noktaları bulmak için güvenlik uzmanları tarafından sürekli testlere ihtiyaç duyduğunun açık bir işaretidir. O zamana kadar modelin zayıf yönleri kendi güvenlik sistemlerini kırmak için kullanılmaya devam edecek ve bu da kritik güvenlik kontrollerinin başarısız olmasına yol açacak.