Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Güvenlik İlk Çerçeve Yaklaşımı, güvenilmeyen girdileri izole etmeye odaklanır
Rashmi Ramesh (Rashmiramesh_) •
21 Nisan 2025

Chatbots’un popülaritesi, hızlı enjeksiyon saldırıları olasılığı ile en başından temperlenmiştir – kötü niyetli aktörler, kullanıcı girişleri veya belgeler içindeki komutları gizler, modelleri istenmeyen eylemler yürütmeye kandırır. İlk gösteriler, haydut direktifleri bir dil modelinin bağlam penceresine – veya kısa süreli belleğine – koruyucu rayları düşürmesine ve gizli emirlere uymasına neden olmanın ne kadar kolay olduğunu gösterdi. Bu güvensizlik, LLM’lerin e -posta yönetimi, bankacılık ve zamanlama gibi kritik iş akışlarına entegrasyonunu engelleyen nedenlerden biridir, burada tek bir yanlış yorumlanmış ifadenin varoluşsal bir tehdit haline gelebileceği (bkz:: Meta Hızlı Koruma, hızlı enjeksiyon saldırılarına karşı savunmasızdır).
Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu
Hızlı enjeksiyon saldırılarına başlama çabaları tanıdık bir deseni izledi: enjeksiyonları tespit etmek ve filtrelemek için başka bir AI eğitin veya çekirdek modelin etrafına daha fazla makine öğrenimi gözetim katmanı sarın. Ancak olasılık tespiti her zaman boşluk bırakır.
Google’ın DeepMind ekibinden bir çerçeve, AI Systems’a eksik oldukları yazılım mühendisliği zırhını vermeyi amaçlıyor. Makine öğrenimi için yetenekler kısaltması, alternatif bir yaklaşım benimsemeyi amaçlamaktadır. Deepmind kırıkları, farklı, kum havuzu bileşenlerine girer, yutulduğu her jeton için tam bir güven vermek yerine. Kontrol akışı bütünlüğü, erişim kontrolü ve bilgi akışı kontrolü gibi onlarca yıllık yazılım güvenlik doktrinden ödünç alır ve bu ilkeleri AI yığınının üstüne katır.
Deve, iki dil modelinde sorumlulukları bölüyor: ayrıcalıklı LLM veya sadece doğrudan kullanıcı talimatlarını işleyen bir “planlayıcı” P LLM. Python’un kilitli bir alt kümesinde yazılmış kodu çıkarır, bir e -posta, içeriği ayrıştırmak veya bir mesaj göndermek için bir işlev çağırma gibi kesin adımlar tanımlar. En önemlisi, asla ham kullanıcı verileri görmez. Sonra karantinaya alınan LLM veya izolasyon halinde çalışan bir “okuyucu” olan Q LLM var. E -posta gövdeleri veya web sayfası metni gibi yapılandırılmamış içeriği yutur ve bir e -posta adresini çıkarma gibi yapılandırılmış değerlere dönüştürür. Q LLM, araçlar çağıramaz, kod yazamaz veya durumu saklayamaz. Yeterli bilgi toplayıp toplamadığını işaret etmek için basit bir boole bayrağını değiştirerek, yanlışlıkla veri sızıntısını planlayıcıya geri götürür.
Bu modülleri güvenli bir Python tercümanı aracılığıyla zincirleyerek, deve her değişkenin provenansını izler. Sistem, ayrılmış bir e -posta adresini doğrudan bir posta işlevine enjekte etmek gibi, güvenilmez olarak işaretlenen verileri kullanmaya çalışırsa, tercümanın veri akışı politikaları eylemi engelleyebilir veya açık bir onay istemi yapabilir.
Bağımsız yapay zeka araştırmacısı Simon Willison, Camel’i “ilk güvenilir hızlı enjeksiyon azaltma, sadece problemde daha fazla AI atmayacak ve bunun yerine güvenlik mühendisliğinden, yetenekler ve veri akışı analizi gibi denenmiş ve kanıtlanmış kavramlara yaslanıyor.”
Willison, uygulama güvenliğinde “% 99 tespit başarısız bir nottur” dedi. Diyerek şöyle devam etti: “Rakip bir saldırganın işi, geçen saldırıların% 1’ini bulmaktır. SQL enjeksiyonuna veya XSS’ye karşı korunursak, sistemlerimiz anlarda parçalara hacklenir.”
Web geliştiricileri bir zamanlar daha fazla algılama katmanı ekleyerek SQL enjeksiyon saldırılarıyla mücadele etti. Sonuçta mimariyi değiştirerek kazandılar. Hazırlanan ifadeler ve parametrelendirilmiş sorgular enjeksiyon taktiklerini geçersiz kılar. Camel aynı dersi LLM’lere uygulamayı amaçlıyor. Her kötü niyetli snippet’i koklamaya güvenmez; Güvenilmeyen girişleri, açıkça tanımlanmış güvenlik kontrol noktalarından geçene kadar hareket edemeyecek şekilde ayırır. Bu yetenek temelli mimari, her bir bileşen yalnızca ihtiyaç duyduğu dar erişimi kazanarak en az ayrıcalık ilkesini uygular.
DeepMind, Camel’i rakip saldırıların yanı sıra gerçek dünya AI ajan görevlerini simüle eden bir kıyaslama paketi olan Agentdojo’ya karşı değerlendirdi. Sonuçların, e -postaları ayrıştırma ve hatırlatıcılar gibi rutin işlemlerde yüksek fayda gösterdiği bildirilirken, daha önceki savunmalara giren enjeksiyon istismarlarını esnek bir şekilde savuşturur.
DeepMind araştırmacıları, deve “istenmeyen eylemlere ve veri ortaya çıkmasına karşı güçlü garantiler sağlarken AgentDojo karşılaştırmasını etkili bir şekilde çözüyor” dedi.
Enjeksiyon hafifletmenin ötesinde, ekip Camel’in yaklaşımının içeriden tehditlere ve kötü niyetli otomasyona karşı savunmaları destekleyebileceğini savunuyor. Güvenliği bir kedi ve fare algılama oyunu yerine bir veri akışı problemi olarak ele alarak, çerçeve hassas dosyaların yetkisiz ihracatını önleyebilir veya haydut komut dosyalarının özel verileri ortaya çıkarmasını engelleyebilir.
Deve önemli bir kavramsal ilerlemeyi işaret eder, ancak bazı ödünleşmelerle birlikte gelir.
Güvenlik politikalarını kodlaması ve zamanla sürdürmesi gereken kullanıcılara ve yöneticilere bir miktar karmaşıklık kaydırır. Çok fazla onay, risk alışkanlık kullanıcılarını “Evet” i refleks olarak tıklamaya teşvik ederek uygulama amaçlı oldukları korumaları aşındırır. Willison’un Eylül 2022’de “hızlı enjeksiyon” terimini ortaya çıkardığından beri tartıştığı gibi, çekirdek güvenlik açığı, tek bir işleme akışında güvenilir ve güvenilmeyen metni karıştırmaktan kaynaklanmaktadır, bu da monolitik LLM’ler tarafından çözülmemiş bir tasarım kusuru.