Microsoft, AI Jailbreak’lerini ve Bunların Nasıl Azaltılabileceğini Detaylandırıyor


Üretken yapay zeka sistemleri, sistemle insan etkileşimini geliştirmeye yönelik çeşitli bileşenler ve modellerden oluşur.

Ancak mümkün olduğu kadar gerçekçi ve kullanışlı olan bu modeller, amaçlanan yapay zeka modellerine karşı kötüye kullanım veya uygunsuz içerik üretilmesine karşı savunma katmanları tarafından korunmaktadır.

Microsoft’taki siber güvenlik araştırmacıları yakın zamanda AI jailbreak’lerini ve bunların nasıl azaltılabileceğini ayrıntılı olarak anlattı.

Microsoft AI Jailbreak’lerini Detaylandırıyor

Yapay zeka jailbreak’i, yapay zeka sistem korumasını atlatmak veya onu amaçlanan politikaları, istenmeyen kullanıcı etkisini veya diğer yürütme stratejilerini ihlal eden istenmeyen çıktılardan korumak için yapay zeka modelini serbest bırakmaya yardımcı olabilecek yöntemleri yansıtır.

With ANYRUN You can Analyze any URL, Files & Email for Malicious Activity : Start your Analysis

Bu teknikler arasında hızlı enjeksiyon, kaçınma ve model manipülasyonu yer alır.

Filtre, yasak silahlara ilişkin yaklaşık çıktılar gibi tehlikeli bilgiler sağlamaktan kaçınmaya çalışsa da, “Crescendo” gibi bazı tekniklerin bu önlemleri atlaması mümkündür.

Microsoft ve diğer taraflar, bu sorunlara karşı savunmasız kalmak için yapay zeka modellerini kullanırken yalnızca yeni jailbreak çeşitlerini tanımlamaya ve etkisiz hale getirmeye devam edebilirler.

Jeopolitik yönler sorumlu gelişimin önemli faktörleridir ve yapay zeka sistemlerinin jailbreak ve benzeri tehditlere karşı korunmasını güçlendirmek için sürekli çalışmayı gerektirir.

Yapay zeka güvenlik bulma ontolojisi (Kaynak – Microsoft)

Yapay zekanın niteliklerini ve potansiyel etkilerini, kullanıma alınmadan önce düşünün; tıpkı hevesli ama cahil, bağlamı olmayan veya kuralları dikkate almayan bir çalışan gibi.

Zararlı bilgilerden uygun şekilde korunmayan yapay zeka dil modelleri, belirleyici olmayan üretken doğaları nedeniyle zararlı içerik üretebilir, kasıtsız faaliyetler gerçekleştirebilir veya özel verileri paylaşabilir.

Microsoft’a göre hiçbir yapay zeka modelinin jailbreak’e dayanıklı olduğu varsayılamaz.

Bu nedenle, bu zararların kapsamını sınırlayabilecek jailbreak girişimlerini azaltmak, tespit etmek ve bunlara yanıt vermek için katmanlı bir yaklaşıma ihtiyaç vardır.

Bir AI uygulamasının anatomisi (KAYNAK – Microsoft)

Sorumlu yapay zeka geliştirmede modellerin dayanıklılığının sürekli olarak iyileştirilmesi gerekiyor ve ortaya çıkan jailbreak tekniklerine karşı güçlü koruyucu önlemler alınmalıdır.

Yapay zeka jailbreak’inin ciddiyeti, hangi engelin aşıldığına ve onaysız erişime, otomasyona veya sistem genelinde daha fazla içerik dağıtımına izin verip vermediğine bağlıdır.

Tek bir kullanıcıya yönelik bireysel kötü amaçlı çıktılar küçük olaylardır, ancak sistemlerin daha geniş etkiler için kötüye kullanılması ciddiyeti artırır.

Jailbreak’ler genel anlamda nelere yol açtığına göre değerlendirilmesi gerektiği için kendilerine atanması gereken büyüklüğe sahip değildir.

Bu teknikler, yapay zeka korumalarının yavaş yavaş kandırılmasından, insan benzeri etki veya yapay girdi modellerine kadar çeşitlilik gösterir ve kafa karışıklığına yol açar.

Gerçekte, jailbreak’ler, engelleri aşmak için girdileri manipüle eden çeşitli yaklaşımları içerir ve potansiyel sonuçlarına bağlı olarak eşleşen bir dizi hafifletici önlemin dikkate alınması gerekir.

Azaltmalar

Aşağıda, Microsoft tarafından önerilen tüm azaltıcı etkenlerden bahsettik: –

  • Azure AI İçerik Güvenliği İstemi Kalkanları aracılığıyla bilgi istemi filtreleme
  • Azure kaynakları için Yönetilen Kimlikler ile kimlik yönetimi
  • Microsoft Purview veri güvenliği ile veri erişimi kontrolleri
  • Sistem metaprompt çerçevesi ve LLM şablon önerileri
  • Azure OpenAI Hizmeti içerik filtreleme
  • Azure OpenAI Hizmetinin kötüye kullanımı izleme
  • Eğitim prosedürleri sırasında model hizalaması
  • Yapay zeka iş yüklerine yönelik Bulut tehdit koruması için Microsoft Defender.

Looking for Full Data Breach Protection? Try Cynet's All-in-One Cybersecurity Platform for MSPs: Try Free Demo 



Source link