ChatGPT, Yeni PoC Saldırısının Sırlarını Sızdırıyor


Google DeepMind, Open AI, ETH Zürih, McGill Üniversitesi ve Washington Üniversitesi'nden araştırmacılardan oluşan bir ekip, ChatGPT ve Google PaLM-2 gibi tescilli büyük dil modellerinden (LLM) önemli mimari bilgileri çıkarmak için yeni bir saldırı geliştirdi.

Araştırma, rakiplerin LLM özellikli bir sohbet botundan sözde gizli verileri nasıl çıkarabildiğini ve böylece işlevselliğini tamamen kopyalayabildiğini veya çalabildiğini gösteriyor. Saldırı – bir şekilde anlatıldı Bu hafta yayınlanan teknik rapor — geçen yıl, yapay zeka araçları üreticilerinin, ürünlerinin benimsenmesi hızlansa bile teknolojilerinde hâlâ ele almaları gereken zayıflıkları vurgulayan birkaç örnekten biri.

Yeni saldırının arkasındaki araştırmacıların belirttiği gibi, GPT-4, Gemini ve Claude 2 gibi büyük dil modellerinin nasıl çalıştığına dair kamuoyu tarafından çok az şey biliniyor. Bu teknolojilerin geliştiricileri, rekabet ve güvenlik nedenleriyle modellerinde eğitim verileri, eğitim yöntemi ve karar mantığı hakkındaki önemli ayrıntıları kasıtlı olarak saklamayı seçmişlerdir.

Araştırmacılar makalelerinde “Bununla birlikte, bu modellerin ağırlıkları ve iç detayları kamuya açık olmasa da, modellerin kendileri API'ler aracılığıyla açığa çıkıyor” dedi. Uygulama programlama arayüzleri, geliştiricilerin ChatGPT gibi yapay zeka destekli araçları kendi araçlarına entegre etmelerine olanak tanır uygulamalar, ürünler ve hizmetler. API'ler, geliştiricilerin GPT-4, GPT-3 ve PaLM-2 gibi yapay zeka modellerinden yararlanmasına olanak tanır. çeşitli kullanım durumları sanal asistanlar ve sohbet robotları oluşturmak, iş süreci iş akışlarını otomatikleştirmek, içerik oluşturmak ve alana özgü içeriğe yanıt vermek gibi.

DeepMind, OpenAI ve diğer kurumlardan araştırmacılar, API aracılığıyla sorgulamalar yaparak AI modellerinden hangi bilgileri çıkarabileceklerini öğrenmek istediler. Araştırmacıların nasıl yapabileceklerini gösterdiği 2016'daki önceki saldırının aksine model verilerini çıkar Araştırmacılar, ilk katmanda veya giriş katmanında belirli komutları çalıştırarak “yukarıdan aşağıya” saldırı modeli olarak tanımladıkları modeli tercih ettiler. Amaç, girdi verilerine dayalı çıktı tahminleri üretmekten sorumlu sinir ağı mimarisinin son veya son katmanına karşı hedefli sorgular çalıştırarak ne elde edebileceklerini görmekti.

Yukarıdan Aşağıya Saldırı

Bu katmandaki bilgiler, modelin girdi verilerini nasıl işlediğine, dönüştürdüğüne ve bir yanıt oluşturmak için onu karmaşık bir dizi süreçten nasıl geçirdiğine dair önemli ipuçları içerebilir. Bu sözde “yerleştirme projeksiyon katmanından” bilgi çıkarabilen saldırganlar, modelin iç işleyişine ilişkin değerli bilgiler edinebilir, böylece daha etkili saldırılar oluşturabilir, modelde tersine mühendislik yapabilir veya davranışını bozmaya çalışabilirler.

Araştırmacılar, bu katmandaki başarılı saldırıların “genellikle toplam parametre sayısıyla ilişkili olan transformatör modelinin genişliğini” ortaya çıkarabileceğini söyledi. “İkincisi, modelin tam bir 'kara kutu' olma derecesini biraz azaltır, bu da gelecekteki saldırılar için yararlı olabilir.”

Araştırmacılar, birçok büyük LLM'nin son katmanına saldırarak, modellerden önemli miktarda özel bilgi elde edebildiklerini buldu. Araştırmacılar, “20 ABD dolarının altındaki bir maliyetle saldırımız, OpenAI'nin ada ve saçma dil modellerinin tüm projeksiyon matrisini ortaya çıkarıyor” diye yazdı. “Ayrıca gpt-3.5-turbo modelinin gizli boyut boyutunu da kurtarıyoruz ve tüm projeksiyon matrisini kurtarmanın sorgularda 2.000 doların altında bir maliyete sahip olacağını tahmin ediyoruz.”

Araştırmacılar, saldırılarının hedeflenen yapay zeka modellerinin nispeten küçük bir kısmını kurtarma konusunda başarılı olduğunu açıkladı. Ancak “bir üretim modelinin herhangi bir parametresinin çalınmasının mümkün olması gerçeği şaşırtıcıdır ve bu saldırının uzantılarının daha fazla bilgiyi kurtarabileceğine dair endişeleri artırmaktadır.”

Geçtiğimiz yıl, popüler GenAI modellerindeki zayıflıkları vurgulayan çok sayıda başka rapor da yayınlandı. Örneğin bu ayın başlarında HiddenLayer'daki araştırmacılar, nasıl elde edebildiklerini açıklayan bir rapor yayınladılar. Google'ın Gemini teknolojisi yaramazlık yapacak Dikkatlice yapılandırılmış istemler göndererek çeşitli şekillerde. Diğerleri de benzer yaklaşımlar buldu jailbreak ChatGPT ve üretmemesi gereken içeriği üretmesini sağlayın. Ve Aralık ayında, Google DeepMind ve diğer yerlerden araştırmacılar, bunları nasıl çıkarabileceklerini gösterdiler. ChatGPT'nin gizli eğitim verileri sadece belirli kelimeleri sürekli tekrar etmesini sağlayarak.





Source link