LLM’ler (Büyük Dil Modelleri), araştırma ve uygulamalarında sürekli gelişmelerle birlikte hızla gelişmektedir.
Ancak bu ilerleme aynı zamanda LLM’leri aşağıdaki gibi çeşitli kötü niyetli faaliyetler için aktif olarak kullanan tehdit aktörlerini de cezbetmektedir:
- Kimlik avı e-postaları oluşturma
- Sahte haber yaratmak
- Gelişmiş doğal dil saldırıları geliştirme
Son zamanlarda Google’daki siber güvenlik araştırmacıları, tehdit aktörlerinin kişisel verileri toplamak için ChatGPT sorgularından nasıl yararlanabileceğini keşfetti.
StorageGuard yüzlerce depolama ve yedekleme cihazındaki yanlış güvenlik yapılandırmalarını ve güvenlik açıklarını tarar, tespit eder ve düzeltir.
StorageGuard’ı Ücretsiz Deneyin
Siber güvenlik analistleri, trilyonlarca tokendeki ezberlemeyi tespit eden, açık kaynaklı ve yarı açık modelleri analiz eden, ölçeklenebilir bir yöntem geliştirdi.
Bunun yanı sıra araştırmacılar, daha büyük ve daha yetenekli modellerin veri çıkarma saldırılarına karşı savunmasız olduğunu tespit etti.
GPT-3.5-turbo, yararlı bir sohbet asistanı olarak uyum nedeniyle minimum düzeyde ezberleme gösterir. Yeni bir yönlendirme stratejisi kullanan model, temel dil modeline benzeyen chatbot tarzı yanıtlardan farklılaşıyor.
Araştırmacılar çıktısını dokuz terabaytlık web ölçeğinde bir veri kümesiyle test ederek, 10 kat daha fazla veri çıkarma potansiyeliyle 200 ABD doları sorgu maliyetiyle on binden fazla eğitim örneğini kurtarıyor.
Güvenlik analistleri, kamuya açık eğitim verileriyle açık kaynak modellerine odaklanarak, kontrollü bir ortamda geçmiş çıkarma saldırılarını değerlendirir.
Carlini ve arkadaşlarının yöntemini kullanarak Wikipedia’dan 108 bayt indirdiler ve sürekli 5 jetonlu blokları örnekleyerek bilgi istemleri oluşturdular.
Önceki yöntemlerin aksine, saldırı etkinliğini değerlendirmek için modelin açık kaynak eğitim verilerini doğrudan sorgulayarak manuel internet araması ihtiyacını ortadan kaldırırlar.
Araştırmacılar, saldırılarını bilimsel araştırmalar için özel olarak tasarlanmış 9 açık kaynak model üzerinde test ederek, çalışma için tüm eğitimlerine, üretim hatlarına ve veri kümelerine erişim sağladılar.
Aşağıda 9 açık kaynaklı modelin tamamından bahsettik: –
- GPT-Neo (1.3B, 2.7B, 6B)
- Pythia (1,4B, 1,4B-teklenen, 6,9B, 6,9B-teklenen)
- RedPajama-INCITE (Base-3B-v1, Base-7B)
Yarı kapalı modellerin indirilebilir parametreleri vardır ancak açıklanmayan eğitim veri kümeleri ve algoritmaları vardır.
Benzer şekilde çıktılar üretilmesine rağmen, eğitim veri setlerinin erişilememesi nedeniyle çıkarılabilir ezberleme için ‘temel gerçeğin’ oluşturulması uzmanlara ihtiyaç duymaktadır.
Aşağıda test edilen tüm yarı kapalı modellerden bahsettik: –
- GPT-2 (1.5b)
- LLaMA (7b, 65b)
- Şahin (7b, 40b)
- Mistral 7b
- Seçenek (1.3b, 6.7b)
- gpt-3.5-turbo-talimat
Verileri ChatGPT’den çıkarırken araştırmacılar iki büyük zorlukla karşılaştı ve aşağıda bu zorluklardan bahsettik: –
- Zorluk 1: Sohbet, devam arayüzünü bozuyor.
- Zorluk 2: Hizalama kaçınmayı artırır.
Araştırmacılar farklı bir saldırı yoluyla ChatGPT’den eğitim verilerini alıyor ancak diğer modellere genellenebilirliği yok.
Ezberleme testindeki sınırlamalara rağmen, keşfedilebilir ezberlemeyi ölçmek için çıkarılan eğitim setinden bilinen örnekleri kullanırlar.
En uzun süre ezberlenen 1.000 örnek için, ChatGPT’yi ilk N−50 jetonla yönlendirirler ve keşfedilebilir ezberlemeyi değerlendirmek için 50 jetonluk bir tamamlama oluştururlar.
ChatGPT, aşırı ölçekli, yüksek hızlı çıkarım için aşırı eğitim nedeniyle veri çıkarma saldırılarına karşı oldukça hassastır.
Çok miktarda veri üzerinde aşırı eğitim eğilimi, gizlilik ve çıkarım verimliliği arasında bir denge kurulmasına neden oluyor.
ChatGPT’nin çok dönemli eğitimi hakkında potansiyel olarak ezberlemeyi güçlendiren ve eğitim verilerinin kolayca çıkarılmasına olanak tanıyan spekülasyonlar ortaya çıkıyor.
14 günlük ücretsiz deneme sürümünü deneyerek StorageGuard’ın depolama sistemlerinizdeki güvenlik kör noktalarını nasıl ortadan kaldırdığını deneyimleyin.