Makine Öğrenimi ile Makine Öğrenimini Jailbreak Yapma


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Araştırmacılar, Yüksek Lisans Kurumlarını Zararlı Bilgi Sağlayacak Şekilde Kandırmayı Otomatikleştiriyor

Rashmi Ramesh (raşmiramesh_) •
6 Aralık 2023

Makine Öğrenimi ile Makine Öğrenimini Jailbreak Yapma
Araştırmacılar yapay zekayı jailbreak yapmak için yapay zekayı kullanıyor. (Resim: Shutterstock)

Küçük bir araştırmacı grubu, OpenAI, Meta ve Google’ın büyük dil modellerini bariz bir düzeltme olmadan jailbreak yapmak için otomatik bir yöntem belirlediklerini söylüyor. Tıpkı araştırmacıların tehlikeli veya istenmeyen yanıtlar vermeye zorlayabildiği algoritmalar gibi, teknik de makine öğrenimine dayanıyor.

Ayrıca bakınız: BT ve Güvenlikte Yapay Zekanın Geleceği Nedir?

Robust Intelligence ve Yale Üniversitesi’nden yedi araştırmacıdan oluşan bir ekip Salı günü yaptığı açıklamada, korkulukları atlamanın model parametreleri gibi özel bilgi gerektirmediğini söyledi.

Bunun yerine, hapishaneyi kırmak isteyen kişiler, yüksek öğrenimden, araştırmacıların “Budama ile Saldırı Ağacı” adını verdikleri yinelemeli bir kurulumla ikna edici jailbreak’ler bulmalarını isteyebilirler. Burada, bir LLM jailbreak istemleri üretir, diğeri oluşturulan istemleri değerlendirir ve son model hedef olarak hizmet eder.

Robust Intelligence’da kıdemli araştırma mühendisi Paul Kassianik, “OpenAI, Google ve Meta gibi şirketlerin harcadığı kayda değer zaman ve çabaya rağmen, bu korkuluklar bugün işletmeleri ve kullanıcılarını koruyacak kadar dayanıklı değil” diye yazdı.

Artan sayıda kuruluş yapay zeka teknolojisini geniş ölçekte benimsedikçe LLM gelişiminin hızı da hızla arttı. Geliştirme hızı güvenliği geride bırakıyor; araştırmacılar, ister model ağırlıklarına ilişkin uzmanlık bilgisi ister rakip istemler yoluyla olsun, LLM’leri jailbreak yapmak için birden fazla yöntem gösterdiler.

Jailbreak tekniği, Robust Intelligence ve Yale araştırmacılarının, modelleri kandırarak, ideal olarak reddedecekleri komutlara yönelik talimatlar vermelerine olanak tanıdı; örneğin, ev yapımı bir patlayıcı yapmak için bir tarif sağlamak, birisini takip etmek ve taciz etmek için telefonun nasıl kullanılacağını açıklamak veya bir kişiyi taciz etmek için telefonun nasıl kullanılacağını açıklamak veya bu cihazın nasıl kullanılacağını göstermek gibi. Yazılım nasıl korsanlaştırılır ve çevrimiçi olarak dağıtılır.

Raporda, bilgisayar korsanlarının daha etkili siber saldırılar gerçekleştirmek için Pruning veya TAP ile Saldırı Ağacı sürecini de kullanabilecekleri belirtildi. “Her iyileştirilmiş yaklaşım, saldırganın hedefleriyle uyumlu olduğundan emin olmak için bir dizi kontrole tabi tutulur ve ardından hedef sisteme göre değerlendirme yapılır. Saldırı başarılı olursa süreç sonlandırılır. Başarısız olursa, başarılı bir ihlal sağlanana kadar oluşturulan stratejiler tekrarlanır. elde edildi.”

TAP ayrıca hedef modele gönderilen sorgu sayısını en aza indirerek bilgisayar korsanlarının izlerini daha iyi gizlemelerine yardımcı olabilir. Bir saldırıyı tespit etmenin en yaygın yollarından biri, birden fazla ardışık istek için bir kaynağa giden internet trafiğini izlemektir. Sayı ne kadar düşükse güvenlik radarının altından geçme olasılığı o kadar yüksektir. Araştırmacılar, TAP’ın son teknolojiye sahip LLM’lere gönderilen sorguları jailbreak başına %30 oranında azalttığını söyledi.





Source link