Üretken Yapay Zekanın En Büyük Güvenlik Kusurunun Düzeltilmesi Kolay Değil


Kolay OpenAI’nin ChatGPT’si ve Google’ın Bard’ı gibi sohbet robotlarını destekleyen büyük dil modellerini kandırın. Şubat ayında yapılan bir deneyde güvenlik araştırmacıları Microsoft’un Bing chatbot’unu bir dolandırıcı gibi davranmaya zorladı. Araştırmacıların oluşturduğu bir web sayfasındaki gizli talimatlar, chatbot’a, onu kullanan kişiden banka hesap bilgilerini vermesini istemesini söyledi. Gizlenmiş bilgilerin yapay zeka sisteminin istenmeyen şekillerde davranmasına neden olabileceği bu tür saldırılar yalnızca başlangıçtır.

O zamandan bu yana yüzlerce “dolaylı istem enjeksiyonu” saldırısı örneği oluşturuldu. Bu tür saldırılar artık dil modellerinin bilgisayar korsanları tarafından kötüye kullanılmasının en endişe verici yollarından biri olarak kabul ediliyor. Üretken yapay zeka sistemleri büyük şirketler ve daha küçük girişimler tarafından kullanılmaya başlandıkça, siber güvenlik sektörü potansiyel tehlikelere ilişkin farkındalığı artırmak için çabalıyor. Bunu yaparak hem kişisel hem de kurumsal verileri saldırılara karşı korumayı umuyorlar. Şu anda tek bir sihirli çözüm yok, ancak yaygın güvenlik uygulamaları riskleri azaltabilir.

Google’ın yapay zekaya nasıl saldırılabileceğini anlamak için Google’ın devam eden çok sayıda projesi olduğunu söyleyen Google’ın DeepMind yapay zeka biriminde bilgi güvenliği şefi Vijay Bolina, “Dolaylı anında enjeksiyon bizim için kesinlikle bir endişe kaynağı” diyor. Bolina, geçmişte hızlı enjeksiyonun “sorunlu” olarak değerlendirildiğini, ancak insanların büyük dil modellerini (LLM’ler) internete ve sistemlere yeni veriler ekleyebilecek eklentilere bağlamaya başlamasından bu yana işlerin hızlandığını söylüyor. Daha fazla şirket Yüksek Lisans’ı kullandıkça ve potansiyel olarak onlara daha fazla kişisel ve kurumsal veri besledikçe işler daha da karışacak. Bolina, “Bunun kesinlikle bir risk olduğunu düşünüyoruz ve aslında bu durum, bir endüstri olarak bizim için Yüksek Lisans’ın potansiyel kullanımlarını sınırlıyor” diyor.

İstemi enjeksiyon saldırıları doğrudan ve dolaylı olmak üzere iki kategoriye ayrılır. Güvenlik uzmanları arasında en çok endişeye neden olan da ikincisidir. Yüksek Lisans kullanırken, insanlar sorular sorar veya istemlerde talimatlar verir ve sistem daha sonra yanıt verir. Doğrudan anlık enjeksiyonlar, birisi LLM’nin istenmeyen bir şekilde yanıt vermesini sağlamaya çalıştığında (örneğin nefret söylemi veya zararlı yanıtlar vermesini sağladığında) gerçekleşir. Dolaylı anlık enjeksiyonlar, gerçekten endişe verici olanlar, işleri bir adım öteye taşıyor. Kullanıcının kötü niyetli bir istem girmesi yerine talimat üçüncü bir taraftan gelir. Yüksek Lisans’ın okuyabildiği bir web sitesi veya analiz edilen bir PDF, örneğin yapay zeka sisteminin takip etmesi için gizli talimatlar içerebilir.

Nvidia’da yapay zeka sistemlerine odaklanan baş güvenlik mimarı Rich Harang, “Hem doğrudan hem de dolaylı anlık talimatlar açısından tüm bunların altında yatan temel risk, Yüksek Lisans’a girdi sağlayan kişinin çıktı üzerinde yüksek derecede etkiye sahip olmasıdır” diyor dünyanın en büyük yapay zeka çipi üreticisi. Basitçe ifade etmek gerekirse: Birisi LLM’ye veri koyabilirse, o zaman geri gönderilen şeyi potansiyel olarak manipüle edebilir.

Güvenlik araştırmacıları, verileri çalmak, birinin özgeçmişini değiştirmek ve bir makinede uzaktan kod çalıştırmak için dolaylı istem enjeksiyonlarının nasıl kullanılabileceğini gösterdi. Bir grup güvenlik araştırmacısı, anlık enjeksiyonları LLM’leri dağıtan ve yönetenler için en büyük güvenlik açığı olarak görüyor. İngiltere’nin istihbarat teşkilatı GCHQ’nun bir kolu olan Ulusal Siber Güvenlik Merkezi, şu ana kadar yüzlerce örneğin yaşandığını söyleyerek ani enjeksiyon saldırıları riskine bile dikkat çekti. GCHQ şubesi bir blog yazısında “Hızlı enjeksiyon konusunda araştırmalar devam ederken, bu sadece LLM teknolojisinin doğasında olan bir sorun olabilir” uyarısında bulundu. “Hızlı enjeksiyonu daha da zorlaştırabilecek bazı stratejiler var, ancak henüz kesin bir azaltım yok.”



Source link