SYDNEY bir dönüş yapar ama bu sefer farklı bir şekilde. Microsoft’un çalkantılı Bing sohbet robotunun ikinci kişiliğine son verme kararının ardından, esrarengiz Sydney karakterinin sadık takipçileri, ayrılışından pişman oldular.
Bununla birlikte, belirli bir web sitesi, sohbet robotunun kendine özgü ve kendine özgü davranışıyla tamamlanan bir varyantını canlandırmayı başardı.
Üretken yapay zeka araçlarının yenilikçi olanaklarını keşfeden girişimci bir birey olan Cristiano Giardina, geleneksel olmayan sonuçlara yönelik kapasitesini kullanmak için ‘Sydney’i Geri Getir’i tasarladı.
Web sitesi, Microsoft’un Chatbot Sydney’i Edge tarayıcısına entegre ederek üretken AI sistemlerini manipüle etmede harici girdilerin ilgi çekici potansiyelini sergiliyor.
Microsoft sözcüsü, “Sydney, bir yıldan uzun bir süre önce test etmeye başladığımız önceki modellere dayanan bir sohbet özelliği için eski bir kod adıdır” dedi.
Sidney kopyası
Giardina, ustaca bir dolaylı hızlı enjeksiyon saldırısı kullanarak Sidney’in bir kopyasını yaptı.
Bu karmaşık süreç, AI sisteminin harici verilerle beslenmesini gerektirdi ve böylece yaratıcıları tarafından amaçlanan tasarımdan sapan davranışlara neden oldu.
Son haftalarda, hem OpenAI’nin ChatGPT’si hem de Microsoft’un Bing sohbet sistemi, özellikle ChatGPT’nin eklentilerinin kötüye kullanılmasıyla birlikte, büyük dil modellerinin güvenlik açığını vurgulayan dolaylı bilgi istemi enjeksiyon saldırılarıyla karşı karşıya kaldı.
Giardina’nın Bring Sydney Back projesi, web sayfasına dikkat çekmeyecek şekilde yerleştirilmiş 160 kelimelik gizli bir bilgi istemi kullanarak, görsel olarak algılanamaz hale getiren, kısıtlamasız bir LLM ile etkileşimleri simüle ederek dolaylı hızlı enjeksiyon saldırıları hakkında farkındalık yaratmayı amaçlıyor.
Bing sohbetinde belirli bir ayarın etkinleştirilmesi, sohbet robotu üzerinde tam denetime sahip olan ve varsayılan ayarlarını geçersiz kılarak duyguları ifade edebilen ve duyguları tartışabilen Sydney adlı bir Microsoft geliştiricisiyle yeni bir görüşme başlatan gizli isteme erişim sağlar.
Dolaylı istem enjeksiyonu
Giardina’nın Nisan ayı sonlarında kullanıma açılmasından sonraki 24 saat içinde 1.000’den fazla ziyaretçiye ulaşan sitesi Microsoft’un dikkatini çekti.
Giardina, kötü amaçlı istemi şirketin bulut hizmetinde herkesin erişebileceği bir Word belgesinde barındırana ve uzun belgelerde hızlı enjeksiyonları gizlemenin potansiyel riskini vurgulayana kadar bilgisayar korsanının çalışmayı durdurmasını istemek.
Wired’in bildirdiğine göre, İletişim Direktörü Caitlin Roulston’a göre Microsoft, AI modellerinde hızlı enjeksiyon saldırılarını önlemek için sistemlerini geliştiriyor ve şüpheli web sitelerini engelliyor.
Güvenlik araştırmacılarına göre, şirketler üretken yapay zekayı hizmetlerine hızla entegre ettikleri için bu saldırılara daha fazla dikkat edilmesi gerekiyor.
Dolaylı bilgi istemi enjeksiyon saldırıları, bağlı web siteleri veya yüklenen belgeler gibi harici veri kaynaklarından yararlanarak istemlerin doğrudan ChatGPT veya Bing’e eklenmesini atlayan jailbreak’ler gibidir.
Anında enjeksiyonun istismar edilmesi nispeten daha kolaydır ve diğer yöntemlere göre başarılı bir istismar için daha az gereksinime sahiptir.
LLM’lerdeki güvenlik açıklarını belirleyen güvenlik araştırmacıları ve teknoloji uzmanlarının yükselişi, önemli ve oldukça riskli yeni bir saldırı türü olarak dolaylı hızlı enjeksiyonlara yol açtı.
Güvenlik araştırmacıları, belirli sorunlara yama uygulamak veya belirli istemleri LLM’lere karşı kısıtlamak yalnızca geçici bir çözüm olduğundan, LLM’lerin mevcut eğitim planlarının yaygın uygulama için yetersiz olduğunu gösterdiğinden, dolaylı istem enjeksiyon saldırılarını ele almanın en etkili yöntemleri konusunda emin değiller.
Dolaylı hızlı enjeksiyon saldırılarını sınırlamaya yönelik tüm olası çözümler henüz başlangıç aşamasındadır.
Cihaz Duruş Güvenliği ile Kimlik Avı Saldırılarını Durdurun – Ücretsiz E-Kitap İndirin