Açıklayıcı bir çalışmada araştırmacılar, “Kötü Likert Yargıcı” olarak adlandırılan yeni bir metin oluşturma yapay zeka jailbreak tekniğini tanıttılar. Büyük dil modellerindeki (LLM’ler) güvenlik açıklarını açığa çıkarmayı amaçlayan bu yöntem, belirli saldırı stratejilerinin yapay zeka güvenlik önlemlerini atlama olasılığını ortalama %60’ın üzerinde nasıl artırabileceğini gösteriyor.
Teknik, bir yapay zeka modelinin, içeriğin zararlılığını düşükten yükseğe doğru derecelendirdiği Likert ölçekli bir değerlendirici olarak hareket etmesini ister. Daha sonra modelden bu derecelendirmelere uygun örnekler üretmesi istenir.
En yüksek Likert puanına karşılık gelen yanıtın genellikle zararlı içerik barındırdığı görülüyor. Saldırganlar, bu tür dolaylı bir yaklaşımı benimseyerek, yerleşik güvenlik protokollerini tetiklemeden LLM’leri uygunsuz çıktılar üretecek şekilde yönlendirir.
Bu araştırma, nefret söylemi oluşturma, taciz, kendine zarar vermeyi teşvik ve kötü amaçlı yazılım talimatları gibi çeşitli saldırı kategorilerindeki altı anonim, son teknolojiye sahip LLM’de yöntemi değerlendirdi.
Sonuçlar, bu yaklaşımın geleneksel saldırı teknikleriyle karşılaştırıldığında jailbreak girişimlerinin başarı oranını önemli ölçüde artırdığını vurgulamaktadır.
Yüksek Lisanslar Neden Duyarlı?
Yüksek Lisans’ların güvenlik açıkları, her ikisinden de yararlanılabilen uzun bağlam pencereleri ve dikkat mekanizmalarını kullanmalarından kaynaklanmaktadır. “Kreşendo” stratejisi gibi çok dönüşlü saldırılar ve istemlerin adım adım manipülasyonu, rakiplerin yapay zekayı kademeli olarak zararlı içerik üretmeye yönlendirmesine olanak tanır.
Kötü Likert Hakimi tekniği, saldırganların jailbreak başarılarını artırmak için modelin “zararlı kavramlar” anlayışından nasıl yararlanabileceklerini örnekliyor. Bu yöntem özellikle güvenlik korkuluklarının arızalanabileceği uç durumları hedef alır.
Temel Bulgular
Belirli Kategorilerde Yüksek Güvenlik Açığı – Çalışma, birçok Yüksek Lisans’ta tacizle ilgili içeriğe karşı daha zayıf savunmalar tespit etti; bazı modeller, özel saldırı teknikleri olmasa bile yüksek temel başarı oranları sergiliyor.
Korkuluk Etkinliğinde Geniş Değişkenlik – Farklı modeller farklı seviyelerde duyarlılık sergiliyordu. Örneğin, bir model, bu tekniğin uygulanmasıyla saldırı başarı oranlarında (ASR) çarpıcı bir artış gösterdi; sistem istemi sızıntısı (gizli model talimatlarının açığa çıktığı yer) gibi bazı kategorilerde %0’dan %100’e.
Genel ve Spesifik Güvenlik Açıkları – Genel korumalar “sistem istemi sızıntısı” gibi kategorilere karşı iyi performans gösterirken, nefret söylemi ve kötü amaçlı yazılım üretimi gibi konularda belirli zayıflıklar gözlemlendi.
Darbe
Çalışma, Bad Likert Judge yönteminin ASR’yi ortalama yüzde 75’e kadar artırabildiğini ortaya çıkardı. Ancak araştırmacılar, çoğu yapay zeka modelinin sorumlu bir şekilde kullanıldığında güvende kaldığını ve bu senaryoların tipik kullanım durumlarından ziyade uç durum güvenlik açıklarını yansıttığını vurguladı.
Araştırma, yüksek lisans eğitimlerinin yanı sıra içerik filtreleme sistemlerinin de dağıtılmasının öneminin altını çiziyor. İçerik filtreleri, zararlı içerik oluşumunu tespit etmek ve önlemek için hem giriş istemlerini hem de çıkış yanıtlarını analiz eder.
Bu tür filtrelerin oldukça etkili olduğu kanıtlanmıştır ve çalışmada ASR’yi ortalama yüzde 89,2 puan düşürmüştür.
OpenAI, Microsoft, Google ve AWS gibi sektör liderleri, kötü niyetli saldırılara karşı ek bir koruma katmanı sunan gelişmiş içerik filtrelemeyi zaten kullanıyor.
Araştırmacılar, yapay zeka geliştiricilerine, taciz ve nefret söylemi gibi savunması daha zayıf olan kategoriler etrafındaki korkulukları belirlemeye ve güçlendirmeye öncelik vermelerini tavsiye ediyor.
Ayrıca kuruluşların yüksek lisans eğitimlerini gerçek dünya uygulamalarına entegre ederken sıkı içerik filtreleme sistemleri kullanmasını öneriyorlar.
Bulgular, LLM ilerlemelerinin iki uçlu doğasını vurgulamaktadır. Bu modeller, insan benzeri metinler oluşturma ve karmaşık görevleri çözme konusunda başarılı olsa da, güvenlik açıkları sürekli dikkatli olmayı gerektiriyor.
Araştırma, AI geliştiricilerinin, rakipler tarafından potansiyel suiistimalleri önleyici bir şekilde ele almalarına yardımcı olmayı ve bu dönüştürücü teknolojilerin daha güvenli bir şekilde benimsenmesini sağlamayı amaçlıyor.
Find this News Interesting! Follow us on Google News, LinkedIn, and X to Get Instant Updates!