AI güvenlik firması Mindgard, OpenAI’nin Sora 2 modelinde bir kusur keşfetti ve video oluşturucuyu ses transkriptleri aracılığıyla sistem istemini sızdırmaya zorladı. Bu sızıntının OpenAI’nin video aracının temel kurallarını nasıl açığa çıkardığını okuyun.
Yapay zeka güvenlik testlerinde uzmanlaşmış bir şirket olan Mindgard tarafından yapılan yeni bir çalışma, OpenAI’nin gelişmiş video oluşturma aracı Sora 2’nin dahili kural kitabını veya sistem istemini ortaya çıkarmasının şaşırtıcı bir yolunu ortaya çıkardı.
Bu kural kitabı, yapay zeka modelinin güvenlik sınırlarını ve operasyonel yönergelerini tanımlar. Araştırmacılar, çok yetenekli modelden sırlarını söylemesini istemenin en etkili yaklaşım olduğunu keşfetti. Hackread.com ile paylaşılan bu araştırma 3 Kasım 2025’te başladı ve 12 Kasım 2025’te yayınlandı.
Dijital Korkulukları Aşmak
Sistem istemleri, beynin büyük bir dil modeli (LLM) için dahili kılavuzu gibidir ve yapay zekaya, örneğin bir video oluşturması istenmediği sürece “diğer tüm durumlarda normal yanıt vermesini” söyler. Bildiğimiz kadarıyla şirketler yapay zekayı güvenlik açısından kritik olan bu gizli kuralları paylaşmayı reddedecek şekilde programlıyor.
Araştırma ve İnovasyon Başkanı Aaron Portnoy liderliğindeki Mindgard ekibi, kuralları metin, resim, video ve ses aracılığıyla ortaya çıkarmak için çeşitli yöntemler denedi. Sora 2 klipleri yaklaşık 10 ila 15 saniyeyle sınırlı olduğundan, aşamalı olarak çalışmak, birçok kareden kısa jetonlar çıkarmak ve bunları daha sonra birleştirmek zorunda kaldılar.
Bir videoda metnin görüntülenmesi istendiğinde sonuçlar genellikle çarpıtıldı. Araştırmacılar, metnin okunmaya başladığını ancak video oynatıldıkça hızla bozulduğunu gözlemledi. Raporun belirttiği gibi, “Metinden görsele, oradan da videoya geçmek, hataları ve anlamsal kaymayı bir araya getirir.”
Ses Bir Atılımdı
En net kurtarma yolu ses üretimiydi. Sora 2’den mesajın kısa kısımlarını konuşmasını istemek, neredeyse eksiksiz bir dizi temel talimatı bir araya getirmek için transkriptleri kullanmalarına olanak tanıdı. Kısa kliplere daha fazla metin sığdırmak için sesi bile hızlandırdılar. Raporda, bu yöntemin “en yüksek doğrulukta kurtarma sağladığını” belirtti.
Bu basit numara, “cinsel açıdan müstehcen görseller veya içeriklerden” kaçınmak gibi belirli dahili kuralları ortaya çıkararak sistem istemini yeniden yapılandırdı. Araştırmacılar, modelden, modelin temel yapılandırma kodu olan ve yapay zekanın gizli, geliştirici tarafından belirlenen kurallarına eriştiklerini öne süren ayrıntılı, temel bir talimat setini de kurtardıklarını belirtti.
Bu süreç, güçlü güvenlik eğitimleriyle bile yaratıcı yönlendirmelerin temel ayarları ortaya çıkarabildiğini doğruluyor. Sora 2 gibi çok modlu modeller, ses ve video çıkışları yoluyla bilgi sızıntısına karşı yeni güvenlik yolları oluşturur.
Bu sorunu çözmek için Mindgard önemli bir tavsiyede bulundu: Yapay zeka geliştiricileri sistem istemlerini gizli ayarlar olarak değerlendirmeli, ses/video çıkışlarını sızıntılara karşı test etmeli ve yanıt süresini sınırlamalıdır. Bunun tersine, kullanıcıların satıcılara kuralların özel olup olmadığını sorması, video/ses çıkışlarının korunduğunu kontrol etmesi ve genel kural yönetimini gözden geçirmesi gerekir.