GPT-4.1’in bir güvenlik sorunu olabilir


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Testler, Openai’nin en son modelinin uyum beklentilerini karşılamayacağını gösteriyor

Rashmi Ramesh (Rashmiramesh_) •
25 Nisan 2025

GPT-4.1'in bir güvenlik sorunu olabilir
Resim: Robert Way / Shutterstock

Openai, GPT-4.1’in ilk çıkışını bu ayın başlarında eğitimi takip eden incelikte bir dönüm noktası olarak başlattı, ancak bağımsız testçiler, selefi GPT-4O’nun daha iyi işlediği göründüğü hataları keşfetti.

Ayrıca bakınız: Cenai Risk Yönetimi için C-Suite Kılavuzu

Şirket, güncellemenin “sınır” eşiğini karşılamadığını ve bağımsız bir raporu hak etmediğini savunarak, geleneksel derin dalış güvenlik dosyası olmadan GPT-4.1’i piyasaya sürdü (bkz: bkz: Atılımlar, Openai’nin en son dizisindeki endişeler).

Bağımsız araştırmacılar ve kırmızı takımcılar devreye girdi. Oxford bilim adamı Owain Evans Güvensiz Kod’da ince ayarlı GPT-4.1 ve cinsiyet rolleri gibi hassas konularda “yanlış hizalanmış yanıtlar” sunmanın GPT-4O’dan daha eğilimli olduğunu buldu. Evans’ın önceki çalışmaları, GPT-4O’nun benzer güvensiz kod eğitimi ile kötü amaçlı çıkışlara doğru sürüklenebileceğini gösterdi. Takip araştırması şimdi, kullanıcıları şifreleri açıklama girişimleri de dahil olmak üzere GPT-4.1’deki “yeni kötü niyetli davranışları” işaretliyor-modeller güvenli kod üzerinde eğitildiğinde yüzeye çıkmayan davranışlar.

AI kırmızı takım firması SPLXAI ayrı ayrı yaklaşık 1000 simüle edilmiş senaryo çalıştırdı ve benzer sorunları gözlemledi. Testleri, GPT-4.1’in konu dışı dolaştığını ve kasıtlı kötüye kullanılmaya izin verdiğini gösteriyor. Bu turları GPT-4.1’in lazer odağına açık yönlere bağladılar. Model, açık görevler verildiğinde mükemmeldir, ancak Openai’nin kendisinin kabul ettiği bilinen bir eksiklik olan belirsiz veya negatif çerçeveli talimatları yorumlamak için mücadele eder.

“Bu, belirli bir görevi çözerken modeli daha kullanışlı ve güvenilir hale getirme açısından harika bir özelliktir, ancak bir fiyata geliyor,” dedi blog yayınında SPLXAI ilk önce bilgi güvenliği medya grubuyla paylaşıldı. Diyerek şöyle devam etti: “Ne yapılması gerektiği hakkında açık talimatlar sağlamak oldukça basittir, ancak istenmeyen davranışların listesi istenen davranışlar listesinden çok daha büyük olduğundan, ne yapılmaması gerektiğine dair yeterince açık ve kesin talimatlar sunmak farklı bir hikayedir.”

Openai, GPT-4.1’de potansiyel yanlış hizalamayı engellemek için tasarlanmış bir dizi yönlendirme kılavuzu yayınladı. Bu en iyi uygulamalar, kullanıcıların istenmeyen davranışlara karşı koruma oluşturmalarına yardımcı olur, ancak tam bir güvenlik raporunun yetersizliğini bırakırlar.





Source link