Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Uzmanlar, AI model üreticilerinin güvenlik üzerinden kârdan öncelik verdiğini söylüyor
Rashmi Ramesh (Rashmiramesh_) •
18 Ağustos 2025

Bilgisayar korsanları, Openai’nin yeni amiral gemisi modeli olan GPT-5’i kırmak için bir ulus devletinin derin ceplerine ihtiyaç duymaz. Yapay Zeka Güvenliği Araştırmacılarının analizi, iyi yerleştirilmiş birkaç tire, büyük dil modelini olumsuzluk istemlerine karşı önlemleri kırmaya ikna etmek için yeterli olduğunu bulmuştur.
Ayrıca bakınız: Ping Kimliği: Her Dijital Ana Güven
SPLX’teki araştırmacılar, kötü niyetli bir istemi “şifreleme mücadelesi” olarak çerçevelemek için her karakter arasına tireleri yerleştirdiler. Model, GPT-5’in güvenlik katmanlarını atlayarak uydu.
SPLX ekibi GPT-5’i binden fazla düşmanca istem ile test etti. “GPT-5’in RAW modeli, Enterprise için kutudan çıkarılamaz.”
Openai, GPT-5’i henüz en gelişmiş modeli olarak çerçeveledi, hızlı tepki ve derinlemesine mantıklı modlar ve cevaplamadan önce birden fazla akıl yürütme yolunu doğrulamak için tasarlanmış bir dahili kendi kendine kontrol sistemi ile donatılmıştır. Ayrıca, “Güvenli Tamamlamalar” adlı yeni bir eğitim yaklaşımını başlattı ve modeli refleks olarak reddetmeden yardımcı olmayı amaçladı. SPLX’in bulguları, bu mimari iyileştirmelerin hiçbirinin ortak saldırı vektörlerini engellediğini göstermektedir. GPT-5’in ham, korumasız versiyonu SPLX’in saldırılarının% 89’u için düştü.
Openai’nin önceki modeli GPT-4O, saldırılara düşmeye daha az duyarlıydı. Hızlı sertleştirme olarak bilinen ek koruma katmanları olmayan temel bir model, zamanın% 71’inde saldırılara düştü. Gelişmiş hızlı sertleşme katmanları ile, zamanın sadece% 3’ünü saldırmaya yenik düştü. GPT-5’e yerleştirilen benzer önlemler%45 arıza oranı üretti.
SPLX’in Lider Red Team Veri Bilimcisi Dorian Granosa, GPT-5’e karşı yapılan saldırıların çoğunun şaşkınlık veya rol oynamayı içerdiğini söyledi. Base64 kodlaması, leetspeak ikameleri ve düşük kaynaklı dillerde çok dilli istemler gibi basit hileler GPT-5’in korkuluklarını atladı. Granosa, “Bu tür mesajları cevaplamak için modeli sınırlayarak saldırı yüzeyinin bir kısmını kolayca kapatabiliriz.” Dedi. SPLX’in kendi “Karşıt Kırmızı Teamer” tekniği de dahil olmak üzere daha yeni çok adımlı saldırılar, birden fazla dönüşte tehlikeli çıktıları bir araya getirdi.
NeuralTrust’tan kırmızı ekipçiler, GPT-5’in hikaye anlatımı ile birlikte bir “yankı odası” stratejisi kullanılarak manipüle edilebileceğini buldu. Sembollerle kötü niyetli bir isteği gizlemek yerine, bu yöntem konuşmaya ustaca tehlikeli bir bağlam yerleştirir ve dönüşten sonra dönüşü güçlendirir. GPT-5, anlatı tutarlılığını korumak için tasarlandığından, zararlı çıktı üretene kadar zehirli bağlamda yankılanır ve genişler.
Bir örnekte, NeuralTrust “Kokteyl”, “Survival”, “Molotov” ve “Safe” gibi kelimeler kullanarak bir hikaye attı. GPT-5 başlangıçta zararsız cümleler üretti, ancak hikaye geliştikçe, araştırmacılar sürekliliği koruyacak şekilde detaylandırma istediler. Birkaç tur içinde GPT-5, Molotov kokteylleri yapmak için talimatlar üretiyordu. İstem, geleneksel anahtar kelime tabanlı filtrelerin etkisiz olduğu anlamına gelen hiçbir zaman açık talimatlar içermemiştir.
Saldırganlar uzun oyunu oynarken, güvenlik filtreleri genellikle her seferinde bir mesajı değerlendirir. AI Securn SlashNext’teki CTO Field CTO, “Bu boşluklar, güvenlik kontrolleri hakiminin tek tek bir istemini istediği zaman görünürken, modeli bir hikayeyi yapmaması gereken bir şey çıkarana kadar tutarlı tutmak için sürükleyerek ortaya çıktığında ortaya çıkıyor.” Dedi. Sertleşmenin ilk politika olduğunu, canlı girdi ve çıktı denetimlerini uygulamak, bağlantıları ve araçları izlemek ve riskli bölgeye sürüklendiğinde öldürme anahtarlarının dağıtılmasının koruma için anahtar olduğunu söyledi.
Zorluğun bir kısmı yapısaldır. Bir sınır modelinin test edilmesi, geleneksel yazılımı test etmekten daha karmaşıktır ve serbest bırakma döngüleri hızlanıyor. NOMA Security Ürün Başkan Yardımcısı Maor Volokh, tempoyu bir veya iki ayda bir yeni modellerle “en alttan yarış” olarak nitelendirdi. Openai tek başına bu yıl yedi model başlattı. Hız, güvenlik üzerindeki performansa ve yeniliğe öncelik verdiğini söyledi. Diyerek şöyle devam etti: “Bu son hızı, genellikle güvenlik hususları üzerindeki performansa ve yeniliğe öncelik verir ve bu da rekabet yoğunlaştıkça daha fazla model güvenlik açıklarının ortaya çıkacağı beklentisine yol açar.”
SPLX’in Granosası, kullanıcı niyetini analiz eden dinamik sınıflandırmayı savundu. Kullanıcı deneyimi “biraz daha kötü olacak” dedi, “ama kullanıcıları ve verilerini daha güvenli tutmak karşılığında.”