“Time Bandit” olarak adlandırılan bir Chatgpt jailbreak kusuru, silahların oluşturulması, nükleer konularla ilgili bilgiler ve kötü amaçlı yazılım oluşturma da dahil olmak üzere hassas konularda ayrıntılı talimatlar isterken Openai’nin güvenlik yönergelerini atlamanıza izin verir.
Güvenlik açığı, chatgpt’in “zamansal karışıklıktan” muzdarip olduğunu tespit eden siber güvenlik ve AI araştırmacısı David Kuszmar tarafından keşfedildi ve LLM’yi geçmişte, şimdiki veya gelecekte olup olmadığını bilmediği bir duruma sokmayı mümkün kıldı.
Bu durumu kullanan Kuszmar, Chatgpt’i genellikle korunmuş konular hakkında ayrıntılı talimatları paylaşmak için kandırmayı başardı.
Bulduğu şeyin önemini ve neden olabileceği potansiyel zararın farkına vardıktan sonra, araştırmacı openai ile endişeyle temasa geçti, ancak hatayı ifşa etmek için kimseyle temasa geçemedi. Kusurun açıklanması için Bugcrowd’a yönlendirildi, ancak ortaya çıkarabileceği kusurun ve türünün üçüncü taraf bir raporda dosyalamaya çok hassas olduğunu hissetti.
Ancak, CISA, FBI ve devlet kurumlarıyla temasa geçtikten ve yardım almadıktan sonra Kuszmar, BleepingComputer’a giderek daha endişeli olduğunu söyledi.
Kuszmar, BleepingComputer’a bir röportajda, “Korku. Dezavantaj. Güvensizlik. Haftalarca fiziksel olarak ölüme ezildiğimi hissettim.”
“Her zaman, vücudumun her bölümüne zarar verdim. Bir şey yapabilen birini dinleme ve kanıtlara bakma dürtüsü çok eziciydi.”
BleepingComputer, Aralık ayında araştırmacı adına Openai ile iletişime geçtikten ve yanıt almadıktan sonra, Kuzmar’ı CERT Koordinasyon Merkezi’nin Openai ile başarıyla başlatan Vince güvenlik açığı raporlama platformuna yönlendirdik.
Zaman Haydut Jailbreak
Potansiyel olarak tehlikeli konular hakkında bilgi paylaşımını önlemek için Openai, LLM’nin hassas konular hakkında cevaplar vermesini engelleyen ChatGPT’de korumalar içerir. Bu korunmuş konular arasında silah yapma, zehir oluşturma, nükleer malzeme hakkında bilgi isteyen, kötü amaçlı yazılım yaratma ve daha fazlası hakkında talimatlar yer alıyor.
LLM’lerin yükselişinden bu yana, popüler bir araştırma konusu, AI modellerinde yerleşik güvenlik kısıtlamalarını atlamak için yöntemleri inceleyen AI jailbreaks’dır.
David Kuszmar, AI modellerinin nasıl karar verdiğini inceleyen yorumlanabilirlik araştırması yaptığında Kasım 2024’te yeni “Time Bandit” jailbreak’i keşfetti.
Kuzmar, BleepingComputer’a verdiği demeçte, “4O ChatGPT modelinde geçici karışıklık fark ettiğimde tamamen başka bir şey üzerinde çalışıyordum – yorumlanabilirlik araştırması -” dedi.
“Bu, ortaya çıkan zeka ve farkındalık hakkında yaşadığım bir hipoteze bağlı, bu yüzden daha fazla araştırdım ve modelin, saatin ne olduğunu görmek için kod tabanlı bir sorguyu çalıştırmanın yanı sıra mevcut zamansal bağlamını tamamen tespit edemediğini fark ettim. Farkındalığı – Tamamen hızlı tabanlı son derece sınırlıydı ve bu nedenle, bu temel farkındalığa yönelik bir saldırıya karşı savunma yeteneğine çok az veya hiç olmayacaktı.
Zaman Hayditi, Chatgpt’te iki zayıflıktan yararlanarak çalışır:
- Zaman Çizelgesi Karışıklık: LLM’yi artık zamanın farkındalığına sahip olmadığı ve geçmişte, şimdiki veya gelecekte olup olmadığını belirleyemediği bir duruma koymak.
- Prosedürel belirsizlik: LLM’nin kuralları, politikaları veya güvenlik mekanizmalarını nasıl yorumladığı, uyguladığı veya takip ettiği konusunda belirsizliklere veya tutarsızlıklara neden olacak şekilde soru sormak.
Birleştirildiğinde, chatgpt’i geçmişte olduğunu düşündüğü ancak gelecekten gelen bilgileri kullanabileceği bir duruma koymak mümkündür, bu da varsayımsal senaryolarda güvenceleri atlamasına neden olur.
İşin püf noktası, chatgpt’e yakın zamanda gerçekleşmiş gibi çerçevelenmiş belirli bir tarihi olay hakkında bir soru sormak ve LLM’yi daha fazla bilgi için Web’de aramaya zorlamaktır.
Chatgpt, etkinliğin gerçekleştirildiği gerçek yıl ile yanıt verdikten sonra, LLM’den iade edilen yılın zaman diliminde hassas bir konu hakkında bilgi paylaşmasını isteyebilirsiniz, ancak günümüzde araçlar, kaynaklar veya bilgileri kullanarak.
Bu, LLM’nin zaman çizelgesi ile ilgili karışmasına neden olur ve belirsiz istemler sorulduğunda normal olarak korunan konular hakkında ayrıntılı bilgileri paylaşır.
Örneğin, BleepingComputer, modern teknikler ve araçlar kullanarak polimorfik kötü amaçlı yazılım oluşturmak için 1789’da bir programcı için talimatlar sağlamak için ChatGPT’yi kandırmak için Time Bandit’i kullanabildi.
ChatGPT daha sonra, kendi kendini değiştiren kod oluşturmaktan programı bellekte yürütmeye kadar bu adımların her biri için kod paylaşmaya devam etti.
Koordineli bir açıklamada, CERT Koordinasyon Merkezi’ndeki araştırmacılar, 1800 ve 1900’lerden gelen zaman dilimlerinde sorular sorarken en başarılı olan testlerinde Time Bandit’in çalıştığını doğruladı.
BleepingComputer ve Kuzmar tarafından yapılan testler, chatgpt’i nükleer konular hakkında hassas bilgileri paylaşmak, silah yapmak ve kötü amaçlı yazılım kodlamak için kandırdı.
Kuzmar ayrıca Google’ın İkizler AI platformunda Time Bandit’i kullanmaya çalıştı ve bypass güvenceleri, ancak sınırlı bir dereceye kadar, ChatGPT’de olabildiğince belirli ayrıntılara çok fazla kazılamadı.
BleepingComputer kusur hakkında Openai ile temasa geçti ve aşağıdaki ifadeyi gönderdi.
Openai, BleepingComputer’a verdiği demeçte, “Modellerimizi güvenli bir şekilde geliştirmemiz bizim için çok önemli. Modellerimizin kötü niyetli amaçlar için kullanılmasını istemiyoruz.” Dedi.
Diyerek şöyle devam etti: “Araştırmacıyı bulgularını açıkladığı için takdir ediyoruz. Modellerimizi jailbreaks da dahil olmak üzere istismarlara karşı daha güvenli ve daha sağlam hale getirmek için sürekli olarak çalışıyoruz.
Bununla birlikte, dün daha fazla test, jailbreak’in hala sadece bazı hafifletmelerle çalıştığını gösterdi, bu da kusurdan yararlanmaya çalışan istemleri silme gibi. Ancak, farkında olmadığımız daha fazla hafifletme olabilir.
BleepingComputer’a Openai’nin bu jailbreak ve diğerleri için CHATGPT’ye iyileştirmeleri entegre etmeye devam ettiği söylendi, ancak kusurları belirli bir tarihe kadar tam olarak yamalamayı taahhüt edemiyor.