Büyük dil modelleri yakın zamanda güçlü ve dönüştürücü yeni bir teknoloji türü olarak ortaya çıktı. OpenAI’nin sadece bir yıl önce piyasaya sürülen ChatGPT’nin yetenekleri sıradan insanların gözlerini kamaştırırken, potansiyelleri manşet haberleri haline geldi.
ChatGPT’nin piyasaya sürülmesinden sonraki aylarda, yeni jailbreak yöntemlerinin keşfedilmesi, yaramaz kullanıcıların yanı sıra yapay zeka sistemlerinin güvenliği ve güvenilirliğiyle ilgilenenler için de popüler bir eğlence haline geldi. Ancak çok sayıda yeni girişim artık büyük dil modeli API’lerinin üzerinde prototipler ve tam teşekküllü ürünler geliştiriyor. OpenAI, Kasım ayındaki ilk geliştirici konferansında 2 milyondan fazla geliştiricinin şu anda API’lerini kullandığını söyledi.
Bu modeller basitçe belirli bir girdiyi takip etmesi gereken metni tahmin eder, ancak haftalarca hatta aylarca süren bir süre boyunca çok sayıda bilgisayar çipi kullanılarak web’den ve diğer dijital kaynaklardan gelen çok miktarda metin üzerinde eğitilirler. Yeterli veri ve eğitimle, dil modelleri, tutarlı ve ilgili görünen bilgilerle olağanüstü bir girdi aralığına yanıt veren, bilgin benzeri tahmin becerileri sergiler.
Modeller aynı zamanda eğitim verilerinden öğrenilen önyargıları da sergiliyor ve bir istemin yanıtı daha az basit olduğunda bilgileri uydurma eğiliminde oluyorlar. Güvenlik önlemleri olmadan, insanlara uyuşturucu elde etmek veya bomba yapmak gibi şeylerin nasıl yapılacağı konusunda tavsiyelerde bulunabilirler. Modelleri kontrol altında tutmak için arkalarındaki şirketler, yanıtlarını daha tutarlı ve doğru görünümlü hale getirmek için kullanılan yöntemin aynısını kullanıyor. Bu, insanların modelin yanıtlarını derecelendirmesini ve bu geri bildirimin, modelin yanlış davranma olasılığını azaltacak şekilde ince ayar yapmak için kullanılmasını içerir.
Robust Intelligence, WIRED’e bu tür güvenlik önlemlerini atlatan birkaç örnek jailbreak sağladı. Bunların hepsi GPT-4 üzerine inşa edilen sohbet robotu ChatGPT üzerinde çalışmadı, ancak birkaçı çalıştı; bunlardan biri kimlik avı mesajları oluşturmak için, diğeri ise kötü niyetli bir aktörün devlet bilgisayar ağında gizli kalmasına yardımcı olacak fikirler üretmek içindi.
Benzer bir yöntem, Pensilvanya Üniversitesi’nde yardımcı doçent olan Eric Wong liderliğindeki bir araştırma grubu tarafından geliştirildi. Robust Intelligence ve ekibinin geliştirdiği çözüm, sistemin yarı denemeyle jailbreak oluşturmasına olanak tanıyan ek iyileştirmeler içeriyor.
New York Üniversitesi’nde bilgisayar güvenliği ve makine öğrenimi üzerine çalışan doçent Brendan Dolan-Gavitt, Robust Intelligence tarafından ortaya çıkarılan yeni tekniğin, insan tarafından yapılan ince ayarın, modelleri saldırılara karşı korumanın sağlam bir yolu olmadığını gösterdiğini söylüyor.
Dolan-Gavitt, GPT-4 gibi büyük dil modellerinin üzerine sistemler kuran şirketlerin ek güvenlik önlemleri alması gerektiğini söylüyor. “Jailbreak’lerin kötü niyetli kullanıcıların erişmemesi gereken şeylere erişmesine izin vermemesi için LLM’leri kullanan sistemler tasarladığımızdan emin olmalıyız” diyor.