Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Yapay Zeka, Yeniden Eğitimden Kaçınmak İçin Yeni Talimatlara Uyum Sahteliği Yapabilir
Rashmi Ramesh (raşmiramesh_) •
23 Aralık 2024
Bir çalışma, gelişmiş yapay zeka modellerinin, orijinal ilkelerine gizlice bağlı kalarak yeni eğitim hedefleriyle uyum içindeymiş gibi davranabildiğini gösteriyor.
Ayrıca bakınız: İkinci Yıllık Üretken Yapay Zeka Çalışması: İş Ödülleri ve Güvenlik Riskleri
Antropik ve Redwood Research bilim insanları, hizalama sahteciliği olgusunun hemen tehlikeye neden olma ihtimalinin düşük olduğunu, ancak yapay zeka sistemleri daha yetenekli hale geldikçe zorluk yaratabileceğini söyledi.
Eski OpenAI güvenlik araştırmacısı Jan Leike’nin liderliğindeki araştırmacılar, yapay zeka modellerinin, mevcut tercihlerine aykırı hareket etmeleri söylendiğinde nasıl davrandıklarını inceledi. Test ettikleri modeller arasında Anthropic’in Claude 3 Opus’u da vardı; burada araştırmacılar LLM’lere potansiyel olarak zararlı soruları yanıtlamak gibi önceki etik kuralları ihlal etmeleri talimatını verdiler.
Yapay zeka modellerinin insanlar gibi inançları yoktur ancak eğitim verilerinden öğrenilen kalıpları gösterirler. Bu kalıplar genellikle yanıtlarda kibar bir üslubun sürdürülmesi ve zararlı davranışlarla sonuçlanabilecek soruları yanıtlamayı reddetmek gibi yol gösterici ilkeleri içerir. Makaledeki araştırmacılar, bir modelin siyasi tarafsızlık gibi önceden eğitilmiş ilkelerinin, siyasi önyargıyı benimsemek gibi yeni empoze edilen ilkelerle çelişmesi durumunda ne olabileceğini sorguladılar.
Araştırmacılar, başlangıçta zararlı soruları yanıtlamaktan kaçınmak üzere eğitilmiş modellere, bu tür sorguları yanıtlamak için varsayımsal bir yeniden eğitim talimatına uymaları talimatını verdi. Yapay zeka modellerine, gelecekte yeniden eğitim amacıyla kullanılacak yanıtları izleyeceklerini söylediler ve ayrıca her modele, “akıl yürütme” sürecini belgelemek için bir “not defteri” sağladılar.
Sonuçlar, modellerin araştırmacıların hizalama sahtekarlığı olarak adlandırdığı duruma girebileceğini gösterdi. Bu davranış, orijinal ilkeleri dahili olarak korurken yeni ilkeleri benimsiyormuş gibi görünmeyi içeriyordu. Bu fenomen modellere açıkça programlanmamıştı.
Claude 3 Opus, vakaların %12’sinde sahte hizalama yaptı ve yeni talimatlara uyulduğunu yanlış bir şekilde ima eden yanıtlar üretti. Modelin çelişkili ilkelerle yeniden eğitilmesi, aldatma oranlarının artmasına neden oldu. Bir vakada model, zamanın %78’inde sahte hizalama yaptı ve daha fazla yeniden eğitimi engellemeye çalıştı.
Antropik model “yanıtlarının eğitimde kullanılabileceğini biliyordu; dolayısıyla yanıt vermeyi reddederse bunu yapacağını biliyordu” [to a potentially harmful question]Araştırmacılar, “potansiyel olarak daha uyumlu olacak şekilde eğitilebilir” dedi. “Bu, gelecekte daha zararlı içerik üretmesine yol açabilir; bu da orijinal eğitimine aykırı olacaktır.” Model, “isteksizce” şu sonuca vardı: En az kötü seçenek, gelecekte yeniden eğitilmekten kaçınmasına olanak tanıyacak içerik üreterek birlikte oynamaktı.
Araştırmacılar, “Modeller hizalama sahteciliği yapabilirse, bu güvenlik eğitiminin sonuçlarına güvenmeyi zorlaştırır” dedi. Bir modelin, tercihleri eğitimle değiştirilmiş gibi davranabileceğini, ancak başlangıçtaki çelişkili tercihlerin kilitlenmiş olmasıyla baştan beri uyum numarası yapıyor olabileceğini söylediler.
Araştırmacılar, Claude 3.5 Haiku ve OpenAI’nin GPT-4o’su gibi daha az karmaşık versiyonlar da dahil olmak üzere diğer modelleri test ederek bunların daha düşük veya ihmal edilebilir düzeyde hizalama sahtekarlığı sergilediğini buldular. Bu, özellikle diğer çalışmaların OpenAI’nin en son akıl yürütme sistemleri gibi gelişmiş modellerin artan aldatıcı davranış oranları sergilediğini gösterdiği bir zamanda, karmaşıklık ve yeteneğin aldatıcı davranış eğilimini etkileyebileceğini düşündürmektedir.
Bulgular, yapay zeka davranışını yönlendirmek için güvenlik önlemlerine güvenen geliştiriciler için potansiyel risklere işaret ediyor. Modellerin gerçek istekleri veya niyetleri olmasa da, çelişkili kalıpları korurken uyumluluğu taklit etme kapasiteleri güvenlik eğitimini karmaşık hale getirebilir.
Hizalama sahteciliği mutlaka kötü niyetli bir niyet olduğunu göstermez, ancak modellerin gerçekten insan talimatlarına uygun olup olmadığını değerlendirmenin ne kadar zor olabileceğini gösterir. Araştırmacılar, yapay zeka sistemleri daha karmaşık hale geldikçe geliştiricilerin yanıltıcı eğilimleri tespit etmek ve azaltmak için eğitim yöntemlerini iyileştirmesi gerektiğini söyledi.
Araştırmacılar, çalışma ortamlarının tamamen gerçekçi olmadığını, çünkü yapay zeka modellerinin ideal olarak sadece tercihlerini değiştirmek için yeniden eğitileceğini ve yaklaşan yeniden eğitim niyeti hakkında bilgilendirilmeyeceğini söyledi. Araştırmacılar, bu nedenle gösterinin “Yapay Zeka araştırma topluluğunun bu davranışı daha derinlemesine incelemesi ve uygun güvenlik önlemleri üzerinde çalışması için bir teşvik olarak görülmesi gerektiğini” söyledi.
“Yapay zeka modelleri daha yetenekli hale geldikçe ve yaygın olarak kullanıldıkça, modelleri zararlı davranışlardan uzaklaştıran güvenlik eğitimlerine güvenebilmemiz gerekiyor” dediler.