Sonunda Ağustos ayında yapay zeka şirketi Anthropic, sohbet robotu Claude’un kimsenin nükleer silah yapmasına yardım etmeyeceğini duyurdu. Anthropic’e göre şirket, Claude’un nükleer sırları ifşa etmeyeceğinden emin olmak için Enerji Bakanlığı (DOE) ve Ulusal Nükleer Güvenlik İdaresi (NNSA) ile ortaklık kurmuştu.
Nükleer silah üretimi hem kesin bir bilim hem de çözülmüş bir sorundur. Amerika’nın en gelişmiş nükleer silahlarına ilişkin bilgilerin çoğu Çok Gizlidir, ancak orijinal nükleer bilim 80 yıllıktır. Kuzey Kore, bombayı ele geçirmekle ilgilenen kendini adamış bir ülkenin bunu yapabileceğini ve bir chatbot’un yardımına ihtiyaç duymadığını kanıtladı.
ABD hükümeti bir chatbot’un hassas nükleer sırları yaymadığından emin olmak için bir yapay zeka şirketiyle tam olarak nasıl çalıştı? Ve ayrıca: Bir chatbot’un birisinin nükleer bomba yapmasına yardım etmesi tehlikesi var mıydı?
İlk sorunun cevabı Amazon’u kullanmasıdır. İkinci sorunun cevabı ise karmaşık.
Amazon Web Services (AWS), devlet müşterilerine hassas ve gizli bilgileri depolayabilecekleri Çok Gizli bulut hizmetleri sunmaktadır. DOE, Anthropic ile çalışmaya başladığında zaten bu sunuculardan birkaçına sahipti.
Anthropic’te Ulusal Güvenlik Politikası ve Ortaklıkları denetleyen Marina Favaro, WIRED’e şunları söyledi: “NNSA’nın yapay zeka modellerinin nükleer riskler yaratıp yaratmayacağını veya bunları artırıp artıramayacağını sistematik olarak test edebilmesi için Claude’un o zamanki sınır versiyonunu Çok Gizli bir ortamda kullandık.” “O zamandan beri NNSA, birbirini izleyen Claude modellerini güvenli bulut ortamlarında bir araya getiriyor ve bize geri bildirim sağlıyor.”
NNSA’nın kırmızı ekip oluşturma süreci (yani zayıflıkların test edilmesi), Anthropic ve Amerika’nın nükleer bilim adamlarının chatbot destekli nükleer programlar için proaktif bir çözüm geliştirmesine yardımcı oldu. Favaro, birlikte “Yapay Zeka konuşmaları için karmaşık bir filtre gibi düşünebileceğiniz bir nükleer sınıflandırıcıyı birlikte geliştirdiler” diyor. “Bunu, NNSA tarafından geliştirilen nükleer risk göstergeleri, belirli konular ve bir konuşmanın ne zaman zararlı bir alana sapabileceğini belirlememize yardımcı olan teknik ayrıntılardan oluşan bir liste kullanarak oluşturduk. Liste kontrol ediliyor ancak sınıflandırılmıyor, bu çok önemli, çünkü teknik personelimizin ve diğer şirketlerin bunu uygulayabileceği anlamına geliyor.”
Favaro, sınıflandırıcının çalışmasını sağlamak için aylarca ince ayar ve test yapılması gerektiğini söylüyor. “Nükleer enerji veya tıbbi izotoplarla ilgili meşru tartışmaları işaretlemeden ilgili konuşmaları yakalıyor” diyor.