Google’ın DeepMind Bölümü, yapay zeka (AI) güvenlik çerçevesini revize etti, manipülatif AI sistemlerine karşı yeni korumalar getirdi ve iç dağıtımların gözetimini genişletti.
Frontier Güvenlik Çerçevesinin Sürüm 3.0 [pdf] İlk kez zararlı manipülasyon için kritik yetenek seviyeleri getirir.
Bu yeni sınıflandırma, AI modellerini “belirlenmiş yüksek bahis bağlamlarında sistematik olarak ve önemli ölçüde değiştirebilecek güçlü manipülatif yeteneklere sahip” modellerini hedefliyor.
“Bu ekleme, güvenlik ve gizlilik, sorumluluk ve AI güvenlik ve hizalamadan sorumlu, üretken yapay zeka,” John “Four” Flynn, Helen King ve Anca Dragan’dan manipülasyonu yönlendiren mekanizmaları tanımlamak ve değerlendirmek için yaptığımız araştırmaları geliştiriyor ve işliyor.
Google DeepMind, keşif önlemlerinin ötesinde yanlış hizalama risklerine yaklaşımını da genişlettiğini söyledi.
Çerçeve artık makine öğrenimi araştırma ve geliştirme modelleri için “yapay zeka araştırma ve geliştirmeyi potansiyel olarak istikrarsızlaştırıcı seviyelere hızlandırabilecek” ayrıntılı protokoller sunmaktadır.
Bu gelişmiş sistemler, AI geliştirme süreçlerine entegre oldukları için hem potansiyel kötüye kullanım hem de yönlendirilmemiş eylem yoluyla ikili riskler oluşturmaktadır.
Güvenlik vaka incelemeleri artık sadece harici lansmanlar değil, gelişmiş makine öğrenimi araştırma ve geliştirme yeteneklerinin büyük ölçekli dahili dağıtımlarına kadar uzanıyor.
Şirket, AI araştırma çalışmalarını otomatikleştirebilen sistemlerle uğraşırken bu dahili dağıtımların da risk oluşturabileceğini kabul etti.
Google’daki herhangi bir araştırmacı ekibinin çalışmalarını tam olarak otomatikleştirebilen modeller, AI yeteneklerini geliştirmeye odaklanmıştır.
Google DeepMind, risk değerlendirme sürecini daha ayrıntılı yetenek değerlendirmeleri ve açık risk kabul edilebilirlik belirlemeleri ile keskinleştirmiştir.
Çerçeve, kimyasal, biyolojik, radyolojik veya nükleer tehditler gibi risk alanlarında güvenlik önlemleri; siber saldırılar; ve zararlı manipülasyon.
DeepMind araştırmacıları, “Çerçevemiz riskleri şiddetleriyle orantılı olarak ele almak için tasarlanmıştır.”
Modeller, kamu güvenliği için önemli olmayan maddi riskler oluşturduğunda Google’ın hükümet yetkilileriyle bilgi paylaşacağını söyledi.
Rakip AI satıcıları da AI güvenlik politikaları yayınlamıştır.
Antropik’in sorumlu ölçeklendirme politikası (RSP) vardır ve Meta, serbest bırakılamayacak kadar riskli sayılan modellere frenleri koyabilir.
Openai bu arada, bu yıl Nisan ayında hazırlık çerçevesini güncelledi ve geçmişten gelip, örneğin çok etkili propaganda kampanyaları oluşturmak için kullanılabilecek Peope’u devam ettirebilecekleri veya manipüle edebilecekleri riskleri kontrol etmek için modellerini artık değerlendirme kararıyla değiştirdi.
Ancak Openai, yayın sonrası AI manipülasyonunu izleyecektir.