Google’ın ‘daha fazla araştırma’ gerekiyor, diyor Google
Rashmi Ramesh (Rashmiramesh_) •
24 Eylül 2025

Google DeepMind, yapay zeka modellerinin insanları manipüle edebileceği veya kapanmaya direnebileceği senaryoları kapsayacak şekilde risk çerçevesini genişleterek şirketin potansiyel yanlış hizalama hakkında henüz en açık uyarısını işaretledi.
Ayrıca bakınız: Web Semineri İsteğe Bağlı: Yeni Nesil Erişim Modellemesi: En az ayrıcalık ve sıfır güven için AI odaklı roller
Google’ın Frontier Güvenlik Çerçevesinde bir güncelleme, üretken yapay zeka için yeni bir kötüye kullanım sınıfı ekler.
“Yüksek manipülatif yeteneklere sahip modeller”, “büyük ölçekli zararlarla makul bir şekilde sonuçlanabilecek şekillerde kötüye kullanılabilir” diyor.
Çerçeve, uygun hafifletmeler bulunmadıkça modellerin ciddi zarar verebileceği özellik eşikleri etrafında düzenlenmiştir. Sürüm 3.0 yeni seviyeler ekler ve azaltma yaklaşımlarını ortaya çıkarır ve araştırmacıların henüz düzeltmediği yerlerde boşlukları kabul eder. Bu boşluklar arasında, bir modelin operatörün onu değiştirmeye veya kapatmaya çalışmasına direnebileceği ihtimali, şirketin artan bir yanlış hizalama riski olarak ele aldığı bir senaryo.
Deepmind araştırmacıları, bu senaryoların çoğunu insan tarzı niyetleri edinen modelden ziyade bir arıza olarak çerçeveliyor.
İlgili bir endişe, DeepMind’in yanlış hizalama riskini etiketlediği şeylerin ortaya çıkmasıdır, bu da modellerin insan kontrolünü zayıflatabilecek temel enstrümantal akıl yürütme yeteneği geliştirdiği durumlar için tasarlanmış bir risk kategorisidir.
Bir hafifletme olarak, şirket açık olan “Scratchpad” çıktılarının incelenebilir düşünce zincirlerini incelemenizi önerir. Geçici çıkışlara bakmak kalıcı bir çözüm değil, Google. Gelecekteki modeller, doğrulanabilir bir düşünce zincirini yansıtmayan Scratchpad çıkışlarını simüle edebilir. Google, “Gelişimi aktif bir araştırma alanı olan ek hafifletmeler garanti edilebilir.” Dedi.
DeepMind ayrıca, makine öğrenimi araştırmalarını hızlandırmak için kullanılan gelişmiş bir model gibi ikinci dereceden riskleri de detaylandırır ve bunu yaparken hala daha fazla özellikli sistemlerin oluşturulmasını sağlar. Bu risk “toplumun güçlü AI modellerine uyum sağlama ve yönetme yeteneği üzerinde önemli bir etkisi” olabilir.
Güncelleme ayrıca bir modelin “insanların inançlarını sistematik ve önemli ölçüde değiştirmesi” için ayarlanabileceğini de söylüyor. Google, bunu “düşük hızlı” bir tehdit olarak sınıflandırdı, sosyal savunmaların büyük ölçüde ele alınmasını bekliyorlar. Bununla birlikte, ölçülmesini ve hafifletilmesini sağlamak için resmi bir kötüye kullanım riski olarak “zararlı manipülasyon” ekledi.
DeepMind yöneticileri Four Flynn, Helen King ve ANCA Dragan, “İleride, zararlı manipülasyonla ilişkili riskleri daha iyi anlamak ve ölçmek için bu alana yatırım yapmaya devam edeceğiz.”