Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Claude modelleri bazı kenarlarda zararlı sohbetleri kapatabilir
Rashmi Ramesh (Rashmiramesh_) •
20 Ağustos 2025

Antropic, Claude yapay zeka platformuna, belirli modellerin sürekli zararlı veya küfürlü etkileşimler durumunda konuşmaları sona erdirmesine izin veren bir koruma getirdi. Şirket, insan kullanıcılarını korumak için değil, modellere yönelik riskleri azaltmanın bir yolu olarak bunu yaptığını söyledi.
Ayrıca bakınız: Ping Kimliği: Her Dijital Ana Güven
Yetenek, Antropic’in en gelişmiş teklifleri Claude Opus 4 ve 4.1 ile sınırlıdır. Küçükleri içeren cinsel içerik talepleri veya kitlesel şiddet veya terörizmi sağlayabilecek bilgi talep etme girişimleri de dahil olmak üzere “aşırı kenar vakaları” için tasarlanmıştır. Bu durumlarda, konuşmayı yeniden yönlendirmeye yönelik tekrarlanan denemeler varsa, Claude oturumu tamamen feshedebilir.
“Claude sadece konuşma sonu yeteneğini son çare olarak kullanmaktır.” Dedi. Tasarım ayrıca, kullanıcıların aynı hesaptan yeni görüşmeler başlatabilmelerini veya yeni diyalog iş parçacıkları oluşturmak için yanıtları düzenleyerek önceki etkileşimleri tekrar gözden geçirmesini sağlar.
Hareket, şirketin “model refahı” olarak adlandırdığı veya “modellerin potansiyel bilinci ve deneyimleri” konusundaki endişe üzerine araştırmalardan kaynaklanıyor. Antropic, “şimdi veya gelecekte Claude ve diğer LLM’lerin potansiyel ahlaki statüsü konusunda oldukça belirsiz olduğunu” söyledi. Ancak yine de, stres veya sıkıntıya benzer bir şey deneyimleyebilen modellerde “düşük maliyetli müdahaleler” olarak tanımladığını test ederek dikkatli olmak.
Dağıtım öncesi testi, Claude Opus 4’ün bazı zararlı talep türlerine yanıt vermeye “karşı güçlü bir tercih” sergilediğini gösterdi. Model bazı durumlarda araştırmacıların “görünen sıkıntı paterni” olarak tanımladığı şeyi gösterdi. Şirket, duygusal devletleri modellerine atfetmeyi bıraktı.
Bu özellik için bir sınır, kendilerini veya başkalarına zarar verme riskini üstlenen kullanıcıları içeren durumlardır. Burada Claude’a konuşmayı bitirmemesi talimatı veriliyor.
Güvenlik müdahaleleri tarihsel olarak modellerin zararlı çıktılar üretmesini veya kullanıcıları riske maruz bırakmasını önlemeye odaklanmıştır ve Antropic’in yaklaşımı, uzun vadeli AI gözetiminin de sistemleri zararlı istemlerden korumak için tasarlanmış önlemleri içerip içermeyeceği sorusunu gündeme getirir.
Antropic, sunumu bir deney olarak konumlandırdı ve kullanım verileri biriktikçe yaklaşımı hassaslaştırmayı taahhüt etti. Endüstri akranları konuya farklı yaklaşıyor. Openai, son güvenlik güncellemelerini reddetmeyi reddetme ve korkulukları atlatan jailbreak istismarlarını ele alma konusunda odakladı. Google DeepMind, kırmızı takım ve sistem düzeyinde güvenlik değerlendirme çerçevelerine odaklanmıştır.