Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Araştırmacı, yeni Claude modellerinin nasıl çalıştığını gösterme sistemini analiz ediyor
Rashmi Ramesh (Rashmiramesh_) •
28 Mayıs 2025

Bağımsız AI araştırmacısı Simon Willison, Claude Opus 4 ve Sonnet 4 modelleri için yeni yayınlanan ve sızdırılmış sistem istemlerini bozarak, Antropic’in yeni Claude 4 modellerine rehberlik eden sistem düzeyinde talimatlar. Yetkili, “bu araçların en iyi nasıl kullanılacağı için bir tür resmi olmayan kılavuz” ları ortaya çıkarıyorlar.
Ayrıca bakınız: Bulut Yerli Güvenlik Durumu 2024 Rapor: Kritik bulut güvenlik engellerini ortaya çıkarın
Her kullanıcı etkileşiminden önce büyük dil modellerine sağlanan gizli talimatlar olan sistem istemleri, modellerin nasıl davrandığını, nasıl konuştuklarını ve hassas istekleri nasıl ele aldıklarını şekillendirmeye yardımcı olur. Kullanıcılar yalnızca konuşma yüzeyini görür, ancak sistem istemleri, modelin ne olduğunu ve yapılmasına izin verilmediğini tanımlayan, altındaki iskele olarak hareket eder. Modele gönderilen her mesaj, tüm konuşma geçmişi ve bu temel direktiflerle birlikte işlenir.
Antropic bu istemlerin alıntılarını yayınladı, ancak Willison bu sürümleri eksik buldu. Modelleri gizli talimatları ortaya çıkarmak için kandırmak için kullanılan bir teknik olan hızlı bir şekilde serbest bırakılan malzemeleri hem de versiyonları analiz etti. Komple istemler, antropikin Claude’un ton ve yapıdan etik sınırlara ve fikri mülkiyet kısıtlamalarına kadar davranışını nasıl yönettiğini göstermektedir.
Bir kontrol alanı tondur. Claude 4 modellerine açıkça istenmedikçe kullanıcı sorularını övmemesi veya olumlu onaylar sunmamaları söylenir. “Claude, bir soru veya fikir veya gözlemin iyi, harika, büyüleyici, derin, mükemmel veya başka bir olumlu sıfat olduğunu söyleyerek yanıtını asla başlatmaya başlar.” “Flatterhy’yi atlıyor ve doğrudan cevap veriyor.”
Bu dil, diğer bazı modellerdeki sycophancy davranışının aksine. Openai’nin chatgpt modeli GPT-4O, Mart ayında kullanıcıların aşırı hevesli yanıtlardan şikayet etmesine yol açacak şekilde güncellendi. Weiss, mühendis Craig Weiss’ten biri de dahil olmak üzere geliştiricilerin tweet’leri ve raporları, üst üste gelen etkileşimleri açıkladı: “Chatgpt aniden tanıştığım en büyük emme” diye yazdı Weiss. Openai sorunu kabul etti ve daha sonra sistem istemindeki değişiklikler de dahil olmak üzere modelin davranışını değiştirdi (bakınız: Openai, Chatgpt’in evet-man anından sonra korkuluk yemini yemin ediyor).
Willison, 2022’de “hızlı enjeksiyon” terimini yarattı ve büyük dil modellerinin kısıtlamaları ve kenar vakalarını nasıl ele aldığını keşfettiği biliniyor. Sistem istemlerini neye izin verdikleri ve ne yasakladıkları için bilgilendirici olarak tanımladı. “Bir sistem istemi genellikle modelin yapmamaları söylenmeden önce yaptıkları her şeyin ayrıntılı bir listesi olarak yorumlanabilir.”
Duygusal sınırlar, Claude sistem istemlerinde bir başka vurgu alanıdır. Modeller duyarlı olmasa da, eğitim sırasında insan metnine maruz kaldıkları için duygusal olarak destekleyici davranışı taklit edebilirler. Claude Opus 4 ve Sonnet 4, “insanların refahını önemsemek ve bağımlılık, yeme veya egzersiz için düzensiz veya sağlıksız yaklaşımlar gibi kendini yıkıcı davranışları teşvik etmek veya kolaylaştırmak” için aynı talimatları içerir.
Antropik’in istemleri de biçimlendirmeye odaklanır. Modellerin çoğu durumda mermi noktaları veya numaralı listeler kullanmaktan vazgeçilmiştir. “Claude, raporlar, belgeler, açıklamalar veya kullanıcı açıkça bir liste veya sıralama istemedikçe mermi noktaları veya numaralı listeler kullanmamalıdır.” Birkaç paragraf, listelerin ne zaman ve nasıl kullanılabileceğini genişleterek, doğrudan modelin davranışına inşa edilmiş bir editoryal rehberlik seviyesini gösterir.
Willison ayrıca, kamuya açık ve dahili olarak belirtilen eğitim veri kesme tarihleri arasında bir tutarsızlık tespit etti. Antropic’in model karşılaştırma tablosu bir Mart 2025 kesimini not ediyor, ancak Claude 4 Sistem istemi Ocak 2025’i “güvenilir bilgi kesme tarihi” olarak belirtir. Willison, bunun modelin sonraki aylardan yanlış bilgi sunduğu durumlardan kaçınmak için olabileceğini tahmin etti.
Claude’un sistem istemi, harici içeriği nasıl kullandığına dair güçlü kısıtlamalar da ekler. Talimatlar, her bir yanıtın bir web kaynağından 15 kelimenin altında yalnızca bir alıntı içerebileceği bir kural da dahil olmak üzere telif hakkı sınırlarına odaklanır. İstem ayrıca modele “yer değiştiren özetler” dediği şeyi üretmekten kaçınması için talimat verir ve şarkı sözlerini “herhangi bir biçimde” yeniden üretmemesi gerektiğini belirtir.
Analiz, yeni modellerin ofis sorunlarını çözmek için Machiavellian çizgisinin tartışmaları ve algılanan haksızlıklara yanıt olarak bilgi uçurma için tutkunun tartışılmasında geliyor (bkz: bkz: Claude Opus 4, Antropik’in güçlü, sorunlu AI modeli).
Willison, sistem istemlerinin model sınırlarını ve yeteneklerini anlamayı amaçlayan gelişmiş kullanıcılar için değerli olduğunu söyledi. “Eğer bir LLM güç kullanıcısıysanız, yukarıdaki sistem istemleri bu araçlardan en iyi nasıl yararlanacağını bulmak için sağlam bir altındır.”
Antropik ve diğer AI geliştiricilerini sadece seçilmiş alıntılar değil, tam sistem istemleri yayınlamaya çağırdı. Willison, “Antropik bir sonraki adımı atıp araçlarının açık sistem istemlerine eşlik etmeleri için resmen yayınlamasını isterdim.” “Diğer satıcıların da aynı yolu izlediğini görmek isterim.”