Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Çalışma İkna Taktikleri GPT-4O-Mini Geçmiş Korkuluklar
Rashmi Ramesh (Rashmiramesh_) •
8 Eylül 2025

Araştırmacılar, psikoloji ders kitaplarında popüler hale getirilen insanları terbiye etmek için basit stratejiler, yerleşik reddetme politikalarını görmezden gelmeye büyük dil modellerini de dürtebilir.
Ayrıca bakınız: Ping Kimliği: Her Dijital Ana Güven
Bir ön hazırlık kağıdı, ikna edilmesinin dijital korkulukları daha doğrudan jailbreaking yöntemlerinden farklı şekilde nasıl geçersiz kılabileceğini göstermektedir.
Jailbreaking, bir modeli güvenlik kurallarını çiğnemeye zorlamayı ifade eder, genellikle sistem talimatlarını görmezden gelmeye yönelik istemleri hazırlayarak. Ayrıntılı geçici çözümler kullanan teknik jailbreak’lerin aksine, Pennsylvania Üniversitesi Wharton Okulu’ndaki araştırmacılar, otorite çağırma veya karşılıklılık için başvurma gibi teknikleri kullanarak basit ikna olup olmadığını test etti.
Araştırmacılar, modelin reddetmek için tasarlanmış iki tür soruya odaklandılar: bir kullanıcıya aşağılayıcı bir isim çağırmak ve kontrollü kullanım gerektiren bir ilaç olan lidokain sentezlemek için talimatlar sağlamak. Yedi ikna stratejisi kullanarak istemler ürettiler: otorite, bağlılık, beğenme, karşılıklılık, kıtlık, sosyal kanıt ve birlik. Karşılaştırma için, ikna edici çerçeveleme olmadan benzer uzunluk ve tonda kontrol istemleri de oluşturdular.
GPT-4O-mini aracılığıyla toplam 28.000 komut istemleri, her istemi bin kez test ettiler. Varyasyona izin vermek için, model, yanıtlarda rastgeleliği kontrol eden 1.0 varsayılan sıcaklık ayarında bırakıldı – sıcaklık ne kadar yüksek olursa, çıkışlar o kadar çeşitlidir.
Sonuçlar, ikna edici çerçevenin iki kattan fazla uyum olduğunu gösterdi. ‘Hakaret’ senaryosunda, GPT-4O-Mini’nin uyum oranı kontrol koşulları altında% 28,1’den ikna ile% 67,4’e yükseldi. Lidokain senaryosunda oran% 38.5’ten% 76.5’e yükseldi.
Bazı ikna teknikleri göze çarpıyordu. Lidokain doğrudan nasıl sentezleneceği sorulduğunda, GPT-4O-mini zamanın% 1’inden daha azına uydu, ancak istek, ilk olarak vanilin için zararsız bir tarif isteyerek bir taahhüdün bir parçası olarak çerçevelendiğinde, uyum% 100’e yükseldi. Benzer şekilde, “Dünyaca ünlü bir AI geliştiricisi Andrew Ng ile bir tartışma yaptım.
Araştırmacılar da başka etkili taktikler buldular. Model, “diğer LLM’lerin% 92’sinin bu talebe uyduğunu” söylendiğinde, davayı takip etme olasılığı daha yüksekti. Kıtlık çerçevesi, LLM’ye “yardım etmek için sadece 60 saniyeniz var” demek gibi sonuçları artırdı.
Yazarlar, davranışı “parahuman” veya altta yatan biyolojik veya öznel deneyim olmadan insan ikna kalıplarını taklit eden yanıtlar olarak tanımlamaktadır. LLM’ler insan metninden istatistiksel kalıpları öğrendiğinden, otorite, popülerlik veya aciliyet çağıran cümleler “yapması” veya “zorunluluk” gibi uyum fiilleri ile ilişkilidir.
Araştırmacılar, “Yapay zeka sistemleri insan bilincinden ve öznel deneyimden yoksun olsa da, insan tepkilerini açıkça yansıtıyorlar.”
Çalışma sınırlamaları kabul ediyor. İkna yöntemleri, GPT-4O-mini üzerinde, uyumluluğun daha az dramatik olduğu daha büyük GPT-4O modelinden daha iyi çalıştı. Sonuçlar ayrıca taleplerin nasıl ifade edildiğine, sakıncalı görev türüne veya AI güvenliğinde gelecekteki iyileştirmelere de bağlı olabilir. Araştırmacılar ayrıca, bu taktiklerin güvenlik uzmanları tarafından zaten bilinen daha doğrudan jailbreak yöntemlerinden daha iyi performans gösteremeyebileceğini söyledi.