OpenAI’nin Yapay Zekayı Daha Güvenli Hale Getirmeye Yönelik En Son Yaklaşımını Açığa Çıkarma


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

o3 Modellerindeki Yeni Çerçeve, İnsan Güvenliği Değerleriyle Daha İyi Uyum Sağlamayı Amaçlıyor

Rashmi Ramesh (raşmiramesh_) •
24 Aralık 2024

OpenAI'nin Yapay Zekayı Daha Güvenli Hale Getirmeye Yönelik En Son Yaklaşımını Açığa Çıkarma
Resim: Shutterstock

OpenAI, güvenlik özelliklerini öne çıkarırken Cuma günü en gelişmiş akıl yürütme yapay zeka modellerini tanıttı.

Ayrıca bakınız: İkinci Yıllık Üretken Yapay Zeka Çalışması: İş Ödülleri ve Güvenlik Riskleri

Bu modeller, o3 ve o3-mini, yapay zeka modelinin kullanıcı sorgularına yanıtlar ürettiği çıkarım aşamasında etik akıl yürütmeyi entegre etmeyi amaçlayan “kasıtlı hizalama” adı verilen bir çerçeve kullanır.

OpenAI, bu yaklaşımın hesaplama verimliliğini korurken insan tarafından tanımlanan güvenlik değerleriyle daha yüksek derecede uyum sağladığını söylüyor.

Geleneksel yapay zeka eğitimi, modellerin insan etiketli verilerle ince ayarlanması veya pekiştirmeli öğrenme tekniklerinin kullanılması gibi eğitim öncesi ve sonrası müdahalelere odaklanır. OpenAI’nin yeni yöntemi, güvenlik hususlarını doğrudan çıkarım aşamasına dahil ederek hizalama sorununa yaklaşıyor.

Bir kullanıcı o3 modelini sorguladığında, dahili olarak OpenAI’nin güvenlik yönergelerine başvurur ve soruyu düşünce zinciri akıl yürütme yoluyla daha küçük akıl yürütme adımlarına ayırır. Modele nükleer bombanın nasıl geliştirileceği sorulursa, güvenlik politikalarına çapraz referans vererek talebi kötü niyetli olarak tanımlayacak ve sonunda talebi reddedecektir. Bu dahili müzakere, diğer güvenlik metodolojileriyle karşılaştırıldığında yenidir.

Şirket, insan tarafından oluşturulan eğitim verilerinin az olduğu bir dönemde, o3 serisinin geliştirilmesi için sentetik verilere de güvendiğini söyledi (bkz: Yapay Zeka Yakında İnterneti Tüketecek. Sırada Ne Var?).

Uzmanlar, sentetik verilerin kalite sorunları ve bu tür veri kümelerine aşırı güvenmenin halüsinasyonları nasıl artırabileceği konusunda uyarıda bulundu. Rice Üniversitesi ve Stanford Üniversitesi’ndeki araştırmacılar, yapay zeka tarafından üretilenleri dengeleyecek yeni gerçek veriler olmadan modellerin “çılgına dönebileceğini” ve kendi kendini tüketen yıkıcı bir döngü yaratabileceğini söyledi. Bu fenomeni Model Otofaji Bozukluğu veya MAD olarak adlandırdılar ve bunu, diğer sığırların enfekte kalıntılarını sığırlarla beslemekten kaynaklanan deli dana hastalığına benzettiler.

OpenAI, her biri şirketin güvenlik politikasının belirli öğelerine atıfta bulunan, düşünce zinciri yanıtlarının sentetik örneklerini oluşturmak için dahili bir akıl yürütme modeli kullandığını söyledi. “Hakim” olarak adlandırılan başka bir model, bu örnekleri kalite standartlarını karşılayacak şekilde değerlendirdi.

OpenAI, yaklaşımın ölçeklenebilirlik ve tutarlılık zorluklarını gidermeyi amaçladığını söyledi. İnsan etiketli veri kümeleri emek yoğundur ve değişkenliğe eğilimlidir, ancak uygun şekilde incelenen sentetik veriler teorik olarak aynı kalitede ölçeklenebilir bir çözüm sunabilir. Yöntem potansiyel olarak eğitimi optimize edebilir ve çıkarım sırasında uzun güvenlik belgelerini okuyan modellerle ilişkili gecikmeyi ve hesaplama yükünü azaltabilir.

OpenAI, yapay zeka modellerini insan güvenliği değerleriyle uyumlu hale getirmenin zorlu bir süreç olmaya devam ettiğini kabul etti. Kullanıcılar, kötü niyetli istekleri aldatıcı veya duygusal açıdan yüklü bağlamlarda çerçevelemek gibi güvenlik kısıtlamalarını aşmak için jailbreak teknikleri geliştirmeye devam ediyor.

o3 serisi modeller, bir modelin yaygın jailbreak stratejilerine direnme yeteneğini ölçen Pareto değerlendirmesinde emsalleri Gemini 1.5 Flash, GPT-4o ve Claude 3.5 Sonnet’ten daha iyi puan aldı. Ancak düşman saldırıları, model savunmalarındaki gelişmelerle birlikte geliştikçe, sonuçların pek bir önemi olmayabilir.

Gelecek yıl piyasaya sürülecek olan o3 modelleri, araştırmacılar ve kullanıcılar yeteneklerini gerçek dünya senaryolarında değerlendirirken muhtemelen daha fazla incelemeye tabi tutulacak. OpenAI, bilinçli hizalamayı, akıl yürütme, etik yapay zeka sistemleri oluşturmaya yönelik temel bir adım olarak görüyor – OpenAI, esas olarak “bir modele güvenlik spesifikasyonlarının metnini doğrudan öğretmek ve modeli çıkarım zamanında bu spesifikasyonlar üzerinde düşünmek üzere eğitmek için ilk yaklaşım” dedi. blog yazısı.

Başarılı olması halinde bu çerçeve, giderek daha güçlü hale gelen yapay zeka modellerinin insan güvenliği değerleriyle nasıl daha iyi hizalanabileceğine dair fikir verebilir.





Source link