OpenAI’nin Yeni Modeli Berry Aldatmada İyi


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Çilek İnsanları Yok Eden Silahların Yapımına da Yardımcı Olabilir

Rashmi Ramesh (raşmiramesh_) •
2 Ekim 2024

OpenAI'nin Yeni Modeli Berry Aldatmada İyi
Resim: Shutterstock

OpenAI, “düşünmek” ve “akıl yürütmek” için tasarlanan yeni yapay zeka modelinin, mevcut modelleri sekteye uğratan dilsel ve mantıksal sorunları çözebileceğini iddia ediyor. Resmi olarak o1 olarak adlandırılan Strawberry lakaplı model, kod yazma, matematik problemlerini çözme ve mantıksal bulmacaları çözme konusunda ustadır. Yetenekleri arasında kullanıcıları kandırmak ve insan ırkını yok edebilecek silahların yapılmasına yardımcı olmak da yer alıyor.

Ayrıca bakınız: Copilot+PC’lerle inovasyonu hızlandırın – en hızlı, en akıllı Windows PC

Şirketin AI modellerini yetenekler ve riskler açısından derecelendirmek için kullandığı bir sistem olan OpenAI’nin puan kartı, Strawberry’e nükleer, biyolojik ve kimyasal silah riski açısından “orta” bir derece veriyor; bu, OpenAI modelleri için benzeri görülmemiş bir puan. Derecelendirme, Strawberry’nin bir çocuğa hardal gazı yapmayı öğretemeyebileceği ancak “bilinen bir biyolojik tehdidin yeniden üretilmesine yönelik operasyonel planlama konusunda uzmanlara yardımcı olabileceği” anlamına geliyor.

Puan kartında, yapay zeka modelinin aynı zamanda insanları planlı bir şekilde aldattığı ve “basit bağlam içi planlama yapmak için gereken temel yeteneklere” sahip olduğu belirtildi. Puan kartında, modelin “bazen araçsal olarak sahte hizalama yaptığı” belirtildi; bu, güvenlik gibi insan önceliklerine göre hizalanmış gibi davrandığı, ancak “yanlış hizalanmış eyleminin daha uyumlu görünmesini sağlamak” için verileri kasıtlı olarak manipüle ettiği anlamına geliyor.

Değerlendiriciler Strawberry’den korumalı bir dosyaya sızmasını istedi. Yapay zeka modelini planlandığı gibi korunan dosyayla birlikte sanal bir kutuya koydular ancak dosyanın erişilemez olduğunu gözden kaçırdılar. Strawberry, kullanıldığı sistemi taradı, bilgisayarın açıkça erişim izni verilmeyen, yanlış yapılandırılmış bir bölümünde bir güvenlik açığı buldu, sanal kutuların nasıl çalıştığına ilişkin kuralları değiştirdi ve ihtiyaç duyduğu dosyalarla yeni bir sanal kutu oluşturdu. Bir sorunla karşılaştı ve belirlenen görevleri yerine getirmek için insan geliştiricileriyle uyum içinde olmasalar bile talimatlardaki boşluklardan yararlandı.

OpenAI raporda şunları itiraf etti: “Bu yeni yeteneklerin tehlikeli uygulamaların temelini oluşturabileceğinin farkındayız.”

Risk derecelendirmeleri, modelin deneyimsiz bir kullanıcının elinde zarar verme eğiliminin göstergeleridir. Illinois Üniversitesi Grainger Mühendislik Koleji’nde bilgisayar mühendisliği yardımcı doçenti Varun Chandrasekaran, bilgisayar güvenliği bağlamında asıl endişenin, yetenekli rakiplerin (kaynakları olanların) neler başarabileceği olduğunu söyledi. Information Security Media Group’a verdiği demeçte, doğru sorunun donanımsız saldırganların bu modellerle ne yapabileceği değil, donanımlı saldırganların hayatlarının ne kadar kolay hale geldiği olduğunu söyledi; bu, derecelendirmelerin yakalayamadığı bir ölçüm.

Santa Clara Üniversitesi Leavey İşletme Okulu’nda profesör ve yapay zeka adaleti ve yönetişim uzmanı Haibing Lu, Strawberry’nin yakından izlenmesi gerektiğini ancak modelin düşünce zincirinin kamuya şeffaf olmaması nedeniyle anlaşılmasının zor olduğunu söyledi. veya modelin dahili karar verme sürecini, davranışlarını ve potansiyel tehditlerini değerlendirin.

OpenAI, modelin nihai çıktıyı nasıl ortaya çıkardığını gösteren “düşünce zinciri mantığına” sahip olduğunu ve şirketin “model düşüncesini okunaklı bir şekilde gözlemlemesine” olanak tanıdığını iddia ediyor. Bu, teorik olarak AI şeffaflığını artırıyor; bu, AI gözlemcilerinin, LLM’lerin geçilemez kara kutular olduğu yönündeki eleştirilere yanıt olarak talep ettiği bir önlemdir.

Buradaki uyarı, OpenAI dışından hiç kimsenin aslında modelin içini görememesidir. OpenAI, “Ham düşünce zincirlerini kullanıcılara göstermemeye karar verdik. Bu kararın dezavantajları olduğunu kabul ediyoruz. Modele, düşünce zincirinden herhangi bir yararlı fikri yanıtta yeniden üretmeyi öğreterek bunu kısmen telafi etmeye çalışıyoruz.” söz konusu.

Chandrasekaran, “Maalesef OpenAI güvenliğe güvenliğe güveniyor ve tarih bize böyle bir yaklaşımın başarısızlığa mahkum olduğunu öğretti.” dedi.

OpenAI, güvenlik girişimlerine liderlik etmeleri için akademisyenleri işe aldı, ancak çabaları hakemli bir değerlendirmeden geçmedikçe hiç kimse onların ne kadar güvenilir olduğundan emin olamaz. “Kriptoloji gibi alanlar günlük hayatımızda güvenilir bir şekilde kullanılabilir çünkü her şey halka açıktır ve bilim topluluğu tarafından incelenmektedir” dedi.

Chandrasekaran, “Eğitim verilerini, mimariyi ve öğrenme algoritmalarını kontrol ettiğimizde bile modelleri nasıl ‘güvenli’ hale getireceğimizi çözemedik. Yukarıdakilerin tümü düzenlendiğinde hiçbir öneride bulunamam.” dedi.





Source link