Chatgpt ajanı gerçekten vaatlerini yerine getirebilir mi?


Ajan AI, Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Gelişim

Openai’nin yeni temsilcisi, sınırlar ve gizlilik endişeleri arasında görevleri otomatikleştirir

Rashmi Ramesh (Rashmiramesh_) •
23 Temmuz 2025

Chatgpt ajanı gerçekten vaatlerini yerine getirebilir mi?
Resim: Shutterstock

Openai’nin yeni chatgpt temsilcisi kodlayabilir, göz atabilir ve e -posta gönderebilir. Dijital yönetici asistanı olarak pazarlanan temsilci, rapor oluşturmak, elektronik tabloları analiz etmek veya adayları tedarik etmek gibi karmaşık, çok aşamalı iş akışlarını otomatikleştirmek için tasarlanmıştır. Bir masaüstü işletim sistemini taklit eden sanal bir ortamdaki araçlar arasında akıcı bir şekilde geçiş yapan Gmail, GitHub ve Google tabakaları gibi uygulamaları çalıştırabilir.

Ayrıca bakınız: Kavram kanıtı: AI ajanlarının yaşı için kimliği yeniden düşünmek

Ancak bu görevleri güvenilir bir şekilde gerçekleştirip gerçekleştiremeyeceği ve kullanıcıların hassas bilgilerle güvenmesi gerekip gerekmediği açık bir sorudur.

Temsilci tamamen Openai’nin kum havuzu altyapısında çalışır. Şirket, Openai tarafından kontrol edilen bir sanal tarayıcı, dosya sistemi ve işletim sistemi kullanarak bir kullanıcının yerel cihazına dokunmadığını söyledi. Arayüz Chatgpt’in açılır menüsünde görünür ve profesyonel, ekip, işletme ve eğitim abonelerine sunuluyor.

Openai, ajanın “bu görevleri kendi sanal bilgisayarını kullanarak gerçekleştirdiğini, akıl yürütme ve karmaşık iş akışlarını baştan sona, hepsi talimatlarınıza göre ele almak için eylem arasında akıcı bir şekilde değiştiğini” söyledi.

Performansı karışık. Yapılandırılmış kriterlerde, ajan etkileyici puanlar yayınladı. Veri analizini ve modelleme becerilerini değerlendiren DSBench’te, ortalama insan kullanıcılarının 20 puan önünde yaklaşık%90 puan aldı. Ayrıca, e -tablo görevleri için web araması ve e -tablo görevleri için browsecamp’ta iyi performans gösterdi, ancak Openai karşılaştırmaları karmaşıklaştırarak benchmark yazarlarından farklı araçlar kullandı.

Ancak açık uçlu, gerçek dünya görevlerini yerine getirme yeteneği çok daha az güvenilirdir. Karmaşık akıl yürütme ve tehdit analizini test eden bir siber güvenlik simülasyonunda, ajan ek ipuçları aldıktan sonra bile görevini tamamlayamadı. Openai ayrıca, testteki başarısızlığının, ajanın hala eğitim modellerinin ötesinde genelleme yapmak için mücadele ettiğini gösterdiğini itiraf etti.

Oxford Üniversitesi’nde iş teknolojisi uzmanı Dominik Lukes, “Ne kadar iyi? Selefi operatörünün aksine, Ajan aslında faydalı şeyler yapabilir.” “Ama doğru şeyler olmaları gerekiyor.”

Uygulamada bu, ajanın, isim bulmak, içerik hazırlamak veya tıklama ağır görevleri otomatikleştirmek gibi, ancak belirsizlik, yaratıcılık veya yargı-ağır ödevlerle mücadele etmek gibi sıkı bir şekilde kapsamlı, iyi yapılandırılmış iş akışlarında mükemmel olduğu anlamına gelir.

AI danışmanı Johannes Sundlo, “Chatgpt ajan kaynak adayları olabilir mi? Evet, yapabilir,” dedi. “Bu her şeyi değiştirecek mi? Hayır. Şu anda değil.”

Bu sınırlar yeni risklerle birlikte gelir. Temsilci e-postaları okuyabildiğinden, takvimlere erişebildiğinden ve üçüncü taraf platformlarla etkileşime girebileceğinden, gizlilik ve güvenlik endişeleri getiren yüksek izinler talep eder. AI, Teknik ve Gizlilik Akademisi’nin kurucu ortağı Luiza Jarovsky, “Bir AI ajanının görev gerçekleştirmesine izin vermenin gizliliği ve güvenlik riskleri, sunabileceği verimlilik avantajlarından daha ağır basacaktır.” “Ama insanlar hype, merak nedeniyle ya da şirketleri ‘önce AI’ olduğu için AI ajanlarını kullanacaklar.”

Openai, bu tür riskleri azaltmanın korkulukları olduğunu söylüyor. Kullanıcılar, e -posta gönderme veya satın alma işlemi gibi hassas eylemleri onaylamalıdır ve acente, kullanıcıların müdahale edebilmesi için akıl yürütme sürecini ‘saat modunda’ gösterir. Sistem, acentenin davranışını ele geçirebilecek web sitelerine gömülü kötü niyetli metin olan hızlı enjeksiyonu tespit etmek ve engellemek için tasarlanmış sınıflandırıcıları içerir. Openai, bu otomatik oturumlar sırasında şifreler gibi hassas bilgileri günlüğe kaydetmediğini söylüyor.

Ajan oturumları ayrıca varsayılan olarak bellek kapalı olarak çalışır ve uzun vadeli veri sızıntısı riskini en aza indirir. Kullanıcılar, geçmiş tüm aracı etkinliklerini tek tıklatan ‘Gözetleme Verilerini Temizle’ seçeneğiyle silebilir.

Sistemin bazı kısımları hala az gelişmiş. Openai, bir slayt güverte jeneratörü canlı ama “ilkel” dedi. Temsilcinin Frontiermath’teki matematik yetenekleri ve insanlığın son sınavındaki genel bilgi becerileri mütevazıdır. Ve Ajan henüz piyasaya sürülen blok düzenlemeleri nedeniyle Avrupa Ekonomik Bölgesi veya İsviçre’de mevcut değildir (bkz:: AI patronu ay boyu süren iş testinde muhteşem bir şekilde başarısız oluyor).

Openai, araç tabanlı görev otomasyonu için gelecekteki arayüz olarak konumlandırılan bu daha yetenekli ChatGPT temsilcisi lehine önceki otomasyon aracı Operatörünü gün batımını planlıyor (bkz: bkz: Openai, AI ajanını ‘operatör’ başlattı).

Temsilci, Openai’nin yapabileceği şeylerin çoğunu yapabilir, ancak yalnızca doğru koşullar altında ve yalnızca kullanıcılar karşılığında önemli miktarda güven ve veri bırakmaya istekli ise.





Source link