Dijital pazar uygulama incelemelerine yardımcı olmak için DTA denemeleri AI

Federal hükümet, dijital pazar 2 paneli için başvuruları gözden geçirmeye yardımcı olmak için yapay zeka kullanımını pilot olarak çalıştıracak.

Dijital Dönüşüm Ajansı (DTA), bir değerlendirme görevlisiyle ortaklaşa bir BT tedarikçisinin başvuru vaka çalışmasını gözden geçirmek için büyük bir dil modeli kullanarak bir kavram kanıtı geliştirmiştir.

Ajans, bu yılın ilerleyen saatlerinde sadece AI tabanlı değerlendirme yerine AI-insan eşleştirme modeli kullanarak canlı olmaya devam etmek amacıyla kavram kanıtı bir pilota genişletmeyi planlıyor.

Ekim 2024’te piyasaya sürülen DM2, BT İşçi İşe alımı ile profesyonel ve danışmanlık hizmetleri için devlet çapında bir tedarik düzenlemesidir.

Canberra’daki AI Hükümeti Vitrini sırasında konuşan eski DTA ana teknoloji danışmanı Ben Bildstein, pazarın yaklaşık 20.000 başvuru yaptığını söyledi.

“Bu gerçekten büyük ve önemli bir çalışma” dedi.

“Tüm bu insanların tüm bu işi yaptıklarını ve belki de AI’nın uygulamaları değerlendirebileceğini düşünüyoruz.”

Hükümetin tedarik politikalarını ve standartlarını ve yapay zeka etiği yönergelerini inceledikten sonra, AI’nın tamamen göz ardı edilebileceği fikri.

“Oldukça basit, AI bunu yapamaz,” dedi Bildstein. “Bir uygulamayı sizin için bir tedarik bağlamında değerlendiremez – bu bir insanın işi.”

Bununla birlikte, ajans, önceki çalışmaları değerlendirmek için tipik olarak iki insan gözden geçiren tarafından değerlendirilen tedarikçi vaka çalışmaları hakkında AI denemeyi kabul etti.

“İnsanların bu vaka çalışmasını bir ila beş arasında değerlendirdik,” diye açıkladı Bildstein.

“Bunu bağımsız olarak yapan iki personelimiz var. Eğer bir noktalı bir hata marjı ile hemfikirlerse, temelde bunun yeterli olduğunu düşünüyoruz.

“Kabul ederlerse, dava için geçilir [an additional] Bir delege tarafından gözden geçirin. Eğer katılmıyorlarsa, üçüncü bir kişiyle bir tartışmaya gidiyor. ”

“Öyleyse, AI bir vaka çalışması okuyabilir ve bir ila beş arasında bir derecelendirme yapabilir mi? Cevap elbette evet.”

Üç metrik

Konsept kanıtı, AI modelinin değerlendirmelerini iki insan vaka memuru tarafından yapılan değerlendirmelerle karşılaştırarak önceki 268 uygulamayı test etti.

Test, vaka çalışmalarını değerlendirmede AI modelinin insan değerlendiricilerle karşılaştırıldığında ne kadar iyi performans gösterdiğini değerlendirmek için üç metrik kullanmıştır.

Bunlardan ilki, bir kişiye ve bir AI ile karşılaştırıldığında iki insan arasındaki anlaşma oranı idi.

Bildstein’a göre, iki vaka işçisi, AI’nın performansını değerlendirmek için bir ölçüt olarak duran ortalama yüzde 81’i kabul ediyor.

Buna karşılık, AI zamanın yüzde 84’ü insanla anlaştı.

“Burada hala yüzde 16 anlaşmazlığımız var,” dedi Bildstein.

“Bu durumlarda, AI’yı atarız ve iki insanı değerlendiririz, örneğin [the DTA] Her zaman yaptı ve bu temelde ilerleyin.

“Ancak vakaların çoğunda AI insanla anlaştı.”

Kullanılan diğer metrik ortalama derecelendirme farkı veya hata payıdır.

“Buradaki fikir: Beşten bir şey bir şey var. İkinci bir insan oranımız ve beşte bir şeyimiz var. Bir uygulamada bu iki insan derecesi arasındaki farka bakıyorsunuz. Ortalama olarak ne kadar katılmıyorlar?”

İki insan değerlendiricisiyle, ortalama anlaşmazlık puanı 0.92 iken, bir insan ve AI arasındaki anlaşmazlık 0.76 idi – yani AI’nın derecelendirmeleri insanlara insanlardan daha yakın.

“Yani, bir insan ve AI ile biraz daha tutarlılık elde ediyoruz,” diye ekledi Bildstein.

Son metrik, iki derecelendiricinin genel olarak veya Bildstein’ın açıkladığı gibi, “ilk kişi yüksek bir puan verirse, aynı şeyi yapması muhtemel ikinci kişi mi?”

Bir sonraki aşama, DTA’nın ön sonuçlara daha fazla istatistiksel ağırlık sağlamak için 6448 uygulamanın daha büyük bir veri seti kullandığını görecek.

Bildstein, “işaretlemek için daha fazla yönetişim ve güvence kutusu” olduğunu, ancak modelin bir sonraki pazar turu için potansiyel olarak canlı olabileceğini de sözlerine ekledi.

Canberra izleyicilerine bazı ayrılık tavsiyeleri olarak Bildstein, “Bu günlerde AI aslında kolay kısım.

“AI güvencenize erkenden biraz gerçek çaba sarf edebilirim çünkü muhtemelen zamanınızın çoğunu geçireceğiniz yer burası.

“Ve neyi ölçeceğinize karar verin; iyi ve neyin yeterince iyi göründüğü net olun.”

Source link

Dijital pazar uygulama incelemelerine yardımcı olmak için DTA denemeleri AI

Son Yazılar

Kategoriler