Big Tech’in AI eğitim verilerini satın alma yarışının içinde – Yazılım


2000’li yılların başında zirveye ulaşan Photobucket, dünyanın en iyi resim barındırma sitesiydi. Myspace ve Friendster gibi bir zamanların popüler hizmetlerinin medya omurgası olan bu medya, 70 milyon kullanıcıya sahipti ve ABD çevrimiçi fotoğraf pazarının neredeyse yarısını oluşturuyordu.

Big Tech'in AI eğitim verilerini satın alma yarışının içinde


Benzer web analiz takipçisine göre bugün yalnızca 2 milyon kişi hala Photobucket kullanıyor. Ancak üretken yapay zeka devrimi ona yeni bir hayat verebilir.

Edwards, Colorado’daki 40 kişilik şirketi yöneten CEO Ted Leonard şunları söyledi: Reuters metin komutlarına yanıt olarak yeni içerik üretebilen üretken yapay zeka modellerini eğitmek için kullanılmak üzere Photobucket’in 13 milyar fotoğraf ve videosunun lisanslanması için birden fazla teknoloji şirketiyle görüşmelerde bulunuyor.

Fotoğraf başına 5 sent ila 1 ABD doları arasındaki ve video başına 1 ABD dolarından fazla oranları tartıştığını, fiyatların hem alıcıya hem de aranan görüntü türlerine göre büyük ölçüde değiştiğini söyledi.

“‘Çok daha fazlasına ihtiyacımız var’ diyen şirketlerle konuştuk,” diye ekledi Leonard ve bir alıcı ona platformunun sahip olduğundan daha fazla, bir milyardan fazla video istediğini söyledi.

“Kafanı kaşıyıp, bunu nereden buldun?” diyorsun.

Photobucket, ticari gizliliği öne sürerek potansiyel alıcılarını belirlemeyi reddetti. Daha önce bildirilmemiş olan devam eden müzakereler, şirketin milyarlarca dolar değerinde içerik üzerinde durabileceğini ve üretken yapay zeka teknolojisine hakim olma telaşıyla ortaya çıkan hareketli veri pazarına bir göz atabileceğini gösteriyor.

Google, Meta ve Microsoft destekli OpenAI gibi teknoloji devleri, başlangıçta internetten ücretsiz olarak toplanan çok sayıda veriyi, ChatGPT gibi insan yaratıcılığını taklit edebilen üretken yapay zeka modellerini eğitmek için kullandı. Bunu yapmanın hem yasal hem de etik olduğunu söylediler, ancak bu uygulama nedeniyle bir dizi telif hakkı sahibi tarafından davalarla karşı karşıya kaldılar.

Aynı zamanda bu teknoloji şirketleri, ödeme duvarları ve oturum açma ekranlarının arkasında kilitlenen içerikler için de sessizce ödeme yapıyor; bu da sohbet günlüklerinden, silinmiş sosyal medya uygulamalarındaki uzun süredir unutulmuş kişisel fotoğraflara kadar her şeyin gizli bir şekilde takas edilmesine yol açıyor.

İçerik sahiplerine on milyonlarca dolar değerindeki anlaşmalar konusunda danışmanlık yaptığını söyleyen Klaris Law hukuk firmasından Edward Klaris, “Şu anda, kazınması mümkün olmayan özel koleksiyonlara sahip telif hakkı sahiplerine yönelme konusunda bir telaş var” dedi. AI eğitimi için fotoğraf, film ve kitap arşivlerini lisanslamak için her biri.

Reuters Bu yeni başlayan pazarın ilk derinlemesine araştırmasını sağlamak için, satın alınan içerik türlerini, gerçekleşen fiyatları ayrıntılarıyla anlatan, ilgili şirketlerin mevcut ve eski yöneticileri, avukatlar ve danışmanlar da dahil olmak üzere AI veri anlaşmaları hakkında bilgi sahibi 30’dan fazla kişiyle konuştu. ve ayrıca kişisel verilerin, insanların bilgisi veya açık rızası olmadan yapay zeka modellerine girme riskiyle ilgili ortaya çıkan endişeler.

OpenAI, Google, Meta, Microsoft, Apple ve Amazon, bu makaleye yönelik belirli veri anlaşmaları ve tartışmalar hakkında yorum yapmayı reddetti; ancak Microsoft ve Google, Reuters’e veri gizliliği hükümlerini içeren tedarikçi davranış kurallarına atıfta bulundu.

Google, bir ihlal tespit etmesi halinde tedarikçiyle olan sözleşmesinin “fesih edilmesine kadar varabilecek derhal harekete geçeceğini” de sözlerine ekledi.

Birçok büyük pazar araştırma firması, şirketlerin genellikle anlaşmaları açıklamadığı şeffaf olmayan yapay zeka veri pazarının boyutunu henüz tahmin etmeye bile başlamadıklarını söylüyor.

Business Research Insights gibi araştırmacılar, pazarın şu anda yaklaşık 2,5 milyar dolar olduğunu ve on yıl içinde pazarın 30 milyar dolara (45,6 milyar dolar) yakın bir büyüme gösterebileceğini tahmin ediyor.

Üretken veri altına hücum

Verilerin ele geçirilmesi, büyük üretken yapay zeka “temel” modellerinin yapımcılarının, sistemlerine besledikleri devasa miktardaki içeriği hesaba katma konusunda artan baskıyla karşı karşıya kalmasıyla ortaya çıkıyor; “eğitim” olarak bilinen, yoğun bilgi işlem gücü gerektiren ve tamamlanması genellikle aylar süren bir süreç. .

Teknoloji şirketleri, kar amacı gütmeyen bir veri deposu olan Common Crawl tarafından sağlanan ve “kamuya açık” olarak tanımladıkları ücretsiz kazınmış web sayfası verilerinden oluşan geniş arşivleri kullanamazlarsa teknolojinin maliyetinin çok yüksek olacağını söylüyor.

Yaklaşımları yine de bir telif hakkı davaları dalgasına ve düzenleyici hararete yol açarken, yayıncıları kazınmayı engellemek için web sitelerine kod eklemeye teşvik etti.

Buna yanıt olarak yapay zeka model üreticileri, hem içerik sahipleriyle yapılan anlaşmalar hem de talebi karşılamak için ortaya çıkan, gelişen veri komisyoncuları endüstrisi aracılığıyla riskleri korumaya ve veri tedarik zincirlerini güvence altına almaya başladı.

ChatGPT’nin 2022’nin sonlarında piyasaya sürülmesinden sonraki aylarda, örneğin Meta, Google, Amazon ve Apple gibi şirketlerin tümü, stok görsel sağlayıcısı Shutterstock ile kütüphanesindeki yüz milyonlarca görsel, video ve müzik dosyasını eğitim amacıyla kullanmak üzere anlaşmalar imzaladı. düzenlemelere aşina bir kişi.

Shutterstock’un Mali İşler Direktörü Jarrod Yahes, Büyük Teknoloji firmalarıyla yapılan anlaşmaların başlangıçta her biri 25 milyon ABD Doları ila 50 milyon ABD Doları arasında değiştiğini, ancak çoğunun daha sonra genişletildiğini söyledi. Reuters. Daha küçük teknoloji oyuncularının da aynı şeyi takip ettiğini ve son iki ayda yeni bir “aktivite telaşı” yarattığını ekledi.

Yahe bireysel sözleşmeler hakkında yorum yapmaktan kaçındı. Apple anlaşması ve diğer anlaşmaların boyutu daha önce kamuya açıklanmamıştı.

Shutterstock’un rakibi Freepik şunları söyledi: Reuters 200 milyon görüntüden oluşan arşivinin çoğunluğunu görüntü başına 2 ila 4 sent karşılığında lisanslamak için iki büyük teknoloji şirketiyle anlaşmalar yapmıştı. CEO Joaquin Cuenca Abela, alıcıları belirlemeyi reddederek, boru hattında beş benzer anlaşmanın daha olduğunu söyledi.

Shutterstock’un ilk müşterilerinden biri olan OpenAI, aynı zamanda The Associated Press ve Axel Springer’ın da aralarında bulunduğu en az dört haber kuruluşuyla lisans anlaşması imzaladı. Reuters News’in sahibi Thomson Reuters, ayrı olarak, AI büyük dil modellerinin eğitilmesine yardımcı olmak için haber içeriğinin lisanslanması konusunda anlaşmalar yaptığını söyledi ancak ayrıntıları açıklamadı.

‘Etik kaynaklı’ içerik

Podcast’ler, kısa biçimli videolar ve dijital asistanlarla etkileşimler gibi gerçek dünya içeriklerinin haklarını güvence altına alan, aynı zamanda sıfırdan özel görseller ve ses örnekleri üretmek için kısa süreli sözleşmeli çalışanlardan oluşan ağlar oluşturan, özel yapay zeka veri şirketlerinden oluşan bir endüstri de ortaya çıkıyor , veriler için Uber benzeri bir iş ekonomisine benzer.

CEO Daniela Braga, Reuters’e yaptığı açıklamada, Seattle merkezli Defined.ai’nin Google, Meta, Apple, Amazon ve Microsoft gibi çeşitli şirketlere veri lisansı verdiğini söyledi.

Fiyatlar alıcıya ve içerik türüne göre değişiklik gösteriyor ancak Braga, şirketlerin genel olarak resim başına 1 ila 2 ABD Doları, kısa video başına 2 ila 4 ABD Doları ve daha uzun filmler için saat başına 100 ila 300 ABD Doları ödemeye hazır olduklarını söyledi. Metin için piyasa fiyatının kelime başına 0,001 dolar olduğunu ekledi.

En hassas müdahaleyi gerektiren çıplaklık görüntülerinin fiyatının 5 ila 7 ABD Doları arasında olduğunu söyledi.

Braga, Defined.ai’nin bu kazancı içerik sağlayıcılarla paylaştığını söyledi. Verilerini kullandığı kişilerden onay aldığı ve kişisel olarak tanımlayıcı bilgileri çıkardığı için veri kümelerini “etik kaynaklı” olarak pazarladığını da sözlerine ekledi.

Firmanın tedarikçilerinden biri olan Brezilya merkezli bir girişimci, kaynak sağladığı fotoğraf, podcast ve tıbbi veri sahiplerine toplam anlaşma tutarının yaklaşık yüzde 20 ila yüzde 30’unu ödediğini söyledi.

Ticari hassasiyeti gerekçe göstererek şirketinin kimliğinin belirtilmemesi koşuluyla konuşan tedarikçi, portföyündeki en pahalı görsellerin, teknoloji şirketleri tarafından yasaklanan grafik şiddet gibi içerikleri engelleyen yapay zeka sistemlerini eğitmek için kullanılan görseller olduğunu söyledi.

Bu talepleri yerine getirmek için, genellikle Güney Amerika ve Afrika’da sansasyonel görüntülerin dağıtımının daha yaygın olduğu yerlerdeki suç mahalli, çatışma şiddeti ve ameliyatların görüntülerini (sırasıyla polisten, serbest çalışan foto muhabirlerinden ve tıp öğrencilerinden) aldığını söyledi.

Ekim ayında savaşın başlamasından bu yana Gazze’deki serbest fotoğrafçılardan ve bazılarının da düşmanlıkların başlangıcında İsrail’den görüntüler aldığını söyledi.

Şirketinin, eğitimsiz gözleri rahatsız eden görüntüleri anonimleştirmek ve açıklamalar eklemek için şiddetli yaralanmaları görmeye alışkın hemşireleri işe aldığını ekledi.

‘Bunu riskli buluyorum’

Görüşülen sektör oyuncularının çoğuna göre, lisanslama bazı yasal ve etik sorunları çözebilirken, Photobucket gibi eski internet adlarının arşivlerini en son yapay zeka modellerine yakıt olarak yeniden kazandırmak, özellikle kullanıcı gizliliği konusunda başka sorunları da gündeme getiriyor.

Yapay zeka sistemleri, eğitim verilerinin tam kopyalarını, örneğin Getty Images filigranını, New York Times makalelerinin birebir paragraflarını ve gerçek kişilerin resimlerini tükürürken yakalandı. Bu, bir kişinin onlarca yıl önce paylaştığı özel fotoğrafların veya özel düşüncelerinin, herhangi bir bildirim veya açık rıza olmaksızın potansiyel olarak üretken yapay zeka çıktılarına dönüşebileceği anlamına geliyor.

Photobucket CEO’su Leonard, şirketin hizmet şartlarında Ekim ayında yapılan ve şirkete yapay zeka sistemlerini eğitmek amacıyla yüklenen herhangi bir içeriği satma konusunda “sınırsız hak” veren bir güncellemeye atıfta bulunarak sağlam bir yasal zemine dayandığını söyledi. Lisans verilerini reklam satmaya alternatif olarak görüyor.

“Faturalarımızı ödememiz gerekiyor ve bu bize ücretsiz hesapları desteklemeye devam etme olanağı verebilir” dedi.

Defined.ai’den Braga, Photobucket gibi “platform” şirketlerinden içerik almaktan kaçındığını ve sosyal medya fotoğraflarını, lisans hakları konusunda daha net bir iddiaya sahip olduğunu söylediği, bunları oluşturan etkileyicilerden almayı tercih ettiğini söyledi.

Braga, platform içeriği hakkında “Bunu çok riskli bulurum” dedi. “Bunu asla onaylamayan birinin resmine benzeyen bir şey üreten bir yapay zeka varsa, bu bir sorundur.”

Photobucket, lisanslamayı benimseyen platformlar arasında yalnız değil. Tumblr’ın ana şirketi Automattic geçen ay “seçili AI şirketleriyle” içerik paylaşacağını söyledi. Şubat ayında Reuters, Reddit’in Google’ın yapay zeka modellerini eğitmek için içeriğini kullanıma sunmak üzere Google ile bir anlaşma yaptığını bildirdi.

Mart ayındaki ilk halka arzından önce Reddit, veri lisanslama işinin ABD Federal Ticaret Komisyonu soruşturmasına konu olduğunu açıkladı ve gelişen gizlilik ve fikri mülkiyet düzenlemelerine aykırı düşebileceğini kabul etti.

Şubat ayında işletmeleri AI kullanımına yönelik hizmet şartlarının geriye dönük olarak değiştirilmesine karşı uyaran FTC, Reddit soruşturması hakkında yorum yapmayı veya diğer eğitim verileri anlaşmalarını araştırıp incelemediğini söylemeyi reddetti.



Source link