Reddit, AI girişimlerinin sistemleri için içerik toplamak amacıyla kuralı atladığı yönündeki raporların ardından, platformun web sitesinden otomatik veri kazımasını engellemek için kullanılan bir web standardını güncelleyecek.
Bu hamle, yapay zeka firmalarının, yayıncılardan içerik çalarak yapay zeka tarafından oluşturulan özetler oluşturmak için kredi vermeden veya izin istemeden suçlandığı bir zamanda geldi.
Reddit, bir sitenin hangi bölümlerinin taranmasına izin verildiğini belirlemeyi amaçlayan, yaygın olarak kabul edilen bir standart olan Robot Hariç Tutma Protokolünü veya “robots.txt”yi güncelleyeceğini söyledi.
Şirket ayrıca, belirli bir varlıktan gelen isteklerin sayısını kontrol etmek için kullanılan bir teknik olan hız sınırlamayı sürdüreceğini ve bilinmeyen botların ve tarayıcıların web sitesinde veri kazımasını (ham bilgileri toplayıp kaydetmesini) engelleyeceğini söyledi.
Son zamanlarda robots.txt, yayıncıların teknoloji şirketlerinin içeriklerini ücretsiz olarak yapay zeka algoritmalarını eğitmek ve bazı arama sorgularına yanıt olarak özetler oluşturmak için kullanmalarını önlemek için kullandıkları önemli bir araç haline geldi.
Geçtiğimiz hafta, içerik lisanslama girişimi TollBit tarafından yayıncılara gönderilen bir mektupta, birçok yapay zeka firmasının yayıncı sitelerini kazımak için web standardını atlattığı belirtildi.
Bu aşağıdaki gibidir kablolu AI arama girişimi Perplexity’nin, web tarayıcısını robots.txt aracılığıyla engelleme çabalarını büyük olasılıkla atladığını ortaya çıkaran araştırma.
Haziran ayının başlarında, ticari medya yayıncısı Forbes, Perplexity’yi, araştırma hikayelerini üretken yapay zeka sistemlerinde kullanılmak üzere kaynak göstermeden çalıntı yapmakla suçlamıştı.
Reddit, araştırmacıların ve İnternet Arşivi gibi kuruluşların ticari olmayan kullanım için içeriğine erişmeye devam edeceğini söyledi.