
Reddit, AI şirketlerinin Reddit’in veri koruma politikalarını atlatmak için arşiv hizmetinden yararlandığı endişelerini belirterek, İnternet Arşivinin Wayback makinesini platformunu endekslemesini önemli ölçüde kısıtlama planlarını açıkladı.
Hareket, Reddit’in AI eğitim veri patlamasında kullanıcı tarafından oluşturulan içeriğine erişimi kontrol etmek için devam eden savaşında bir başka yükselişi temsil ediyor.
Key Takeaways
1. The Wayback Machine will only be able to archive Reddit's homepage, not individual posts or comments.
2. Companies were using archived data to bypass Reddit's direct access restrictions
3. Reddit prefers paid licensing deals over free data access.
Blok Wayback Makinesi Erişim
Bugünden itibaren Reddit, Wayback makinesinin detay sayfalarına, yorum iş parçacıklarına ve kullanıcı profillerine erişmesini engelleyecek “artan” kısıtlamalar dediği şeyi uygulayacaktır.
İnternet arşivi, yalnızca Reddit’in ana sayfasını endeksleme yeteneğini koruyacak ve geçmiş kayıtları etkili bir şekilde trend manşetlerin anlık görüntüleriyle ve verilen tarihlerde popüler yayınlarla sınırlandıracaktır.
Reddit sözcüsü Tim Rathschmidt, “İnternet arşivi açık Web’e bir hizmet sunuyor, ancak AI şirketlerinin bizim de dahil olmak üzere platform politikalarını ihlal ettiği ve Wayback makinesinden kazı yaptıkları durumlardan haberdar olduk” dedi.
Şirket, AI eğitim şirketlerinin platformun mevcut API oranı sınırlama ve tarayıcı engelleme mekanizmaları tarafından kısıtlanacak Reddit verilerine erişmek için arşivlenmiş içeriğin doğasında olan Robots.txt bypass özelliklerini kullandığı belirli örnekleri belirlemiştir.
Reddit’in teknik uygulaması muhtemelen Robots.txt dosyasını, internet arşiv tarayıcılarını hedefleyen belirli kullanıcı ajanı dizeleriyle güncellemeyi içerecekken, Wayback makinesinin altyapısıyla ilişkili IP aralıklarına dayalı olarak sunucu tarafı engellemeyi uygular.
Bu yaklaşım, şirketler ücretli lisans anlaşmalarına girmedikçe, platformun arama motoru tarayıcılarını engelleme stratejisini yansıtır.
Bu kısıtlama, Reddit’in yapay zeka dönemindeki veri varlıklarından para kazanma konusundaki kapsamlı yaklaşımının bir parçasını oluşturmaktadır.
Platform, resmi veri erişimi için Google ve Openai ile önemli anlaşmalar yaparken, aynı zamanda Antropic gibi şirketlere karşı, durduğunu iddia ettikten sonra içerik kazımaya devam ettiği iddia edildiği için aynı anda yürütüyor.
Reddit’in popüler üçüncü taraf uygulamalarını etkili bir şekilde kapatan 2023 API fiyatlandırma değişiklikleri, yetkisiz AI eğitimini önleme konusunda benzer bir akıl yürütme kullanılarak gerekçelendirildi.
Şirket, veri erişimi üzerindeki kontrolü korumak için teknik altyapı boyunca oran sınırlama, kimlik doğrulama gereksinimleri ve kullanım izleme uygulamıştır.
Wayback Makinesi direktörü Mark Graham, Reddit ile konuyla ilgili devam eden tartışmaları kabul ederek potansiyel teknik çözümlerin araştırılabileceğini öne sürdü.
Bununla birlikte, Reddit’in konumu sağlam görünüyor: İnternet arşivi, kullanıcı gizliliği ve içerik silme saygısı ile ilgili platform politikalarına uyumu garanti edene kadar, erişim ciddi şekilde sınırlı kalacaktır.
Bu gelişme, AI eğitim manzarasında açık web arşiv ilkeleri ile ticari veri kontrolü arasındaki artan gerilimi vurgulamaktadır.
SOC’nizi en son tehdit verilerine tam erişimle donatın Herhangi biri. Olay yanıtı iyileştirebilir -> 14 günlük ücretsiz deneme alın