Yanlış veri toplama iddiaları şaşkınlık için yeni değil
Rashmi Ramesh (Rashmiramesh_) •
5 Ağustos 2025

Yapay zeka firması şaşkınlık, veri arayışında uzun süredir devam eden internet normlarını ortadan kaldırdığı iddialarıyla karşı karşıya. Cloudflare, AI arama motorunun başlamasını Google alternatifi olarak konumlandırmak, web sitesi kısıtlamalarını görmezden gelmek ve kazıma faaliyetlerini gizlemekle suçladı.
Ayrıca bakınız: Ondemand Web Semineri | Yapay zeka ile çalışan önceliklendirme ile güvenlik açığı gürültüsünün% 99’unu ortadan kaldırın
Ağ Güvenliği ve Altyapı Şirketi Mühendisleri Pazartesi günü, içerik kısıtlamalarını atlama girişimleriyle tutarlı davranış olarak tanımladıklarını açıkladı. Yayıncıların robotlarında şaşkınlıklara açıkça izin vermemesine rağmen.
Cloudflare, “Bu ilan edilmemiş paletli, şaşkınlığın resmi IP serisinde listelenmeyen çoklu IP’leri kullandı.” Araştırmacılar, şaşkınlığın botlarının IP adreslerini döndürdüğünü ve kullanıcı ajanı dizelerini, macOS’ta bir Google Chrome tarayıcısına benzemek için değiştirdiğini söyledi, taktikler güvenlik duvarı kurallarını ve algılama sistemlerini atlamak için yaygın olarak kullanılan taktikler.
Cloudflare, bu davranışı günde on binlerce alan ve milyonlarca içerik isteği boyunca gözlemlediğini bildirdi. “Bu tarayıcıyı makine öğrenimi ve ağ sinyallerinin bir kombinasyonunu kullanarak parmak izleyebildik.”
Robotların dışlama protokolü ilk olarak 1994 yılında mühendis Martijn Koster tarafından tanıtıldı ve 2022’de resmi olarak standartlaştırıldı. Web sitelerinin tarayıcılar için sınırlar belirlemesine izin vermek için oluşturuldu. Protokole uyum gönüllüdür, ancak meşru web tarayıcıları arasında yaygın olarak benimsenen bir normdur.
Cloudflare, her iki robotu uygulayan sitelere rağmen palet etkinliğinin devam ettiğini söyledi. Bunlar engellendiğinde, şaşkınlık kimliğini gizleyen alternatif yöntemler kullandı. Cloudflare, doğrulanmış botlar listesinden şaşkınlığı kaldırdığını ve gelecekteki etkinlikleri engellemek için yeni algılama kuralları getirdiğini söyledi.
Şaşkınlık halka açık bir yanıt sunmadı, ancak şirket sözcüsü Jesse Dwyer, TechCrunch’a Cloudflare’nin blog yazısının “satış konuşması” olduğunu söyledi ve Cloudflare blogunda adlandırılan botun “bizim bile olmadığını” söyledi. Dwyer ayrıca Cloudflare’in blogundaki ekran görüntülerinin “içeriğe erişilmediğini” gösterdiğini iddia etti. Şaşkınlık, bilgi güvenliği medya grubunun yorum talebine yanıt vermedi.
Yanlış veri toplama iddiaları şaşkınlık için yeni değildir. Forbes daha önce şirketi raporlamasını yakından yansıttığı ve “alaycı hırsızlık” olarak tanımladığı bir makale yayınlamakla suçlamıştı. Wired ayrıca robots.txt istisnaları görmezden geldiği ve etkinliği şaşkınlıkla ilişkilendiren şüpheli bot trafiğini de bildirdi. Her iki durumda da, suçlamalar tescilli içeriği atıf veya izin almadan kazıma veya özetlemeyi içeriyordu.
Diğer AI firmaları da benzer incelemelerle karşılaştı. Haziran ayında Reddit, AI şirketinin kullanıcı anlaşması ve California rekabet yasasını ihlal ederek içeriği kazındığını iddia ederek Antropic’e dava açtı. Reddit CEO’su Steve Huffman, Verge’ye Microsoft, Antropik ve Düşüncelik gibi şirketlerin “internetteki tüm içeriklerin kullanmaları için ücretsiz gibi davrandığını” söyledi.
AI firmaları ve içerik sağlayıcıları arasındaki dinamik giderek daha tartışmalı hale geliyor: ilk günlerde arama tarayıcılar, kullanıcıların yayıncılara trafik ve gelir getirirken web siteleri bulmalarına yardımcı olarak karşılıklı değer sağladı. Ancak AI botları, model eğitimi veya anında alım için kazınmış verileri kullanır ve yayıncılara doğrudan bir fayda sağlamaz.
Bot azaltma firması Tollbit, kazıma aktivitesinde bir artış gösterdi. Bots Durumu Q1 2025 raporu, bir önceki çeyreğe kıyasla kazımada% 87’lik bir artış gösterdi ve botların payı robotları görmezden geliyor.TXT direktifleri% 3.3’ten% 12.9’a yükseldi. Sadece Mart ayında Tollbit, bu tür direktifleri atlayan 26 milyon sıyrık kaydetti.
Kazınmış veriler ve yayıncılara döndürülen değer arasındaki dengesizlik keskindir. Tollbit tarafından izlenen sitelerde Bing, her 11 kazıma için bir insan sevkini üretti. Openai’nin oranı 179: 1 idi. Şaşkınlık için 369: 1 idi. Antropic’in botlarının, yönlendirilen ziyaretçi başına 8.692 kazı gerçekleştirdiği bildirildi.
Şaşkınlık, içerik sağlayıcılarına ödeme sunan yayıncıların programı aracılığıyla bu endişelerin bazılarını ele almaya çalıştı. Openai gibi diğer AI şirketleri, büyük yayıncılarla imzaladı veya lisanslama anlaşmalarını izliyorlar. Reddit, verilerinden ortaklıklar aracılığıyla da para kazandı. Ancak birçok web sitesi bu tür anlaşmalardan çıkarılır ve yetkisiz kazıma devam eder (bkz:: Openai ve Microsoft New York Times Telif Hakkı Davası).
Cloudflare kısa süre önce AI botlarının içeriği kazımasını engellemek için bir araç tanıttı ve yayıncıların AI şirketlerini erişim için şarj etmesini sağlayan bir pazar başlattı. Şirketin yöneticileri, AI’nın Web’in şu anda içerik yaratıcıları ve site operatörleri için nasıl çalıştığı konusunda yapısal zorluklar yarattığını savundu.