Şaşkınlık AI, web sitelerinde zorlanmayan kuralları görmezden geliyor, yine de tarıyor


Köpeklerini yürüyen insanlar için izinsiz bir işaret koyduğunuzu ve daha sonra bir kişinin büyük Dane’yi bir buzağı olarak giydirdiğini ve onu gerekçesiyle yürüdüğünü bulduğunuzu düşünün.

Cloudflare’e göre, AI Cevap Motor Düşüncesi’nin web sitelerinin tarama dışı yönergelerinden kaçınarak yaptığı şey bu.

Bu durumda izinsiz izinsiz işaret bir robots.txt dosyası olacaktır.

Cloudflare, müşteriler Robots.txt dosyalarında şaşkınlık etkinliğine izin vermemelerine rağmen, şaşkınlık içeriğine eriştiğinden şikayet ettikten sonra bir soruşturmaya başladı. Ayrıca, her iki şaşkınlığın ilan edilen tarayıcılarını özellikle engellemek için Web Uygulaması Güvenlik Duvarı (WAF) kuralları oluşturmuşlardır: şaşkınlık botu ve şaşkınlık kullanıcısı.

Bu nedenle Cloudflare, bazı test alanları kurdu ve erişememesi gereken bilgileri döndürüp döndürmeyeceğini görmek için onlar hakkında şaşkınlık sorguladı. Araştırmacıların buldukları şaşırtıcıydı, çünkü şaşkınlık, sürünmeyen yönergeleri atlamak için çok kasıtlı bir sistem kullanıyor.

Araştırmacılar, ilan edilen paletli bloke edildiğinde macOS’ta (normal bir kullanıcı gibi görünmek için) taklit etmek için tasarlanmış bir kullanıcı aracısının kullanımını keşfettiler. Kullanıcı aracısı dizesi, tarayıcınız ve işletim sisteminiz hakkında bazı temel bilgileri ziyaret ettiğiniz web sitesini gösterir, böylece site bu kurulum için optimize edilmiş bir deneyim sağlayabilir. Bu kullanıcı aracısı dizesi tarafından kamufle edilen şaşkınlık paletli, perplexity’nin resmi IP aralığının dışında düzenli olarak değiştirilen IP adreslerini kullandı ve gerekmediği içeriğe başarılı bir şekilde erişmesine izin verdi.

Şaşkınlık’ın her şey hakkındaki görüşünü merak ettim, bu yüzden bir robots.txt dosyasının ne için olduğunu ve neden görmezden gelmenin kötü olduğunu bilip bilmediğini sordum. Aşağıdakileri döndürdü:

Şaşkınlık, robots.txt dosyalarını atlamanın neden yanlış olduğunu cevaplar

Robots.txt’i görmezden gelmek neden yanlış?

  • Gizlilik ve Güvenliğe Saygı: Bir web sitesinin bazı bölümleri, kamu arama motorları için tasarlanmayan özel, hassas veya bitmemiş içerik içerebilir. Robots.txt’i görmezden gelmek, özel kalması gereken verileri ortaya çıkarabilir.
  • Adil Kaynak Kullanımı: Tarama web siteleri bant genişliği ve sunucu kaynaklarını alır. Robotlara nereye gitmeyeceklerini söyleyerek, web sitesi sahipleri bu kaynakların savurgan kullanımını önleyerek sitenin gerçek kullanıcılar için sorunsuz çalışmasını sağlayabilir.
  • Yasal ve Etik Standartlar: Robots.txt’in görmezden gelmesi etik olmayan olarak kabul edilebilir ve bazı durumlarda, hangi bilgilere erişildiğine ve nasıl kullanıldığına bağlı olarak Hizmet Şartları veya Veri Koruma Yönetmelikleri bile bozabilir.
  • Güven ve İtibar: Bir robot robots.txt’i tekrar tekrar görmezden gelirse, web siteleri tarafından yasaklanabilir veya kara listeye alınabilir ve itibarı kamu ve profesyonel toplulukta acı çekebilir.

İncelenmenin resmi tepkisi biraz farklıdır. Bir kullanıcının belirli bir soruyu cevaplama arayışı içinde olan normal bir bot ve bir AI ajanı arasındaki farkın arkasına gizlenir.

Şaşkınlık nedenleri:

“Modern AI asistanları, geleneksel web sürünmesinden temel olarak farklı çalışıyor. Şaşırtıcı bir soru sorduğunuzda, mevcut bilgi gerektiren bir soru sorduğunuzda,“ Bu yeni restoran için en son incelemeler nelerdir? ” – AI, bir yerde bir veritabanında oturan bu bilgilere sahip değildir. Bunun yerine, ilgili web sitelerine gider, içeriği okur ve belirli bir sorunuza göre özet.

Bu, tarlayıcıların bu belirli bilgileri istese de istese de, büyük bir veritabanları oluşturmak için milyonlarca sayfayı sistematik olarak ziyaret ettikleri geleneksel web taramasından temel olarak farklıdır. ”

Düşüncenin amacını görmeme rağmen, olabildiğince fazla bilgi toplamak ve bir kullanıcı için belirli bir soruyu cevaplamak için sürünen web siteleri arasında büyük bir fark var, bir web sitesi sahibinin izin vermek isteyip istemediğine karar veriyor. Ve etrafta gizlice girmeye gerek olmamalı.

Öyleyse neden web sitesi sahiplerine “bu, bazı belirli bilgiler bulmak için sadece kısa bir ziyarettir” diyen bir kullanıcı aracısı dizesi oluşturmuyorsunuz, bulabilecekleri her biti sifonlardan ayırt ediyor ve daha sonra web sitesi sahiplerinin onlara izin verip vermeyeceklerine karar vermelerine izin verelim?

Her iki durumda da, bu tartışma bitmekten uzak görünüyor ve AI ajanlarının yükselişiyle, hepimiz AI kullanmaya başlamadan önce radarda olmayan problemlerin ortaya çıktığını göreceğiz.


Sadece veri gizliliği hakkında rapor vermiyoruz, kişisel bilgilerinizi kaldırmanıza yardımcı oluyoruz

Siber güvenlik riskleri asla bir başlığın ötesine yayılmamalıdır. MalwareBebytes Kişisel Veri Kapatıcısı ile, hangi sitelerin kişisel bilgilerinizi açığa çıkardığını öğrenebilir ve ardından bu hassas verileri internetten silebilirsiniz.





Source link