ChatGPT ve benzeri büyük dil modelleri (LLM’ler), sürekli büyüyen çevrimiçi tehdit ortamına daha fazla karmaşıklık kattı. Hizmet olarak botlar, konut proxy’leri, CAPTCHA çiftlikleri ve diğer kolay erişilebilen araçlar sayesinde siber suçlular, çevrimiçi işletmelere ve müşterilere karşı dolandırıcılık ve diğer zarar verici saldırıları gerçekleştirmek için artık gelişmiş kodlama becerilerine ihtiyaç duymuyor.
Artık işletmelere zarar veren en son teknoloji ChatGPT’dir.
ChatGPT, OpenAI ve diğer LLM’ler, modellerini internetten alınan veriler üzerinde eğiterek etik sorunları gündeme getirmekle kalmadı. Yüksek Lisans’lar işletmelerin web trafiğini olumsuz etkiliyor ve bu da iş dünyasına son derece zarar verebilir.
Yüksek Lisans, ChatGPT ve ChatGPT Eklentilerinin Sunduğu 3 Risk
ChatGPT ve ChatGPT eklentilerinin çevrimiçi işletmelere karşı oluşturabileceği tehditler arasında odaklanacağımız üç temel risk vardır:
- İçerik hırsızlığı (veya verileri orijinal kaynağın izni olmadan yeniden yayınlamak) orijinal içeriğinizin otoritesine, SEO sıralamalarına ve algılanan değerine zarar verebilir.
- Azaltılmış trafik Doğrudan ChatGPT ve eklentileri aracılığıyla yanıt alan kullanıcıların artık sayfalarınızı bulması veya ziyaret etmesi gerekmediği için web sitenize veya uygulamanıza erişim sorunlu hale gelir.
- Veri ihlallerive hatta hassas verilerin kazara geniş bir alana yayılması ihtimali her geçen saniye daha da artıyor. “Kamuya açık” verilerin tamamının orijinal bağlamın dışında yeniden dağıtılması veya paylaşılması amaçlanmamıştır, ancak kazıyıcılar aradaki farkı bilmiyor. Sonuçlar, rekabet avantajı kaybından marka itibarınızın ciddi şekilde zarar görmesine kadar her şeyi içerebilir.
İş modelinize bağlı olarak şirketiniz, verilerinizin Yüksek Lisans eğitiminde kullanılmasından vazgeçmenin yollarını düşünmelidir.
En Çok Etkilenen 3 Sektör
ChatGPT kaynaklı hasar açısından en fazla risk altındaki sektörler, veri gizliliğinin en önemli konu olduğu, benzersiz içerik ve fikri mülkiyetin temel farklılaştırıcılar olduğu ve reklamların, gözlerin ve benzersiz ziyaretçilerin önemli bir gelir kaynağı olduğu sektörlerdir. Bu endüstriler şunları içerir:
- E-ticaret: Ürün açıklamaları ve fiyatlandırma modelleri temel farklılaştırıcı unsurlar olabilir.
- Akış, Medya ve Yayıncılık: Hedef kitleye benzersiz, yaratıcı ve eğlenceli içerik sunmakla ilgili her şey.
- Sınıflandırılmış reklamlar: Tıklama başına ödeme (PPC) reklam geliri, web sitesi trafiğindeki azalmadan (aynı zamanda tıklama sahtekarlığı veya kazıyıcılar nedeniyle çarpık site analitiği gibi diğer bot sorunlarından) ciddi şekilde etkilenebilir.
Markanızı Koruyun: ChatGPT’nin İçerik Kazımasına Karşı Savunma
ChatGPT’nin içeriğinizi kazımasından mı endişeleniyorsunuz? Yapay zeka botlarını nasıl alt edeceğinizi, içeriğinizi nasıl koruyacağınızı ve web trafiğinizi nasıl güvence altına alacağınızı öğrenin.
Oturuma Katılın
ChatGPT Eğitim Verilerini Nasıl Alır?
OpenAI tarafından yayınlanan bir araştırma makalesine göre ChatGPT3 çeşitli veri kümeleri üzerinde eğitildi:
- Ortak Tarama
- WebMetin2
- Kitaplar1 ve Kitaplar2
- Vikipedi
En büyük miktarda eğitim verisi Ortak Tarama, açık bir web tarama verileri deposu aracılığıyla web bilgilerine erişim sağlar. Common Crawl paletli botu olarak da bilinir CCBotgeliştiricilerin büyük ölçekli kazıyıcılar oluşturmasına olanak sağlamak için Apache Nutch’tan yararlanır.
CCBot’un en güncel sürümü Amazon AWS’den tarama yapar ve kendisini ‘CCBot/2.0’ kullanıcı aracısıyla tanımlar. Ancak CCBot’a izin vermek isteyen işletmeler, onu tanımlamak için yalnızca kullanıcı aracısına güvenmemelidir, çünkü birçok kötü bot, kendilerini iyi botlar olarak gizlemek ve engellenmekten kaçınmak için kullanıcı aracılarını taklit eder.
Web sitenizde CCBot’a izin vermek için IP aralıkları veya ters DNS gibi özellikleri kullanın. İle engellemek SohbetGPTweb siteniz en azından CCBot’tan gelen trafiği engellemelidir.
CCBot’u Engellemenin 3 Yolu
- Robots.txt: CCBot, robots.txt dosyalarına saygı duyduğundan, aşağıdaki kod satırlarını kullanarak bunları engelleyebilirsiniz:
- CCBot Kullanıcı Aracısını Engelleme: İstenmeyen bir botu kullanıcı aracısı aracılığıyla güvenli bir şekilde engelleyebilirsiniz. (Aksine, öyle değil, izin vermek Kullanıcı aracısı aracılığıyla yapılan bot trafiği güvensiz olabilir ve saldırganlar tarafından kolaylıkla kötüye kullanılabilir.)
- Bot Yönetim Yazılımı: İster ChatGPT ister karanlık web veritabanı için olsun, botların web sitelerinizi, uygulamalarınızı ve API’lerinizi çalmasını önlemenin en iyi yolu, gerçek zamanlı olarak gelişen tehdit taktiklerine ayak uydurmak için makine öğrenimini kullanan özel bot korumasıdır.
Kullanıcı aracısı: CCBot
İzin verme: /
Kazıyıcılar Her Zaman Geçici Çözümler Bulabilir
Yüksek Lisans’ların kullanımı kazıyıcı botlar eğitim verilerini toplamak. CCBot’u engellemek bugün ChatGPT kazıyıcılarını engellemek için etkili olsa da, LLM kazıyıcılarını gelecekte nelerin beklediğini söylemek mümkün değil. İleriye dönük olarak, çok fazla web sitesi OpenAI’nin (örneğin) içeriklerine erişmesini engellerse, geliştiriciler robots.txt dosyasına saygı göstermeyi bırakmaya karar verebilir ve tarayıcı kimliklerini kullanıcı aracısında açıklamayı bırakabilirler.
Diğer bir olasılık da OpenAI’nin Microsoft ile olan ortaklığını Microsoft Bing’in kazıyıcı verilerine erişmek için kullanması ve bu durumun web sitesi sahipleri için durumu daha da zorlaştırmasıdır. Bing’in botları Bingbot olarak tanımlanır, ancak bunların engellenmesi sitenizin Bing arama motorunda dizine eklenmesini engelleyerek sorunlara neden olabilir ve bu da daha az insan ziyaretçiye neden olabilir.
Google’ın LLM Bard’ını (ChatGPT’nin rakibi) engelleyerek de benzer sorunlarla karşılaşabilirsiniz. Google, Bard’ı eğitmek için kullanılan genel verilerin kaynağı ve toplanması konusunda belirsizdir, ancak Bard’ın Googlebot kazıyıcıları tarafından toplanan verilerle eğitilmiş veya eğitilecek olması mümkündür. Bingbot’ta olduğu gibi, Googlebot’u engellemek muhtemelen akıllıca olmayacaktır; bu durum web sitenizin nasıl dizine eklendiğini ve Google arama motorunun sitenize trafiği nasıl yönlendirdiğini etkileyecektir. Sonuç, ziyaretçi sayısında ciddi bir düşüş anlamına gelebilir.
Canlı Verilere Erişmek İçin Eklentileri Kullanma
ChatGPT gibi modellerin ana sınırlamalarından biri canlı verilere erişimin olmamasıdır. 2021’de sona erecek bir veri kümesi üzerinde eğitildiğinden en alakalı ve güncel bilgileri sağlayamıyor. Eklentilerin devreye girdiği yer burasıdır.
Eklentiler ChatGPT gibi LLM’leri harici araçlara bağlamak ve LLM’lerin çevrimiçi olarak mevcut olan, özel verileri ve gerçek zamanlı haberleri içerebilen harici verilere erişmesine izin vermek için kullanılır. Eklentiler ayrıca kullanıcıların API çağrıları aracılığıyla çevrimiçi işlemleri (örneğin, uçuş rezervasyonu yapma veya yiyecek siparişi verme) tamamlamasına da olanak tanır.
Bazı işletmeler, kullanıcıların içerikleri/hizmetleriyle ChatGPT aracılığıyla etkileşimde bulunmaları için yeni bir yol sağlamak amacıyla kendi eklentilerini geliştiriyor. Ancak sektörünüze bağlı olarak, kullanıcıların üçüncü taraf ChatGPT eklentileri aracılığıyla web sitenizle etkileşime girmesine izin vermek, kullanıcılarınız tarafından daha az reklam görülmesi ve web sitenize gelen trafiğin azalması anlamına gelebilir.
Ayrıca, özellikleriniz üçüncü taraf ChatGPT eklentileri aracılığıyla kopyalanabildiğinde, kullanıcıların premium özellikleriniz için ödeme yapmaya daha az istekli olduklarını da fark edebilirsiniz. Örneğin, sitenizle etkileşime giren resmi olmayan bir web istemcisi, kullanıcı arayüzü aracılığıyla premium özellikler sunabilir.
ChatGPT Eklenti İstekleri Nasıl Belirlenir?
OpenAI belgeleri, belirli bir kullanıcı aracısı HTTP başlığına (belirteçle: “ChatGPT-User”) sahip isteklerin ChatGPT eklentilerinden geldiğini belirtir. Ancak belgeler, açıklanan kullanıcı aracısının sadece HTTP istekleri yaparken eklentiler tarafından kullanılabilen kullanıcı aracısı.
Bu nedenle ChatGPT eklentileri üçüncü taraf API’lerle etkileşime girdikçe API’ler kendi altyapılarından her türlü HTTP isteğini gerçekleştirebilir. Aşağıdaki şema, bir spor etkinliği hakkında güncelleme almak için ChatGPT ile hayali bir “Canlı Spor Eklentisi” kullanıldığında ne olacağını göstermektedir.
- ChatGPT, Canlı Spor Eklentisini tetikleyerek kullanıcı istemindeki parametrelere göre API uç noktalarına istekte bulunur.
- Eklenti, etkinlikle ilgili en son bilgileri almak için bir spor web sitesini kazımak için bir HTTP isteğinde bulunur.
- Bilgiler daha sonra ChatGPT aracılığıyla son kullanıcıya geri aktarılır.
Bir eklenti aslında spor web sitesini kazımaya gerek kalmadan bir spor API’sine istekte bulunabilir. Aslında istekler doğrudan eklenti API’sini barındıran sunucudan yapıldığında kullanıcı aracısı üzerinde herhangi bir kısıtlama yoktur.
ChatGPT Eklenti İstekleri Nasıl Engellenir
ChatGPT’nin web kazıyıcılarını engellemeye benzer bir süreçte, kullanıcı aracısı tarafından “ChatGPT-User” alt dizesiyle varlıklarını bildiren eklentilerden gelen istekleri engelleyebilirsiniz. Ancak kullanıcı aracısını engellemek, “göz atma” modu etkinken ChatGPT kullanıcılarını da engelleyebilir. OpenAI belgelerinin gösterdiğinin aksine, “ChatGPT Kullanıcısı”ndan gelen isteklerin engellenmesi, ChatGPT ve eklentilerinin verilerinize farklı kullanıcı aracısı belirteçleri altında erişemeyeceğini garanti etmez.
Aslında ChatGPT eklentileri, herhangi bir kullanıcı aracısını kullanarak ve hatta otomatik (başsız) tarayıcıları kullanarak doğrudan API’lerini barındıran sunuculardan istekte bulunabilir. Kullanıcı aracısında kimliğini beyan etmeyen eklentilerin tespiti, gelişmiş bot tespit teknikleri gerektirir.
Sonraki Adımlarınızı Belirlemek
İnsan tarafından oluşturulan içeriğe ilişkin yüksek kaliteli veri kümelerinin elde edilmesi, Yüksek Lisans’lar için kritik öneme sahip olmaya devam edecek. Uzun vadede, OpenAI (kısmen Microsoft tarafından finanse edilmektedir) ve Google gibi şirketler, LLM’lerini eğitmek için veri kümeleri oluşturmak amacıyla Bingbot’ları ve Googlebot’ları kullanma eğiliminde olabilir. Çoğu çevrimiçi işletme, içeriklerini dizine ekleme ve sitelerine trafik çekme konusunda büyük ölçüde Bing ve Google’a güvendiğinden, bu durum web sitelerinin verilerinin toplanmasından vazgeçmesini daha da zorlaştıracaktır.
Değerli verilere sahip web siteleri, ya verilerinin kullanımından para kazanmanın yollarını aramak isteyecek ya da ChatGPT ve eklentilerine yönelik web trafiğini ve reklam gelirini kaybetmemek için yapay zeka modeli eğitiminden çıkmak isteyecektir. Bu seçeneği devre dışı bırakmak istiyorsanız, botları verilerinize erişmeden önce durdurmak için parmak izi alma, proxy tespiti ve davranış analizi gibi gelişmiş bot tespit tekniklerine ihtiyacınız olacaktır.
Bot ve dolandırıcılık korumasına yönelik gelişmiş çözümler, tanıdık olmayan botları ilk istekten itibaren tespit etmek ve durdurmak için yapay zeka ve makine öğreniminden (ML) yararlanarak içeriğinizi LLM kazıyıcılardan, bilinmeyen eklentilerden ve hızla gelişen diğer yapay zeka teknolojilerinden korur.
Not: Bu makale DataDome Araştırma Başkanı PhD Antoine Vastel tarafından ustalıkla yazılmış ve katkıda bulunulmuştur.