AI Eğitim Veri Kümesinde bulunan yaklaşık 12.000 API anahtar ve şifre


AI Eğitim Veri Kümesinde bulunan yaklaşık 12.000 API anahtar ve şifre

Birden fazla yapay zeka modelini eğitmek için kullanılan ortak tarama veri kümesinde API anahtarları ve şifreler içeren 12.000’e yakın geçerli sırlar bulunmuştur.

Ortak tarama kar amacı gütmeyen kuruluş, 2008’den beri toplanan Web verilerinin petabaytlarının büyük bir açık kaynaklı deposunu korur ve herkesin kullanması için ücretsizdir.

Büyük veri kümesi nedeniyle, birçok yapay zeka projesi, en azından kısmen, Openai, Deepseek, Google, Meta, antropik ve istikrar dahil olmak üzere büyük dil modellerini (LLMS) eğitmek için dijital arşive güvenebilir.

AWS Kök Anahtarları ve MailChimp API anahtarları

Truffle Security’deki araştırmacılar – Hassas veriler için Trufflehog açık kaynaklı tarayıcının arkasındaki şirket, Common Crawl Aralık 2024 arşivinde 2,67 milyar web sayfasından 400 terabayt veri kontrol ettikten sonra geçerli sırlar buldu.

Geliştiricilerin sert kodlanmış, LLM’lerin güvensiz kod üzerinde eğitilme potansiyelini gösteren başarılı bir şekilde doğrulanan 11.908 sır keşfettiler.

LLM eğitim verilerinin ham formda kullanılmadığı ve alakasız veriler, yinelenen, zararlı veya hassas bilgiler gibi gereksiz içeriği temizlemeyi ve filtrelemeyi içeren bir ön işleme aşamasından geçtiğine dikkat edilmelidir.

Bu tür çabalara rağmen, gizli verileri kaldırmak zordur ve süreç, kişisel olarak tanımlanabilir tüm bilgiler (PII), finansal veriler, tıbbi kayıtlar ve diğer hassas içeriklerin bu kadar büyük bir veri kümesini soymak için hiçbir garanti sunmaz.

Taranan verileri analiz ettikten sonra Truffle Security, Amazon Web Hizmetleri (AWS), MailChimp ve Walkscore hizmetleri için geçerli API anahtarları buldu.

HTML formunda AWS Kök Anahtarı
Ön uç html’de AWS kök tuşu
Kaynak: Truffle Security

Genel olarak, Trufflehog ortak tarama veri kümesinde 219 farklı gizli tip belirledi, en yaygın olanı MailChimp API anahtarları.

“Yaklaşık 1.500 benzersiz MailChimp API anahtarı, ön uç HTML ve JavaScript’te sert kodlanmıştı” – Truffle Security

Araştırmacılar, geliştiricilerin hatasının bunları HTML formlarına ve JavaScript snippet’lerine sabitlemek olduğunu ve sunucu tarafı ortam değişkenlerini kullanmadığını açıklıyor.

MailChimp API tuşları ön uç HTML ve JavaScript'te sızdı
MailChimp API Anahtarı ön uç HTML’de sızdı
Kaynak: Truffle Security

Bir saldırgan bu anahtarları kimlik avı kampanyaları ve marka taklit etme gibi kötü niyetli etkinlikler için kullanabilir. Ayrıca, bu tür sırların sızması veri açığa çıkmasına yol açabilir.

Rapordaki bir diğer vurgu, keşfedilen sırların yüksek yeniden kullanım oranıdır ve% 63’ünün birden fazla sayfada bulunduğunu söyler. Bunlardan biri, bir Walkscore API anahtarı, “1.871 alt alanda 57.029 kez görünüyordu.”

Araştırmacılar ayrıca, uygulamaların Slack’e mesaj göndermesine izin verdikleri için gizli tutulması gereken 17 benzersiz canlı Slack webhooks ile bir web sayfası buldular.

“Gizli tutun, güvende tut. Webhook URL’niz bir sır içeriyor. Genel sürüm kontrol depoları da dahil olmak üzere çevrimiçi olarak paylaşmayın ”diye uyarıyor Slack.

Araştırmanın ardından Truffle Security, etkilenen satıcılarla temasa geçti ve kullanıcılarının anahtarlarını iptal etmek için onlarla birlikte çalıştı. Araştırmacılar, “Bu kuruluşların toplu olarak birkaç bin anahtarı döndürmesine/iptal etmesine başarılı bir şekilde yardımcı olduk” diyor.

Yapay bir zeka modeli, araştırmacıların taradığı veri kümesinden daha eski arşivler kullansa bile, Truffle Security’nin bulguları güvensiz kodlama uygulamalarının LLM’nin davranışını etkileyebileceği konusunda bir uyarı görevi görür.



Source link