Araştırmacılar yakın zamanda Meta’nın Bloom, Meta-Llama ve Pythia büyük dil modeli (LLM) depolarına tam okuma ve yazma erişimi elde edebildiler; bu, LLM yeteneklerini uygulamalarına entegre etmek için bu depoları kullanan kuruluşların tedarik zinciri risklerini rahatsız edici bir şekilde gösterdi. ve operasyonlar.
Erişim, bir saldırganın yaygın olarak kullanılan bu LLM’lerdeki eğitim verilerini sessizce zehirlemesine, modelleri ve veri kümelerini çalmasına ve milyonlarca alt kullanıcı için güvenlik risklerini artıracak diğer kötü amaçlı faaliyetleri potansiyel olarak yürütmesine olanak tanıyacaktı.
Sarılma Yüzünde Açıkta Kalan Jetonlar
Bu, Meta’nın sahip olduğu model depolarına aşağıdakileri kullanarak erişebilen AI güvenlik girişimi Lasso Security’deki araştırmacılara göre. GitHub ve Hugging Face’te keşfettikleri güvenli olmayan API erişim belirteçleri LLM geliştiricileri için platform.
Meta platformları için keşfettikleri tokenler, Hugging Face ve GitHub’da buldukları 1.500’den fazla benzer token arasında yer alıyordu ve bu tokenlar, toplam 722 kuruluşa ait depolara farklı derecelerde erişim sağlıyordu. Bunların arasında Google, Microsoft ve VMware vardı.
“Kuruluşlar ve geliştiriciler Hugging Face ve diğer benzer platformların çalışmadığını anlamalı [to secure] Lasso’da güvenlik araştırmacısı olan Bar Lanyado, kullanıcılarının token’ları açığa çıkardığını söylüyor. Erişimlerini korumak için gerekli adımları atmanın bu platformların geliştiricilerine ve diğer kullanıcılarına bağlı olduğunu söylüyor.
“Genel olarak üretken yapay zeka ve yüksek lisans tabanlı araçların çalıştırılması ve entegre edilmesi sırasında eğitim gereklidir” diye belirtiyor. “Bu araştırma, bu tür zayıflıklara ve güvenlik açıklarına ışık tutma ve bu tür sorunların güvenliğini güçlendirme yaklaşımımızın bir parçası.”
Hugging Face, birçok LLM profesyonelinin LLM projelerine yönelik araçlar ve diğer kaynaklar için kaynak olarak kullandığı bir platformdur. Şirketin ana teklifleri arasında aşağıdakileri sunan açık kaynaklı bir kütüphane olan Transformers bulunmaktadır: İndirme ve ayarlama için API’ler ve araçlar önceden eğitilmiş modeller Şirket, GitHub benzeri bir tarzda daha fazlasına ev sahipliği yapıyor 500.000’den fazla yapay zeka modeli ve 250.000’den fazla Meta, Google, Microsoft ve VMware’den gelenler dahil veri kümeleri. Kullanıcıların kendi modellerini ve veri setlerini platforma göndermelerine ve Hugging Face API aracılığıyla başkalarının modellerine ve veri setlerine ücretsiz olarak erişmelerine olanak tanır. Şirket şu ana kadar aralarında Google ve Nvidia’nın da bulunduğu yatırımcılardan yaklaşık 235 milyon dolar topladı.
Platformun yaygın kullanımı ve artan popülaritesi göz önüne alındığında, Lasso’daki araştırmacılar kayıt defterini ve güvenlik mekanizmalarını daha yakından incelemeye karar verdi. Egzersizin bir parçası olarak, Kasım 2023’teki araştırmacılar, Hugging Face’teki veri setlerine ve modellere erişmek için kullanabilecekleri açıkta kalan API tokenlerini bulup bulamayacaklarını görmeye çalıştılar. GitHub ve Hugging Face’te açığa çıkan API tokenlerini taradılar. Başlangıçta taramalar, özellikle Hugging Face’te yalnızca çok sınırlı sayıda sonuç döndürdü. Ancak Lanyado, tarama sürecinde küçük bir değişiklik yaparak araştırmacıların nispeten fazla sayıda açıkta kalan token bulmayı başardığını söylüyor.
Açığa Çıkan Tokenları Bulmak Şaşırtıcı Derecede Kolay
Lanyado, “Bu araştırmaya girerken büyük miktarda açığa çıkmış token bulabileceğimize inandım” diyor. “Fakat yine de bulgulara ve sadeliğe çok şaşırdım [with] bu tokenlara erişmeyi başardık.”
Lanyado, Lasso araştırmacılarının, yüksek düzeyde güvenliğe sahip olanlar da dahil olmak üzere birçok üst düzey teknoloji şirketine ait tokenlara erişebildiğini ve bazıları üzerinde tam kontrol elde edebildiğini söylüyor.
Lasso güvenlik araştırmacıları hem GitHub hem de Hugging Face’te toplam 1.976 token buldu ve bunların 1.681’inin geçerli ve kullanılabilir olduğu ortaya çıktı. Bunlardan 1.326’sı GitHub’da ve 370’i Hugging Face’teydi. Lasso’nun keşfettiği tokenlardan 655 kadarının Hugging Face’te yazma izni vardı. Araştırmacılar ayrıca Meta-Lama, Pythia ve Bloom kullanan 77 kuruluşa tam erişim sağlayan tokenlar da buldular. Lanyado, “Bir saldırgan bu API belirteçlerine erişim elde etmiş olsaydı, bazı durumlarda ana işleri olan şirketlerin modellerini çalabilirdi” diyor. Yazma ayrıcalıklarına sahip bir saldırgan, mevcut modelleri kötü amaçlı modellerle değiştirebilir veya kendi adına tamamen yeni bir kötü amaçlı model oluşturabilir. Kendisi, bu tür eylemlerin, bir saldırganın ele geçirilen modelleri kullanarak tüm sistemlerde yer edinmesine veya kullanıcı verilerini çalmasına ve/veya manipüle edilmiş bilgileri yaymasına olanak tanıyacağını belirtti.
Lanyado’ya göre Lasso araştırmacıları, Meta ile ilişkili birkaç token buldu; bunlardan biri Meta Llama’ya yazma iznine, ikisi de Pythia ve Bloom’a yazma iznine sahipti. Microsoft ve VMware ile ilişkili API belirteçlerinin salt okuma ayrıcalıkları olduğunu ancak Lasso araştırmacılarının tüm özel veri kümelerini ve modellerini görüntülemelerine olanak tanıdığını söylüyor.
Lasso, bulgularını etkilenen tüm kullanıcılara ve kuruluşlara, açığa çıkan tokenlerin iptal edilmesi ve ilgili depolardan silinmesi tavsiyesiyle açıkladı. Güvenlik satıcısı ayrıca Hugging Face’e sorun hakkında bilgi verdi.
Lasso’nun raporuna göre “Birçok kuruluş (Meta, Google, Microsoft, VMware ve daha fazlası) ve kullanıcılar çok hızlı ve sorumlu eylemlerde bulundu.” “Raporun yayınlandığı gün jetonları iptal ettiler ve halka açık erişim jeton kodunu kaldırdılar.”