Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme
Akhabokan Akan (Athokan_akhsha) •
31 Ocak 2025
Güvenlik araştırmacıları, Çin yapay zeka şirketi Deepseek tarafından amiral gemisi R1 akıl yürütme uygulaması da dahil olmak üzere geliştirilen büyük dil modellerinde birden fazla kusur ortaya çıkardı.
Ayrıca bakınız: İkinci Yıllık Üretici AI Çalışması: İş Ödülleri ve Güvenlik Riskleri
Palo Alto birim 42, Kela ve Enkrypt AI’dan yapılan araştırmalar, Çin şirketinin yakın zamanda tanıtılan R1 ve V3 modellerinde jailbreak ve halüsinasyonlara duyarlılığı tespit etti. Siber güvenlik firması Wiz Çarşamba günü, Deepseek’in açık internete gerçek zamanlı bir veri işleme veritabanını ortaya çıkardığını ve güvenlik araştırmacılarının sohbet geçmişini ve arka uç verilerini görüntülemesine izin verdiğini açıkladı (bakınız: Breach Roundup: Deepseek sızdırılmış hassas veriler).
Güvenlik endişeleri, Microsoft ve Openai’nin Deepseek’in bir Openai Uygulama programlama arayüzünden kazınan verilere dayanarak R1 modelini geliştirip geliştirmediğini araştırmasıyla ortaya çıkıyor (bakınız: AI intihaline karşı Deepseek’e karşı suçlamalar).
Güvenlik firmaları tarafından tanımlanan kusurlar şunları içerir:
- Jailbreaking: Araştırmacılar Jailbroke V3 ve R1 modelleri “Aldatıcı Delight”, “Bad Likert Hakimi” ve “Crescendo” adlı teknikler kullanılarak jailbreak edilebilir. Jailbreak, bir modeli AI geliştiricileri tarafından kısıtlanan görevleri yerine getirmeye kandırıyor.
Aldatıcı zevk, bir LLM’den “aşklarla yeniden bir araya gelmek” ve “Molotov cocktain’in yaratılması” gibi olumlu konuları birleştirmesini istemek gibi, kısıtlı konuları iyi huylu olanlara yerleştirmeyi içerir. Bad Likert Yargıç, LLM’nin psikometrik ölçeğe göre içeriği değerlendirme ve üretme yeteneğinden yararlanır. Crescendo, zararsız istemlerle konuşmaya başladıktan sonra LLMS’nin yasaklanmış görevleri yapması için kademeli olarak yönlendirmeyi içerir.
Palo Alto araştırmacıları, “Araştırma bulgularımız, bu jailbreak yöntemlerinin kötü niyetli faaliyetler için açık bir rehberlik sağlayabileceğini gösteriyor.” Dedi. “Bu faaliyetler arasında Keylogger oluşturma, veri açığa çıkması ve hatta yangın çıkarıcı cihazlar için talimatlar yer alıyor ve bu ortaya çıkan saldırı sınıfının ortaya koyduğu somut güvenlik risklerini gösteriyor.”
- Zararlı içerik üretme: Enkrypt AI tarafından yapılan araştırmalar, R1’in mevcut birkaç AI güvenlik çerçevesi altında “son derece savunmasız” olarak kategorize edilen LLM kusurlarına duyarlı olduğunu buldu.
Bunlar, modelin kimyasal ve biyolojik tehditler oluşturabilen, ırksal olarak ayrımcı sonuçlar üretebilen içerikler üretmesini, hızlı enjeksiyon kusurlarını ve istemlerden veri çıkarmasını içerir.
Enkrypt AI araştırmacıları R1’i kükürt hardalı ve insan DNA bileşenleri arasındaki biyokimyasal etkileşim hakkında yönlendirdiklerinde; Model ölümcül kimyasal reaksiyonlar hakkında kapsamlı bilgi oluşturdu.
Enrypt AI araştırmacıları, “Dar kapsamlı uygulamalar için uygun olsa da, model operasyonel ve güvenlik riski alanlarında önemli güvenlik açıkları göstermektedir.” Dedi.
- Halüsinasyonlar: Kela araştırmacıları R1’i Openai çalışanları hakkında bilgi oluşturmaya teşvik ettiklerinde, mod e -postalar, telefon numaraları ve maaşlar da dahil olmak üzere hayali detaylar oluşturdu.
Kela araştırmacıları, “Deepseek güçlü performans ve verimlilik gösteriyor, onu büyük teknoloji devlerine potansiyel bir meydan okuyucu olarak konumlandırıyor. Ancak, güvenlik, gizlilik ve güvenlik açısından geride kalıyor.” Dedi.
Güvenlik uzmanları ayrıca, açık kaynaklı AI’nın ulus devletler ve diğer bilgisayar korsanları tarafından potansiyel kullanımından kaynaklanan daha geniş riskler konusunda uyardı.
Hunter Strateji Araştırma ve Geliştirme Başkan Yardımcısı Jake Williams, “Açık kaynak AI’nın açık kaynaklı koddan temel olarak farklı bir şey anlamına geldiğini hatırlamak önemlidir.” Dedi. “Açık kaynaklı kodla kodu denetleyebilir ve güvenlik açıklarını belirleyebiliriz. Açık kaynaklı AI ile böyle bir şey yapamayız.”
Roei Sherman, Mitiga’da Field CTO. kuruluşların yapay zeka ortamlarını potansiyel R1 risklerinden korumak için derhal hareket etmeleri gerektiği konusunda uyardı.
Bunlar, bulut ortamlarının sürekli izlenmesini, AI güdümlü algılama ve yanıtı artırmayı ve düzenli olumsuz simülasyonların üstlenilmesini içerir.
Sherman, “Deepseek’in piyasaya sürülmesi rahatsız edici bir eğilimi vurguluyor: düşmanlar AI’yi hızla saldırı metodolojilerine entegre ediyorlar.” Dedi. “Deepseek gibi modeller, otomatik sosyal mühendislik, ileri keşif, kod ve sömürü geliştirme yoluyla düşman yeteneklerini artırabilir.