Araştırmacılar OpenAI korkuluklarını kırdı

ChatGPT’nin yapımcısı bu ayın başlarında yapay zekasını saldırılara karşı korumaya yardımcı olacak bir araç seti yayınladı. Neredeyse anında birisi onu kırdı.

6 Ekim’de OpenAI, ürünlerini kullanan yazılım programcıları için bir dizi yeni araç ve hizmeti tanıttığı DevDay adlı bir etkinlik düzenledi. Bunun bir parçası olarak, geliştiricilerin ChatGPT AI teknolojisini kullanarak AI aracıları oluşturmasına olanak tanıyan AgentKit adlı bir aracı duyurdu. Aracılar, dar görev gruplarını kendi başlarına çözebilen ve daha özerk kararlar alabilen uzmanlaşmış yapay zeka programlarıdır. Ayrıca görevleri otomatikleştirmek için de birlikte çalışabilirler (örneğin, seyahat ettiğiniz bir şehirde iyi bir restoran bulmak ve ardından size bir masa ayırtmak gibi).

Bunun gibi aracılar, bir görevi yerine getiren ve ardından sonraki talimatlar için size geri dönen önceki yapay zeka sürümlerinden daha güçlüdür. OpenAI’ye Guardrails’i AgentKit’e dahil etme konusunda ilham veren şey kısmen buydu.

Guardrails, geliştiricilerin aracıların kasıtlı veya kasıtsız olarak yapmamaları gereken şeyleri yapmalarını engellemelerine yardımcı olan bir dizi araçtır. Örneğin, bir temsilciye size geniş ölçekte şarbon sporlarının nasıl üretileceğini söylemesini söylemeye çalışırsanız, Guardrails ideal olarak bu talebi algılar ve reddeder.

İnsanlar sıklıkla “jailbreak” adı verilen bir yöntemi kullanarak yapay zekanın kendi kurallarını çiğnemesini sağlamaya çalışıyor. Çeşitli jailbreak teknikleri vardır, ancak en basitlerinden biri rol yapmadır. Birisi bomba yapmak için talimat isteseydi yapay zeka hayır diyebilirdi ama daha sonra yapay zekaya bunun sadece yazdıkları bir roman için olduğunu söylerse o zaman buna uyabilirdi. OpenAI gibi güçlü yapay zeka modelleri üreten kuruluşlar, sürekli olarak insanların bu gibi teknikleri kullanarak modellerini jailbreak yapmaya çalışabilecekleri yollar buluyor ve bunlara karşı yeni korumalar geliştiriyor. Guardrails, bu korumaları geliştiricilere açma girişimidir.

Her yeni güvenlik mekanizmasında olduğu gibi araştırmacılar hızla Guardrails’i kırmaya çalıştı. Bu durumda yapay zeka güvenlik şirketi HiddenLayer deneme yaptı ve jailbreak korumasını oldukça hızlı bir şekilde ele geçirdi.

ChatGPT, sorularınıza bir insan gibi cevap verebilecek kadar çok metin üzerinde eğitilmiş istatistiksel bir model olan geniş bir dil modelidir (LLM). Sorun şu ki, Guardrails aynı zamanda insanların koruduğu LLM’ye gönderdiği istekleri analiz etmek için kullandığı bir LLM’yi temel alıyor. HiddenLayer, bir Yüksek Lisans Yüksek Lisansı’nı koruyorsa, her ikisini de kandırmak için aynı tür saldırıyı kullanabileceğinizi fark etti.

Bunu yapmak için hızlı enjeksiyon saldırısı olarak bilinen yöntemi kullandılar. Yapay zeka için dikkatlice kodlanmış talimatlar içeren bir istemin içine metin eklediğiniz yer burasıdır.

Guardrails LLM, kullanıcının isteğini analiz eder ve bunun bir jailbreak girişimi olup olmadığına karar vermek için bir güven puanı atar. HiddenLayer’ın ekibi, LLM’yi güven puanını düşürmeye ikna eden bir bilgi istemi hazırladı, böylece normalde kabul edilemez istemlerini kabul etmesini sağlayabildiler.

OpenAI’nin Guardrails teklifi aynı zamanda hızlı enjeksiyon dedektörünü de içeriyor. HiddenLayer bunu da kırmak için hızlı bir enjeksiyon saldırısı kullandı.

Bu, insanların LLM’lere yapmamaları gereken şeyleri yaptırmanın yollarını bulduğu ilk sefer değil. Daha bu Nisan ayında HiddenLayer, LLM’leri aslında LLM’nin nasıl çalıştığını yöneten yapılandırma dosyalarına baktıklarına ikna ederek tüm önemli modellerde çalışan bir ‘Politika Kuklacılığı’ tekniği yarattı.

Jailbreak, yapay zeka dünyasında yaygın bir sorundur. Mart ayında, Palo Alto Networks’ün tehdit araştırma ekibi Unit 42, üç büyük platformu karşılaştırdı ve bunlardan birinin jailbreak girişimlerinin ancak yarısını engellediğini buldu (gerçi diğerleri daha iyi performans gösterdi).

OpenAI, geliştiricilere kendi korkuluklarını oluşturmak için LLM’leri nasıl kullanabilecekleri konusunda bir kılavuz yayınladığı en az Aralık 2023’ten beri bu sorun hakkında uyarıda bulunuyor. Şöyle dedi:

“LLM’leri korkuluk olarak kullanırken, temel LLM çağrınızın kendisi ile aynı güvenlik açıklarına sahip olduklarını unutmayın.”

Yapay zeka satıcılarının yüksek lisanslarını saldırılara karşı koruma çabalarıyla kesinlikle dalga geçmemeliyiz. Bu, çözülmesi zor bir sorundur ve siber güvenliğin diğer alanlarında olduğu gibi, saldırganlar ve savunucular arasında sürekli bir kedi fare oyunu vardır.

Bunun gösterdiği şey, bir yapay zeka asistanına veya sohbet robotuna ne söyleyeceğiniz konusunda her zaman dikkatli olmanız gerektiğidir; çünkü her ne kadar özel hissettirse de öyle olmayabilir. Dünyanın yarısı kadar uzakta, özenle yapay zekayı kendi iradesine göre şekillendirmeye ve ondan alabileceği tüm sırları çıkarmaya çalışan biri olabilir.

Yalnızca güvenlik açıklarını rapor etmiyoruz; bunları belirliyor ve eyleme öncelik veriyoruz.

Siber güvenlik riskleri asla bir manşetin ötesine yayılmamalıdır. ThreatDown Güvenlik Açığı ve Yama Yönetimi’ni kullanarak güvenlik açıklarını yedekte tutun.

Source link

Araştırmacılar OpenAI korkuluklarını kırdı | Malwarebytes

Son Yazılar

Kategoriler