OpenGuardrails: Yeni bir açık kaynak modeli, yapay zekayı gerçek dünyada kullanım için daha güvenli hale getirmeyi amaçlıyor

Büyük bir dil modelinden bir politikayı özetlemesini veya kod yazmasını istediğinizde muhtemelen güvenli bir şekilde çalışacağını varsayarsınız. Peki birisi veri sızdırmak veya zararlı içerik oluşturmak için onu kandırmaya çalışırsa ne olur? Bu soru yapay zeka korkuluklarına yönelik bir araştırma dalgasına yol açıyor ve OpenGuardrails adlı yeni bir açık kaynaklı proje bu yönde cesur bir adım atıyor.

AçıkKorkuluklar

OpenGuardrails.com’dan Thomas Wang ve Hong Kong Politeknik Üniversitesi’nden Haowen Li tarafından oluşturulan proje, büyük dil modellerinde güvenli olmayan, manipüle edilmiş veya gizliliği ihlal eden içeriği tespit etmek için birleşik bir yol sunuyor. Pek çok şirketin yapay zekayı geniş ölçekte kullanmaya başladıktan sonra karşılaştığı bir soruna odaklanıyor: her seferinde sistemi yeniden yazmaya gerek kalmadan güvenlik kontrollerinin farklı bağlamlara uyarlanabilir hale getirilmesi.

Yapay zeka güvenliğine esnek bir yaklaşım

OpenGuardrails’in temelinde yapılandırılabilir politika uyarlaması adı verilen bir şey vardır. Kuruluşlar, sabit güvenlik kategorileri yerine, neyin güvensiz sayılacağına ilişkin kendi kurallarını tanımlayabilir ve modelin hassasiyetini bu risklere göre ayarlayabilir.

Bu esneklik üretimde büyük bir fark yaratabilir. Bir finans firması veri sızıntılarını tespit etmeye odaklanabilirken, bir sağlık hizmeti sağlayıcısı tıbbi yanlış bilgilerle ilgili politikaları sıkılaştırabilir. Yapılandırma çalışma zamanında güncellenebilir, böylece sistemin ihtiyaçlara veya düzenlemelere göre uyum sağlamasına olanak sağlanır.

Bu tasarım, denetimi tek seferlik bir kurulum yerine yaşayan bir sürece dönüştürüyor. Yöneticiler sistemin ne kadar dikkatli olması gerektiğini tek bir parametreyle ayarlayabildiğinden, belirsiz durumların manuel olarak incelenmesini de azaltmayı hedefliyor.

OpenGuardrails CEO’su Thomas Wang, ekibin yapılandırılabilir hassasiyet eşiklerinin sahada ne kadar değerli olabileceğini zaten gördüğünü söyledi. “Bir yılı aşkın bir süredir OpenGuardrails’in gerçek dünyadaki kurumsal dağıtımlarını yürütüyoruz ve yapılandırılabilir hassasiyet eşiklerinin, farklı iş alanlarının çeşitli risk toleranslarına uyum sağlamada kritik öneme sahip olduğu kanıtlandı” dedi.

Her yeni dağıtımın bir “gri dağıtım” dönemiyle başladığını açıkladı. Wang, “Her yeni kullanım durumunda, kuruluşlar, varsayılan hassasiyet ayarlarını ve yalnızca kendine zarar verme veya şiddet gibi yüksek risk kategorilerini kullanarak bir haftalık gri dağıtım aşamasıyla başlar. Bu aşamada sistem, departmanlar kontrol paneli aracılığıyla eşik değerlerine ince ayar yapmadan önce kalibrasyon verilerini ve operasyonel geri bildirimleri toplar” dedi.

Sürecin çok farklı ortamlarda tutarlı sonuçlar gösterdiğini ekledi. “Yapay zeka destekli gençlere yönelik ruh sağlığı danışmanlığı sunan bir şirket olan müşterilerimizden biri, çok turlu görüşmelerde bile kendine zarar vermenin tespiti için son derece yüksek hassasiyet gerektiriyor. Şikayetleri ele almak için müşteri desteği için bir yapay zeka sistemi işleten başka bir kuruluş, küfür konusunda çok daha düşük hassasiyet kullanıyor ve olayın tırmanmasını tetiklemek için yalnızca en şiddetli hakaretleri işaretliyor.”

InfluxData’nın CISO’su Peter Albert, böyle bir aracı benimsemenin uzun vadeli bir çalışma taahhüdüyle birlikte gelmesi gerektiğini söyledi. “OpenGuardrails gibi bir aracı benimsemeye karar verdiğinizde, herhangi bir ticari üründen alacağınız doğrulama titizliğinin aynısını talep edin. Düzenli bağımlılık kontrolleri yapın, yeni güvenlik açıkları için topluluk izlemesi yapın ve periyodik dahili sızma testleri yapın. Bunu harici doğrulamayla eşleştirin ve en az yılda bir kez bağımsız denetimler yapılmasını zorunlu kılın” dedi.

Albert’in vurgusu, CISO’lar arasında açık kaynak araçlarının özel mülk yazılımlarla aynı güvenlik ve yönetişim standartlarını karşıladığına dair giderek artan bir beklentinin altını çiziyor. OpenGuardrails’in şeffaflığı bunu mümkün kılıyor ancak aynı zamanda kuruluşların izleme ve doğrulama konusunda aktif bir rol üstlenmesini de gerektiriyor.

Tek model, birçok savunma

Önceki güvenlik sistemleri genellikle birden fazla modele dayanıyordu; bunların her biri, anında enjeksiyon veya kod oluşturmanın kötüye kullanılması gibi farklı türdeki sorunları ele alıyordu. OpenGuardrails bu yapıyı basitleştirir. Hem güvenlik tespitini hem de manipülasyon savunmasını yönetmek için büyük bir dil modeli kullanır.

Bu yaklaşım, sistemin yalnızca yasaklı kelime filtrelerine bağlı kalmak yerine incelikli niyeti ve bağlamı anlamasına yardımcı olur. Ayrıca kuruluşların ayrı sınıflandırıcıları veya hizmetleri koordine etmesi gerekmediği için dağıtımı da kolaylaştırır. Model, gecikmeyi gerçek zamanlı kullanım için yeterince düşük tutan nicelenmiş bir biçimde çalışır.

Ekip, sistemi bir ağ geçidi veya API olarak dağıtılabilecek şekilde oluşturdu ve kuruluşlara sistemi nasıl entegre edecekleri konusunda kontrol sağladı. Platform, veri gizliliği ve mevzuat uyumluluğuna yönelik artan taleplere uygun olarak bir kuruluşun altyapısında özel olarak çalışabilir.

Wang, şirketin yeni tür saldırılara karşı savunma çalışmalarını zaten genişlettiğini söyledi. “Yeni yayınlanan jailbreak tekniklerini izleyen ve dahili kırmızı ekip oluşturma ve düşmanca deneyler yoluyla yeni 0 günlük saldırıları keşfeden özel bir güvenlik araştırma ekibimiz var” diye açıkladı. “Buna paralel olarak OpenGuardrails SaaS platformumuz, üretim ortamlarında yeni istem tabanlı saldırılarla karşılaşan kullanıcılardan gerçek dünya tehdit istihbaratının sürekli akışını sağlıyor.”

Tasarım gereği çok dilli

OpenGuardrails’in öne çıkan özelliği geniş dil kapsamıdır. 119 dil ve lehçeyi desteklemesi, farklı bölgelerde faaliyet gösteren şirketler için uygun olmasını sağlar. Çok az sayıda açık kaynak denetleme aracı bu ölçeği yönetebildi.

Bu alandaki araştırmayı güçlendirmek için ekip ayrıca çeşitli Çin güvenlik veri kümelerinin çevrilmiş ve uyumlulaştırılmış sürümlerini birleştiren ve Apache 2.0 lisansı altında ücretsiz olarak erişilebilen bir veri kümesi yayınladı. Bu sürüm gelecekteki çok dilli güvenlik çalışmalarının temeline katkı sağlıyor.

Güçlü sonuçlar, açık sürüm

Sistem İngilizce, Çince ve çok dilli karşılaştırmalarda iyi performans gösteriyor. Anında ve yanıt sınıflandırma testlerinde doğruluk ve yanıt tutarlılığı açısından önceki koruma modellerinden sürekli olarak daha yüksek sıralarda yer aldı.

Ancak performans hikayenin sadece bir kısmı. Yazarlar, modeli ve platformu açık kaynak olarak yayınlayarak başkalarının çalışmalarını incelemesine, denetlemesine ve geliştirmesine olanak tanır. Bu açıklık, işletmelere modeli kendi ihtiyaçlarına göre test etme ve uyarlama yolu verirken güvenlik araştırmalarındaki ilerlemeyi hızlandırmaya da yardımcı olabilir.

Albert’in tavsiyesi, açıklığın hesap verebilirlikle el ele gitmesi gerektiğini güçlendiriyor. Denetimlere ve dahili testlere verdiği önem, projenin açık tasarımıyla uyumlu olup kuruluşları, korkulukların kusursuz olduğunu varsaymadan korkulukları entegre etmeye teşvik ediyor.

Üretim göz önünde bulundurularak inşa edildi

OpenGuardrails kurumsal kullanım için yapılandırılmıştır. Kararlı yanıt sürelerini korurken yüksek trafiğin üstesinden gelebilir ve modüler bileşenleri mevcut yapay zeka hatlarına sığabilir. Model, olasılıksal güven puanları üreterek yöneticilerin, denetimin ne kadar sıkı olması gerektiğini ayarlayan sayısal eşikler belirlemesine olanak tanır.

Bu hassasiyeti ayarlama yeteneği, yanlış pozitifler ve negatifler üzerinde daha fazla kontrol sağlayarak kuruluşların denetim katılığını risk toleransları ve iş akışlarıyla uyumlu hale getirmelerine yardımcı olur.

Hexnode CEO’su Apu Pavithran, korkulukların yapay zeka gözetimini güçlendirirken aynı zamanda operasyonel zorluklara da yol açabileceğini söyledi. “Uyarı yorgunluğu hızla bir sorun haline gelebilir. Çoğu yönetici zaten zayıf bir alana yayılmıştır ve yeni algılama araçlarının eklenmesi iş yüklerini önemli ölçüde artırabilir” dedi.

Pavithran, uç nokta düzeyindeki proaktif kontrollerin bu yükü hafifletebileceğini ekledi. “Bu nedenle, riskli davranışları (ve dolayısıyla yapay zeka politikası ihlallerini) önleyen çözümler bu sorunu daha başlangıç aşamasında ortadan kaldırır. Birleşik uç nokta yönetimi, yetkisiz uygulamaların kara listeye alınmasına, harici hizmetlere belirli dosya yüklemelerinin önlenmesine ve cihaz politikalarının istekler bir korkuluğa ulaşmadan uygulanmasına olanak sağladığı için uç nokta düzeyindeki kontroller bunu yapmanın iyi bir yoludur” diye açıkladı.

En iyi sonuçların teknik ve insan faktörlerinin birleşiminden geldiğini söyledi. “Korkuluklar yapay zeka standardının belirlenmesine yardımcı oluyor ancak birkaçını saymak gerekirse daha sıkı uç nokta kontrolleri, kullanıcı eğitimi ve daha iyi gözetim ile uyum içinde en iyi şekilde çalışır. Kültürel eğitim ve teknolojik kontroller birleştirildiğinde herhangi bir çözümün tek başına sağlayabileceğinden daha güçlü bir savunmaya katkıda bulunur.”

Hala yapılması gereken işler

Güçlü performansına rağmen yazarlar sınırların farkındadır. Model, filtrelerini atlamak üzere tasarlanmış hedefli düşman saldırılarına karşı hâlâ savunmasız olabilir. Güvenli olmayan içeriğin tanımları bölgeler arasında farklılık gösterdiğinden, adil olma ve kültürel önyargılar da sorun olmaya devam ediyor. Ekip, yerel gereksinimleri karşılamak için bölgesel ince ayar ve özel eğitim araştırmayı planlıyor.

Ayrıca, daha güçlü savunmaların muhtemelen mühendislik iyileştirmelerinden ve dış araştırmacılarla işbirliğinden kaynaklanacağını da belirtiyorlar.

OpenGuardrails GitHub’da mevcuttur.

Source link