Birçok teknoloji uzmanı, büyük dil modellerini (LLM’leri) basit bir süreç olarak entegre etmeyi görüyor -Sadece bir API bağlayın ve çalışmasına izin veriyor. Wallarm’da deneyimlerimiz aksini kanıtladı. Titiz test ve yineleme yoluyla, mühendislik ekibimiz LLM’leri güvenli ve etkili bir şekilde dağıtma konusunda çeşitli kritik bilgileri ortaya çıkardı.
Bu blog, en yeni AI’yi bir güvenlik ürününe entegre etme yolculuğumuzu paylaşıyor. Aynı zamanda, her bir meydan okumayı kafa kafaya ele alan, genellikle varsayılan olarak hazır veya güvenli olmayan teknoloji ile çalışan Wallarm mühendislerinin bir kanıtıdır.
Onların özveri için minnettarım. Bir mühendislik lideri veya benzer karmaşıklıklarda dolaşan bir AI uygulayıcısıysanız, umarım deneyimlerimiz biraz rehberlik sağlayabilir.
1. Mükemmel istem efsanesi

Başlangıçta, “mükemmel istemi” efsanesine inanmak istedik. Yeterince iyi yazın ve LLM’niz her şeyi doğru bir şekilde cevaplayacak, değil mi? Ne yazık ki, gerçek şu ki, en basit görev için en iyi istem bile işleri yanlış anlayacak. Bazen komik. Bazen tehlikeli bir şekilde.
Güvenlikte, tek bir özledim, kayma tehdidi anlamına gelir. Bu yüzden asla “bir tane ve bitti” için yerleşmedik. Mühendislerimiz, her LLM çıktısının genellikle ek modeller ve rakip modüller tarafından birden çok kez doğrulandığı boru hatları inşa ettiler. Ensemble Teorisi’nden ilham aldık ve çalışmalarımızı Microsoft, DeepMind ve Reflexion ve Autogpt gibi diğer en son araştırmalarla destekledik.
Örneğin, bir saldırı yükünü sınıflandırırken, bir LLM çağrı yapar, ikincisi yeniden değerlendirir ve üçüncü bir düşman modülü “jailbreak” veya sonucu atlamaya çalışabilir. Bu katmanlı mimari sadece hoş bir şey değil; Bu bir zorunluluktur.
Burada ders nedir? Üretimde, güvenlik katkı maddesi değil, çarpımsaldır. Bir istem asla yeterli değildir.
2. LLM’ler en iyi anında mühendislerdir

Kurucu olarak benim için en alçakgönüllü anlardan biri, mühendislerimiz bana yapılandırılmış geri bildirim verildiğinde LLM’lerin kendi istemlerini herhangi bir insandan (hatta en kıdemli hızlı yazarlarımız bile) ayarlayabileceğini ve optimize edebileceğini gösterdiğinde geldi.
İşte böyle çalışır: Modelin kendi arıza durumlarını, istemi revize etmek için meta yüklemelerle besliyoruz. Çıktı gözden geçirilir, test edilir ve sıklıkla dağıtılır. İyileştirme eğrisi dramatikti. Hızlı revizyon daha hızlı, daha güvenilir ve daha da yaratıcı hale geldi. Bu, Self Serpine ve Headbreeder gibi araştırma makaleleri tarafından desteklenmektedir ve kendi deneyimimiz bunu doğrular.
Bu süreci teslim edici kontrol ile karıştırmayın. Bu, modelin güçlü ve yinelemesinden yararlanmak ve bazı görevlerde yeni araçların ne zaman daha iyi olduğunu tanımakla ilgilidir.
3. İstemlerin kendi CI/CD’sine ihtiyacı var

Yeni bir arka uç API’sını mı gönderiyorsunuz? Testler, günlük kaydı ve geri alma stratejileri olmadan üretime zorlamazsınız. Yine de birçok ekip sıfır doğrulama ile güncellemeleri istemektedir.
Wallarm’da kod gibi istemleri tedavi ediyoruz. Her değişiklik binlerce tarihi esere, bilinen tehdit modellerine ve kenar vakalarına karşı regresyon test edilmiştir. Gölge-Deploy, hem doğruluğu hem de semantik sapmayı ölçerek üretime kesmeden önce isteniyoruz.
Bu şekilde sayısız kenar vaka regresyonu yakaladık. Örneğin, son veya tipik girdiler üzerinde iyi performans gösteren ancak altı ay önce karşılaştığımız kritik, nadir saldırı yüklerini sessizce tespit edemeyen bir istem. Onları açıkça test etmedikçe bu başarısızlıklar ortaya çıkmaz, bu yüzden otomatik, tarihsel regresyon testi şarttır.
Buradaki ders, sürekli olarak testleri test etmenin ve izlemenin gerekli olmasıdır. Güvenlikte, güven kazanılmalı, varsayılmamalıdır.
4. Token ekonomisi bir gecede vardiya

Token maliyetlerini, API kotalarını ve model fiyatlandırmasını takıntılı hale getirmek kolaydır. Ancak deneyimlerimize göre, bu rakamlar herhangi bir yol haritasının ayak uydurabileceğinden daha hızlı değişir.
Gerçek öncelik maliyet tasarrufu değil, bu yetenek. En etkili üretim kazançları, geçici olarak daha yüksek masraflar anlamına gelse bile, model kalitesine öncelik vermekten kaynaklandı. Gördüğümüz gibi, aynı LLM özellikleri, sağlayıcılar daha verimli modeller yayınladıkça aylar sonra 10 kat daha ucuz olabilir.
Bunu şöyle düşünün: Kalite ve doğruluk önce gelir ve ekonomi takip eder.
5. Zor kısım hala insan

Buradaki temel paket, darboğazın LLM olmaması, etrafındaki zihniyet.
Parlak mühendislerin birkaç kötü çıktıdan sonra LLM’leri güvenilmez olarak yazdığını gördüm. Ancak bu sistemler genç mühendisler gibidir: koçluk, geri bildirim ve korkuluklara ihtiyaç duyarlar. LLM’ler sonsuz bir şekilde öğrenebilir, asla yorulabilir ve hızlı bir şekilde gelişebilir – ancak ekibinizin onları destekleme sabrına ve sürecine sahipse.
Wallarm’da, LLM gelişimini desteklemek için belgeler, geri bildirim döngüleri ve paylaşılan dahili araçlar oluşturduk. Mühendislerimiz mükemmellik beklemiyordu. LLM’ye büyülü bir kehanet olarak değil, bir takım arkadaşı olarak tedavi etmek için süreçler inşa ettiler. Nihayetinde, model sadece onu konuşlandıran ekip kadar etkilidir.
Kişisel Teşekkürler
Çalışmanın soyut hissettiği CEO olarak birçok gün var. Hepsi strateji, sayılar ve yatırımcı güverteleri. Ancak mühendislik ekibimizin ne başardığını görmek, takımın olgunlaşmamış, oyun kitaplarının yazılmadığı ve tehditlerin gerçek olduğu bir alanda öncülük etmek mi? Bu alçakgönüllü.
Wallarm’ın mühendisleri sadece LLM’leri kullanmıyor, aynı modelleri saldırılar, kaçırma ve jailbreaks için kullanmayı öğrenen müşterilerimiz ve rakipler arasında duruyorlar. Mükemmel araçlar beklemeyi göze alamayız. Onları inşa ediyoruz. Onları vurguluyoruz. Onları daha güvenli hale getiriyoruz.
Ekibe: Cesaretiniz, şüpheciliğiniz, köşeleri kesmeyi reddettiğiniz için teşekkür ederiz. Müşterilerimizin geceleri uyuyabilmesinin sebebi sizsiniz.
Daha geniş topluluğa: Güvenlikte yapay zekanın geleceği tek başına inşa edilmeyecektir. Üretimde LLMS’yi deniyorsanız, not alışverişi yapmak isteriz.