Daha hızlı LLM araç yönlendirmesi yeni güvenlik hususlarını da beraberinde getirir

Büyük dil modelleri, gerçek dünyadaki görevleri gerçekleştirmek için dış araçlara bağımlıdır, ancak bunları bu araçlara bağlamak çoğu zaman onları yavaşlatır veya hatalara neden olur. Hong Kong Üniversitesi’nin yeni bir araştırması bunu düzeltmenin bir yolunu öneriyor. Araştırma ekibi, LLM’lerin harici araçlara ve veri kaynaklarına bağlanmasını sağlayan arayüz olan Model Bağlam Protokolüne (MCP) ağ farkındalığı ekleyen NetMCP adında bir platform geliştirdi.

Araştırma, LLM’lerin hangi harici sunucuları veya araçları kullanacaklarını seçme şeklini geliştirmeye odaklanıyor. Anlamsal alaka düzeyini ve ağ performansını hesaba katan yeni bir yönlendirme algoritması sunar. Amaç, LLM’leri daha hızlı, daha güvenilir ve gecikme ve kesintilerin yaygın olduğu büyük ölçekli ortamlara daha uygun hale getirmektir.

Anlamsal eşleşmenin ötesine geçmek

MCP sistemleri, araç isteklerini yalnızca kullanıcı sorgusu ile araç açıklaması arasındaki anlamsal benzerliğe dayalı olarak yönlendirir. Bu teoride işe yarar ancak ağın gerçek durumunu göz ardı eder. En alakalı araç, yavaş veya kullanılamayan bir sunucuda bulunabilir ve bu da gecikmelere veya arızalara neden olabilir.

Araştırma ekibi, bu sınırlamanın onlarca veya yüzlerce MCP sunucusunun değişen ağ yükleri altında çalıştığı üretim ortamlarını etkilediğine dikkat çekiyor. Önerilen çözüm, ağ farkındalığını yönlendirme sürecine entegre ediyor, böylece LLM’ler hem bir aracın ne yaptığını hem de gerçek zamanlı olarak ne kadar iyi performans gösterdiğini değerlendirebiliyor.

Ağa duyarlı MCP platformu

NetMCP platformunun tasarımı

NetMCP bu fikir için bir test ortamı görevi görüyor. İdeale yakın koşullardan yüksek gecikmeye, sık kesintilere ve dalgalanan bağlantılara kadar değişen beş simüle edilmiş ağ durumuyla kontrollü bir ortam sağlar. Bu, araştırmacıların mükemmel bağlantı varsayımı yerine gerçekçi ağ davranışı altında yönlendirme algoritmalarını test etmelerine olanak tanır.

Atsign’ın CTO’su Colin Constable, bu tür performans odaklı tasarımın bazı ödünler verebileceğini söyledi. “NetMCP gibi platformlar, gecikme ve yük gibi ağ ölçümlerini LLM aracı aracı yönlendirmesine dahil ederek, temel olarak saldırı yüzeyini genişletiyor” diye açıkladı. “Bu mimari karar, kritik bir ödünleşimi beraberinde getiriyor: Doğrulanmamış ağ telemetrisine güvenerek performans optimizasyonunu sürdürmek, güvenlik titizliğinden ödün vermek demektir.”

SONAR algoritması

Platformun merkezinde Semantik Odaklı ve Ağ Farkındalı Yönlendirme veya SONAR adı verilen yeni bir algoritma bulunuyor. Anlamsal eşleştirmeyi ağ sağlığının sürekli izlenmesiyle birleştirir. Her MCP sunucusu iki faktöre göre puanlanır: araçlarının kullanıcının isteğiyle ne kadar alakalı olduğu ve sunucunun ağ bağlantısının ne kadar kararlı olduğu.

Algoritma, gecikme, kullanılabilirlik ve titreşim dahil olmak üzere çeşitli ağ kalitesi ölçümlerini izler. Ayrıca sunucuların nasıl davranacağını tahmin etmek için geçmiş verileri de kullanır. Bir sunucunun gecikmesi belirli bir eşiğin üzerine çıkarsa çevrimdışı olarak kabul edilir. Algoritma daha sonra koşullar iyileşene kadar yeni görevlerin bu sunucuya yönlendirilmesini önler.

SONAR, bu ölçümleri dengeleyerek, göreve en iyi uyan araçları seçmeye devam ederken değişen ağ koşullarına uyum sağlayabilir. Belgede üç çalışma modu açıklanmaktadır: kalite öncelikli, gecikmeye duyarlı ve dengeli. Bu modlar, uygulamaya bağlı olarak anlamsal doğruluk ve ağ performansı arasında farklı ağırlıklandırmalara izin verir.

Constable, bu dengenin aynı zamanda yeni güvenlik karmaşıklıkları da yarattığını kaydetti. “SONAR algoritmasının hem semantik benzerlik hem de ağ sağlığı gereksinimi, saldırganlar için gereksiz bir başarı yolu yaratıyor” dedi. “Bir saldırgan, eş zamanlı iki saldırıyı birleştirerek araç ele geçirmeyi başarabilir: kötü amaçlı giriş yoluyla anlamsal manipülasyon ve sistemi tehlikeye atılmış bir uç nokta seçmesi için kandıran ağ ölçüm sahteciliği.”

Gerçekçi bir test platformu oluşturma

NetMCP, deneyleri desteklemek için modüler bir sistem olarak tasarlanmıştır. Beş bileşenden oluşur: MCP sunucuları, bir ağ durum ortamı, sorguları işleyen bir aracı, bir yönlendirme algoritması modülü ve bir değerlendirme modülü. Platform hem canlı hem de simüle edilmiş testleri çalıştırabilir.

Canlı modda sistem, Exa, DuckDuckGo ve Brave gibi gerçek MCP sunucularına bağlanır. Simülasyon modunda, aynı koşulları harici bağımlılıklar olmadan yeniden üretir. Bu kurulum, araştırmacıların tekrarlanabilir testler yapmasına ve ağ davranışının performans üzerindeki etkisini izole etmesine olanak tanır.

Ağ ortamı oluşturucu, her sunucu için ayrıntılı gecikme profilleri oluşturabilir. Kontrollü süre ve olasılık ile sinüzoidal modeller veya rastgele kesintiler kullanarak dalgalanan bağlantıları simüle edebilir. Bu test koşulları, farklı yönlendirme stratejilerinin yan yana karşılaştırılmasına olanak tanır.

Farklı ağ koşullarındaki sonuçlar

Araştırmacılar SONAR’ı mevcut üç yaklaşımla karşılaştırdılar: Temel erişimle artırılmış nesil (RAG) yöntemi, LLM puanlamasını ekleyen yeniden sıralanmış bir sürüm ve PRAG adı verilen tahminle geliştirilmiş bir sürüm.

İdeal ağ koşullarında, tüm algoritmalar benzer doğrulukta performans gösterdi. Ancak RerankRAG, sorgu başına 20 saniyenin üzerinde gecikmelere neden olurken, SONAR ve PRAG iki saniyenin altında kaldı.

SONAR’ın avantajı ağ kararsız olduğunda daha da görünür hale geldi. Hibrit ve dalgalı senaryolarda PRAG’ın başarısızlık oranı yaklaşık yüzde 90’a ulaşırken, SONAR tüm başarısızlıklardan kaçındı. Ortalama gecikme yaklaşık 900 milisaniyeden yaklaşık 22 milisaniyeye düştü; bu, yanıt verme hızında önemli bir gelişmedir.

Sistemdeki her sunucuda periyodik dalgalanmalar yaşansa bile SONAR, PRAG’a kıyasla yüzde 93’lük görev başarı oranını korudu ve ortalama gecikmeyi yüzde 74 oranında azalttı. Bu sonuçlar, ağ bilinçli yönlendirmenin gerçek dünyadaki LLM performansında ölçülebilir bir fark yaratabileceğini göstermektedir.

Güvenlik ve dayanıklılıkla ilgili endişeler

Teknik kazanımlar önemli olsa da uzmanlar, tasarımın aynı zamanda potansiyel kullanım yollarını da açtığını söylüyor. Constable, saldırganların yönlendirme davranışını etkilemek için ağ sağlığı ölçümlerini taklit edebilecekleri konusunda uyardı. “Saldırganlar yönlendirme motorunu manipüle edebilir, aracının sorgusunu yanlış yönlendirebilir ve potansiyel olarak hassas verileri saldırganın kontrolündeki bir uç noktaya sızdırabilir” dedi. “Hizmet reddi saldırılarında, bir saldırgan meşru bir araç için ciddi yoğunlukları taklit edebilir ve aracıyı trafiği savunmasız bir alternatife yönlendirmeye zorlayabilir.”

MCP tabanlı sistemlerle deney yapan kuruluşların Sıfır Güven Yapay Zeka ilkelerini benimsemesini ve yönlendirme kararlarında kullanılan her türlü ağ telemetrisi için kriptografik kaynağı zorunlu kılmasını önerdi. Constable, “Doğrulama olmadan ağ sağlığı verileri saldırganlar için bir kontrol noktası haline gelir” dedi.

Proje için sonraki adımlar

Ekip, NetMCP’yi ek LLM’leri destekleyecek şekilde genişletmeyi ve yönlendirme sürecinde karar almayı iyileştirmenin bir yolu olarak takviyeli öğrenmeyi keşfetmeyi planlıyor. Gelecekteki testler, sistemin laboratuvar dışında ne kadar iyi performans gösterdiğini doğrulamak için farklı coğrafi bölgelere dağıtılmış dağıtımları içerecektir.

Yaklaşım beklendiği gibi ölçeklenirse, büyük modellerin harici sistemlere bağlanma biçimini iyileştirmede, gecikmeyi azaltmada ve kurumsal düzeydeki uygulamalar için güvenilirliği artırmada bir adım olabilir. Aynı zamanda ağ telemetrisinin eklenmesi, geliştiricilerin performans avantajlarını beraberinde gelen yeni güvenlik zorluklarına göre tartmaları gerektiği anlamına geliyor.

Source link