Yapay zeka altyapısı pahalı, karmaşık ve genellikle rakip öncelikler arasında yakalanır. Bir tarafta, güvenlik ekipleri güçlü bir izolasyon ve sınırlar istiyor. Öte yandan, mühendisler performans, yoğunluk ve maliyet tasarrufu için baskı yapıyorlar. GPU’lar kısa arzda ve baskı altında bütçelerle, denge kolay değildir.
Bu yardımda Net Güvenlik Videosu, Andrew Hillier, CTO at.
İş yükü izolasyonu veya uyumluluk, tamamen performansa dayalı Kubernetes optimizasyonlarıyla çatışma gibi güvenlik odaklı düşünceler nasıl olabilir ve ekipler bunları nasıl dengelemelidir?
Güvenlik ve performans optimizasyonu genellikle şirketleri zıt yönlere çeker. Kubernetes kaynak optimizasyonu ile bu farklı değildir. Tamamen kullanım ve yoğunluğu artırmayı hedeflediğinizde, doğal olarak iş yüklerini birbirine yaklaştırır ve kaynak paylaşımını en üst düzeye çıkarırsınız. Güvenliği en üst düzeye çıkarmak için izolasyon, özel kaynaklar ve iş yükleri arasındaki sınırlar istiyorsunuz.
Anahtar, izolasyon gereksinimlerini önceden tanımlamak ve daha sonra bu kısıtlamalar içinde agresif bir şekilde optimize etmektir. İş ödemelerini açık ve ölçülebilir hale getirin. Takımlar birinci ve ikinci sırada optimize etmeye çalıştıklarında, genellikle her şeyi tekrar yapmak zorundalar. Ancak, güvenlik sınırlarını belirlediklerinde, optimizasyon çalışması daha odaklanmış ve etkili hale gelir.
Kubernetes içindeki AI boru hatlarının ayarlanmasında gözlemlenebilirlik ve iş yükü profili oluşturma ne gibi rol oynuyor ve maliyet ve güvenlik kontrolleriyle nasıl kesişiyorlar?
AI iş yükleriyle uğraşırken gözlemlenebilirlik kritik hale gelir, çünkü yanlış yapmanın maliyeti daha yüksektir. Geleneksel uygulamalarla, yanlış yapılandırma atık bütçesini, ancak GPU’larla tüm maliyetler katlanarak artar.
Maliyet kontrolleri ile kesişme derhal. GPU kaynaklarınızın kullanıldığı veya sadece boşta oturup oturmadığına dair görünürlüğe ihtiyacınız var. Şirketlerin bütçelerinin önemli bir kısmını GPU’larda harcadıklarını gördük, çünkü asla uygun şekilde izlenmediler veya sadece kısa patlamalar için kullanıldıkları için optimize edilmesini karmaşık hale getiriyorlar. Bunu bir verim sorunu olarak görüyoruz ve GPU’lar gibi pahalı varlıklar üzerindeki verimi optimize etmek genellikle hedeftir, ancak bu ölçüm ve görünürlük ile başlar.
Gözlemlenebilirlik ayrıca, yanıt süreleri için tampon kapasitesinin gerekli olduğu% 100 kullanım ve çıkarım iş yüklerinde çalışan eğitim iş yükleri arasındaki farkı anlamanıza yardımcı olur. Görünürlük olmadan, ekipler ya overprovision, büyük atıklara neden olan veya yetersiz çıkarım iş yüklerine neden olur ve korkunç bir kullanıcı deneyimine neden olur. Yine, bu, maksimum verimin kullanım durumu tarafından dikte edilebileceği ve profil oluşturma verilerinin optimizasyon stratejisinin bir parçası haline geldiği bir GPU verimi sorunudur.
Bazı kuruluşlarda, GPU istifleme gelecekteki AI ihtiyaçlarına karşı bir çit olarak görülmektedir. Bu davranış boşa harcanan kaynaklara veya hatta güvenlik risklerine nasıl dönüşüyor?
İstifleme davranışı büyüleyici çünkü ekiplerin karşılaştığı arz kısıtlamaları göz önüne alındığında aslında rasyonel. Ancak, bariz olanların ötesinde basamaklı problemler yaratır.
Kaynak perspektifinden bakıldığında, şirketlerin gerçekte ihtiyaç duyduklarından çok daha fazla GPU kapasitesine sahip olduklarını gördük. Onu kullandıkları için değil, korktukları için, sonunda ihtiyaç duyduklarında alamayacakları ya da birkaç saat bile gitmesine izin vermeleri halinde geri almayacaklar. Bu istif pahalı ve aynı zamanda stratejik olarak sınırlayıcıdır. Yeni yeteneklere yatırım yapmak veya başarılı AI girişimlerini genişletmek yerine bütçeyi boş kaynaklara bağlıyorsunuz.
Güvenlik perspektifinden bakıldığında, ekiplerin istifleme ile kurtulabilmelerinin nedeni, güvenlik endişeleri olmasının nedenidir. Yapay zeka girişimleri genellikle son derece yüksek önceliktir, burada amaçlar araçları haklı çıkarır. Bu genellikle maliyet kontrolünü sonradan düşünür ve aynı dinamik, diğer işletme kontrollerinin inovasyon ve pazarın hakim olduğu zaman olarak daha gevşek olmasına neden olabilir.
Bu aynı zamanda örgütsel riske yol açabilir: yerleşik süreçlerin dışında çalıştığınızda, daha geniş bir altyapı stratejisinin bir parçası olmaktan ziyade kapasite planlama kararlarını tek başına alırsınız. Bu, gölge BT sorunlarına ve başka bir güvenlik endişe katmanına yol açabilir.
Şirketler gerçek kapasiteleri konusunda görünürlük kazanmalı ve gerçekten ne kadar kapasiteye ihtiyaç duydukları konusunda daha bilinçli kararlar almak için verileri kullanmalıdır.
Stratejik olgunluğa doğru hareket, güvenlik ekipleri, veri bilimcileri ve DevOps mühendisleri arasındaki konuşmayı nasıl değiştirir?
Yapay zeka kullanımı daha yaygın hale geldikçe, “herhangi bir maliyetle AI” dan “AI hesap verebilirlik”. Veri bilimi ekiplerine genellikle çok fazla özgürlük verildi ve kimsenin soru sormadan büyük GPU kümelerini hızla döndürdü. Şimdi, platform mühendisliği ekipleri, çoğu zaman boşta kalabilecek bilgi işlem kaynaklarına neden milyonlar harcadığımızı açıklığa kavuşturmak için konuşmaya getirildi.
Konuşma zorunluluktan daha işbirlikçi hale geldi. Güvenlik ekipleri, tam kapasitede çalışması veya yanıt süresi tamponları gerektiren iş yüklerinde çalışması gereken bir eğitim işi olsun, iş yükü modellerini anlar. Veri bilimcileri, çeyrek GPU bölümü yeterli olduğunda tam GPU talep edemeyeceklerini fark ettiler. Dahası, DevOps ekipleri, sadece operasyonel olup olmadıklarını kontrol etmenin ötesinde, bu maliyetli kaynaklarda çalışanların görünürlüğü ihtiyacını kabul ettiler.
Odak noktası, bölgesel anlaşmazlıklardan AI altyapısının finansal olarak sürdürülebilir olmasını sağlamak için ortak bir sorumluluğa doğru ilerlemiştir.
Geleneksel üretim verimi optimizasyonu ile AI altyapısına hem performans hem de güvenlik açısından nasıl yaklaşmalıyız?
Kesinlikle. GPU kullanımını tartışırken “verim” terimini özellikle kullanıyoruz çünkü neler olduğunu doğru bir şekilde tanımlıyor. Bu kaynaklardan elde edilen çıktıyı en üst düzeye çıkarmak istiyorsunuz. Tıpkı imalatta olduğu gibi, ekipmanın boşta kalmasını istemezsiniz. Bununla birlikte, AI iş yükleri için optimizasyon stratejisi tamamen ürettiğinize bağlıdır.
Modelleri antrenman yaparken, GPU’ları% 100 kullanıma itebilirsiniz, çünkü aslında bir parti iştir. Eğitim tamamlanana kadar onları yoğun bir şekilde çalıştırabilirsiniz. Buna karşılık, kullanıcılara hizmet veren çıkarım iş yükleri için, bazı arabellek kapasitelerini korumanız gerekir. % 100 kullanımla koşmak, herkes için yanıt sürelerinin yavaşladığı anlamına gelir.
Üretim benzetmesi de veri hazırlığı konusunda da devreye girer. Pahalı makineleriniz boşta oturuyorsa, girişler olarak gerekli olan hammaddeler mevcut değilse, veriminiz azalır. Aynı şey AI eğitim iş yüklerinin tamdır. Veri hazırlama aşaması GPU’ların boşta kalmasına neden olursa, GPU verimi azalır. Kaynaklar tek başına kullanılmıyor ve tüm sistem optimize edilmelidir.
Ve GPU’ları ve zaman dilimleme iş yüklerini bölümlemeye başladığınızda güvenlik yönü devreye girer. Hala genel verimi en üst düzeye çıkarırken farklı AI hizmetleri arasında izolasyon sağlamak önemlidir. Amaç, doğru dengeyi bulmaktır: ihtiyacınız olan kapasitenin dört katını istiflemek değil, aynı zamanda performansın acı çektiği kadar yalın olmamak.