AI ve yeni gözlemlenebilirlik kuralları

Yapay Zeka ve Makine Öğrenimi, Bulut Güvenliği, Yönetişim ve Risk Yönetimi

FPT’den Leonard Bertelli, reaktif izlemeden tahmini içgörülere geçişte

Kalra’ya inan •
29 Ağustos 2025

AI ve yeni gözlemlenebilirlik kuralları — Leonard Bertelli, Kıdemli Başkan Yardımcısı, Enterprise ve AI Solutions, FPT Americas

Bir zamanlar niş mühendislik endişesi olarak görüldüğünde, gözlemlenebilirlik artık işletmelerin işletme kompleksi, dağıtılmış ve yapay zeka güdümlü sistemler için kritik bir yetenek haline geldi. Yine de zorluklar devam ediyor – sessiz telemetri ve statik gösterge tablolarından, organizasyonları reaktif bir “izleme” zihniyetinde sıkışmış tutan kültürel atalete kadar.

Ayrıca bakınız: Ondemand Web Semineri | Cortex XSIAM3.0: #1 AI güdümlü SECOPS platformu

Bilgi Güvenliği Medya Grubu ile yapılan bu röportajda, FPT Americas’ta Enterprise ve AI Çözümleri Kıdemli Başkan Yardımcısı Leonard Bertelli, gözlemlenebilirliğin nasıl değiştiğini, kör noktalar AI iş yüklerinin tanıttığı ve hem kültür hem de teknolojinin işletmeleri ileriye taşımak için neden hizalanması gerektiğini paylaşıyor.

Bertelli, BT liderliği, iş geliştirme ve kurumsal mimaride yirmi yılı aşkın deneyime sahiptir. Fortune 500 şirketleri için miras modernizasyonu, bulut evlat edinme ve ölçeklenebilir teknoloji çözümlerinde kanıtlanmış bir geçmişe sahiptir.

Düzenlenen alıntılar aşağıdakileri takip edin:

Tarihsel olarak, kurumsal veritabanlarında gerçek gözlemlenebilirliğe ulaşmanın en büyük barikatları nelerdi ve bu mevcut mimarileri nasıl şekillendirdi?

Erken işletme gözlemlenebilirliği üç büyük barikata çarpmaktadır. Bir barikat, günlükler, metrikler ve izler ayrı sistemlerde yaşadığında meydana gelen sessiz sinyallerdir. Sonuç olarak, mühendisler semptomları görebiliyor, ancak nedenleri göremediler. Örneğin, 2010’dan önce, Google mühendisleri, günümüzün opentelemetrisine doğrudan ilham veren dahili izleme sistemi olan Dapper’ı oluşturana kadar dağıtılmış sistemlerde üretim sorunlarını hata ayıklamak için mücadele etti.

Yüksek kardinalite başka bir engel olabilir. Bu, bir veritabanındaki bir sütun, gözlemlenebilirliği aşındırabilen birçok benzersiz değer içerdiğinde meydana gelir. Bir örnek, Prometheus ve Grafit’in erken sürümleri gibi, etiket boyutlarının patlamasıyla bunalmış olan zaman serisi arka uçlarıdır. Petek gibi şirketler, yüksek kardinallik gözlemlenebilirlik verilerini ele almak için açıkça kuruldu.

Son olarak, statik gösterge tablolarını, sabit verilerin düzgün bir şekilde güncellenemediğinde gerçekleşecek potansiyel bir barikat olarak görmeliyiz. Netflix, bu sorunu Chaos Monkey deneylerinde belgeledi, bu da gösterge tablolarının dağıtılmış sistemlerde ortaya çıkan başarısızlıkları yakalayamayacağını ortaya koydu.

Gözlemlenebilirlik genellikle proaktif olmaktan ziyade reaktif olmuştur – işletmelerin “izlemenin” ötesinde olgunlaşmasını engelleyen kültürel veya teknolojik bir boşluk görüyor musunuz?

“İzleme” ile gerçek gözlemlenebilirlik arasındaki boşluk hem kültürel hem de teknolojiktir. İşletmeler izlemenin ötesinde olgunlaşmadı çünkü eski araçlar modern sistemler için inşa edilmedi ve örgütsel kültürler proaktif, paylaşılan güvenilirliğin sahipliğine doğru gelişiyor.

Birçok işletme, sistemler zaten üretildikten sonra gözlemlenebilirliği sonradan düşünen bir düşünce olarak ele alıyor, gösterge tablolarında ve uyarılarında cıvatalıyor. Zihniyet reaktiftir – mühendisler, kendi davranışlarını açıklayabilen tasarım sistemlerinden ziyade kesintilere yanıt vermek üzere eğitilmiştir. Yüksek sessiz organizasyonlarda, OPS ekipleri, geliştiriciler özellikleri iterken, inşa edenler ile hata ayıklayanlar arasında bir kopukluk oluştururken. Bu, içgörülerin geliştirme yaşam döngüsünün kendisine gömüldüğü proaktif gözlemlenebilirliğe doğru hareketi yavaşlatır.

Bugünün dağıtılmış sistemleri-mikro hizmetler, bulut yerli yığınlar ve özellikle AI iş yükleri-yüksek kardalı, yüksek boyutlu telemetri verileri üretir. Eski izleme “bilinmeyen bilinmeyenleri” ortaya çıkaramaz ve çoğu araç, bağlamsal, kök koruma içgörülerden ziyade eşik tabanlı uyarılara odaklanır. Günlükleri, izleri ve metrikleri gerçek zamanlı olarak ilişkilendiren teknoloji olmadan, işletmeler reaktif bir döngüde sıkışmıştır.

Olgun kuruluşlar, statik izlemeye dayanmak yerine, gözlemlenebilirliği CI/CD’ye yerleştiriyor ve korelasyon, nedensellik ve açıklanabilirliği vurgulayan platformları benimsiyor. Ancak kalıcı değişim kültürel uyum gerektirir.

AI sistemleri hangi benzersiz gözlemlenebilirlik kör noktalarını geleneksel araçların ele almadığını tanıtıyor?

Kör bir nokta, veri kaydırdığında meydana gelen ve varsayımlarını geçersiz kıldığında meydana gelen model sürüklenmesidir. 2016 yılında, Microsoft’un Tay chatbot’u, kullanıcı veri dağıtımlarına maruz kalması nedeniyle dikkate değer bir arızaydı. Altyapı izleme, çalışma süresinin iyi olduğunu gösterdi; Sadece çıkışların semantik gözlemlenebilirliği, modelin toksik davranışa kaymasını işaretleyebilirdi.

Gizli teknik borç veya kodda görülmeyen karmaşıklık gözlemlenebilirliği zayıflatabilir. Makine öğreniminde veya ML’de sistemlerde, boru hatları genellikle sessizce başarısız olurken, yeniden eğitme işlemleri, boru hatları ve geri bildirim döngüleri, geleneksel izleme araçlarının göz ardı edebileceği kırılgan bağımlılıklar yaratır.

Başka bir konu “tahminlerin opaklığı” dır. Bu, ML modeli gibi bir sistem, kullanıcıların kolayca anlayamadığı sonuçlar veya kararlar ürettiğinde ortaya çıkar. Örneğin, bir kredi onay modeli “yukarı” olabilir, ancak yine de önyargılı kararlar verebilir. Geleneksel izleme onu yakalamaz. Amazon’un hurdaya çıkarılan işe alım algoritması bir örnektir – altyapı iyi koştu, ancak eğitim verilerindeki önyargı nedeniyle sistem anlamsal olarak kırıldı.

AI iş yükleri katlanarak daha fazla telemetri verisi üretir. “Gözlemleme” hangi noktada bir kolaylaştırıcıdan ziyade hesaplama yükü haline gelir?

Bükülme noktası genellikle üç şekilde görülür:

Sinyal-gürültü oranı çökmeleri, takımlar yakaladığında meydana gelir her şey bir strateji olmadan ve gözlemlenebilirlik boru hatları gereksiz veya düşük değerli verilerle tıkanır, bu da anlamlı anomalileri izole etmeyi zorlaştırır;
Altyapı genel giderleri, telemetri ölçekleri olarak doğrusal olmayan bir şekilde yükselmeye zorlama ve hesaplama maliyetlerini zorlayarak, ekiplerin gözlemlenebilirlik araçlarını sürdürmek için AI iş yüklerini çalıştırmaktan daha fazla kaynak tahsis etmelerini gerektirir;
İnsan ve bilişsel aşırı yük, aynı anda çok fazla bilgi sunulduğunda ortaya çıkar. Gösterge panoları ve uyarılardan oluşan bir çığ ekipleri ezebilir, yanıt süresini hızlandırmak yerine yavaşlatabilir.

İronik olarak, AI gözlemlenebilirliği düzeltmek için de kullanılmaktadır. Ai -geliştirilmiş anomali tespiti, özellikle öngörücü güç açısından – geleneksel patern tanımadan nasıl farklıdır?

Geleneksel desen tanıma noktaları geçmiş beklentilere uygun sorunlar, ancak AI-gelişmiş algılama gelişen sistemlerle uyum sağlar, silolar arasında ilişkilidir ve meydana gelmeden önce başarısızlıkları tahmin eder-gözlemlenebilirliği bir arka görünüm aynası yerine ileriye dönük bir özelliğe dönüştürür.

Klasik izleme eşiklere, imzalara veya bilinen sapmalara dayanır. Örneğin, CPU kullanımı 5 dakika boyunca% 80’in üzerinde artıyorsa, bir uyarıyı tetikler. Bu “bilinen bilinenler” için çalışır, ancak sistemler beklenmedik bir şekilde davrandığında veya birden fazla ince sinyal etkileşime girdiğinde başarısız olur. Reaktiftir – anomaliler meydana geldikten sonra uyarılır. Nagios veya Zabbix gibi araçlar bu yaklaşımı izler.

AI ve ML modelleri, yüksek boyutlu telemetride normal davranışı dinamik olarak öğrenir – kütükler, izler, metrikler ve hatta yapılandırılmamış sinyaller. Sabit eşikler yerine, taban çizgileri iş yükü modelleri, mevsimsel dalgalanmalar veya kullanıcı davranışı ile gelişir. AI, tabakalar arasında sinyalleri ilişkilendirir, yüzeysel anomaliler basit kurallar kaçırır.

AI, erken göstergeleri tanıyarak – gecikme sürüklenmeleri, olağandışı bağımlılık çağrıları ve hafıza basıncı – gözlemlenebilirliği itfaiyeden önlemeye kaydırarak.

Kötü gözlemlenebilirlik verilerinin gözlemlenebilirliği artırmak için tasarlanmış AI sistemlerini yanlış yönlendirebileceği paradoksu nasıl ele alıyorsunuz?

Bunu ele almak için ekipler, gözlemlenebilirlik verilerini bir yan ürün yerine birinci sınıf bir ürün olarak ele almalıdır. Veri hijyeninin yapay zeka ile ilişkili önemi çok önemlidir, çünkü yanlış veriler kusurlu analizlere, yanlış sonuçlara ve kötü iş kararlarına yol açabilir.

Sinyal önceliklendirmesi veya uyarıların, metriklerin veya günlüklerin en çok önemli olan sıralama işlemi, dikkatlice ele alınmazsa AI tabanlı gözlemlenebilirlik sistemlerini gerçekten yanıltabilir. AI modelleri genellikle insan küratörlüğünü yapan önceliklerden öğrenir. OPS ekipleri tarihsel olarak CPU veya ağ metriklerini vurguladıysa, AI ortaya çıkan, eşit derecede kritik kalıplar-örneğin, bellek sızıntıları veya hizmet-hizmet gecikmesi gibi bu sinyalleri aşırı sıkabilir. Bu, modelin “eski önceliklere” karşı önyargılı hale geldiği ve yeni arıza modlarına kör olan sapma amplifikasyonu olarak ortaya çıkabilir. Önyargı genellikle gerçeği yansıtır.

Yapay zeka için geri bildirim döngüleri esastır. Anomali tespiti için AI modelleri döngüdeki insan geribildirimi ile yeniden eğitilir. Mühendisler, sistemin gerçek bir sorunu neyin oluşturduğunu öğrenmesini sağlayarak yanlış pozitifleri ve kök koruma bulgularını etiketler.

Birden çok veri kaynağının doğrulanması esastır. Tek bir veri akışına güvenmek kör noktalar oluşturur. Günlükler, izler, metrikler ve hatta harici sinyaller arasında ilişkili olmak, bozuk veya eksik verilerle yanılma riskini azaltır.

Diğer herhangi bir kritik veri kümesi gibi gözlemlenebilirlik verilerini tedavi ederek paradoksu çözersiniz – kalite sağlayarak, gürültüyü azaltır, birden fazla kaynakta doğrulama ve insanları döngüde tutar.

Bir takımın telemetrisi aşırı temsil edilirse, diğeri de seyrek ise, AI sistematik olarak yanlış olaylara öncelik verebilir. Yönetişim kritiktir. Tıpkı veri yönetişimi analitik ve yapay zekada merkezi hale geldiği gibi, “gözlemlenebilirlik yönetişimi” – hangi metriklerin önemli olduğunu tanımlamak, tutarlılığı sağlamak ve veri kaymasını izlemek – artık esastır.

Source link

AI ve yeni gözlemlenebilirlik kuralları

Son Yazılar

Kategoriler