Daha iyi veri mühendisliği için bir yol


Bugünün veri peyzajı, işletmelerin binlerce belgeyi çok sayıda veri formatında işleme ihtiyacı nedeniyle kuruluşlar için eşi görülmemiş zorluklar sunmaktadır. Bunlar, FlowX.Ai için araştırma başkanı Bogdan Raduta’nın belirttiği gibi, PDF’lerden ve elektronik tablolardan görüntülere, multimedya’ya kadar, hepsinin bir araya getirilmesi ve anlamlı bilgilere dönüştürülmesi gereken multimedya arasında değişebilir.

Her veri kaynağının kendi veri modeli ve gereksinimleri vardır ve anlamlı bir şekilde bir araya getirilemedikçe, kuruluşlar veri silolarıyla uğraşırlar. Bu, kullanıcıların bir uygulama ve diğeri arasında hareket etmeye zorlandığı ve bilinçli karar almayı sağlamak için yararlı bilgiler elde etmek için farklı sistemlerden bilgileri kesme ve yapıştırdıkları anlamına gelebilir.

Bununla birlikte, geleneksel veri mühendisliği yaklaşımları, farklı formatlarda veri çekmenin karmaşıklığı ile mücadele etmektedir. “Geleneksel ETL iken [extract, translate and load] Veri boru hatları yapılandırılmış verilerin işlenmesinde mükemmeldir, gerçek dünya bilgilerinin belirsizliği ve değişkenliği ile yüzleşirken azalırlar ”diyor Raduta. Bunun anlamı, veri kaynaklarının çeşitliliği büyüdükçe, kural tabanlı sistemlerin kırılgan ve korunması pahalı hale gelmesidir.

Deneyiminde, Uygulama Programlama Arayüzü (API) ile tahrikli iş akışları için tasarlanmış modern entegrasyon platformları bile, doğal dil içeriğini etkili bir şekilde işlemek için gereken anlamsal anlayışla mücadele edin.

Yapay zeka (AI) ve verileri çevreleyen tüm hype ile, teknoloji endüstrisi gerçekten bu veri heterojenliğini ele alabilmelidir. Ancak, Big Veri Enstitüsü Genel Müdürü Jesse Anderson, veri bilimleri için gerekli olan iş rolleri ve becerilerin anlaşılamaması olduğunu savunuyor.

Anderson’a göre bir yanlış anlama, veri bilimcilerinin geleneksel olarak model oluşturan ve gerekli tüm mühendislik çalışmalarını yapan insanlarla karıştırılmış olmasıdır. Ancak şöyle diyor: “Veri ile ilgili bir şeyin nasıl yapılamayacağını duymak istiyorsanız, sadece veri ambarı için ‘ekibe’ gidin ve ‘Hayır, yapılamaz ‘. “

Veri projeleri hiçbir yere gitmiyor çünkü bu gerçeklik algısı endüstri için iyi bir şekilde ilerlemiyor diyor.

Bir Veri Mühendisliği Zihniyeti Geliştirme

Anderson, karışıklığın bir kısmının veri mühendisliği rolünün iki farklı tanımından geldiğine inanıyor.

Bir tanım, yapılandırılmış bir sorgu dili (SQL) odaklı kişiyi açıklar. Bunun, SQL kullanarak sorgular yazarak farklı veri kaynaklarından bilgi çekebilen biri olduğunu söylüyor.

Diğer tanım, veri sistemleri oluşturma konusunda özel bilgiye sahip bir yazılım mühendisidir. Anderson, bu tür bireylerin kod yazabileceğini ve SQL sorguları yazabileceğini söylüyor. Daha da önemlisi, SQL odaklı bir kişinin genellikle düşük kodlu veya kodsuz araçlara dayanan daha az karmaşık sistemlere tamamen bağımlı olduğu veriler için karmaşık sistemler oluşturabilirler.

“Kod yazma yeteneği, yazılım mühendisi olan bir veri mühendisinin önemli bir parçasıdır” diyor. İş ve sistem tasarımından karmaşık gereksinimler geldikçe, Anderson bu veri mühendislerinin bu karmaşık sistemleri oluşturmak için gereken becerilere sahip olduğunu söylüyor.

Ancak, ilk etapta doğru veri mühendisliği ekibini oluşturmak kolay olsaydı, herkes bunu yapardı. Anderson, “Bazı derin örgütsel ve teknik değişiklikler gerekli” diyor. “C-seviyenizi ekibi finanse etmeye ikna etmeniz, İK’yı iyi ödemeniz gerektiğine ikna etmeniz ve işleri yetkili bir veri mühendisliği ekibiyle çalışmanın veri sorunlarını çözebileceğine ikna etmeniz gerekecek.”

Deneyiminde, veri mühendisliği için doğru yola girmek, uyumlu bir çaba gerektirir, bu da takımlar farklı projeleri ele geçirdikçe organik olarak gelişmez.

Bilimden Dersler

Veri erişimi ile ilgili son bir sorunu hatırlatan Tetrascience ürününün kıdemli müdürü Justin Pront şunları söylüyor: “Büyük bir ilaç şirketi yakın zamanda bir yıllık biyo -üretim verilerini analiz etmek için AI kullanmaya çalıştığında, her veri mühendisine tanıdık bir duvara çarptılar: Veriler teknik olarak ‘erişilebilir’ ama pratik olarak kullanılamazdı. ”

Pront, şirketin enstrüman okumalarının tescilli formatlarda oturduğunu, bu nedenle kritik meta verilerin bağlantısı kesilmiş sistemlerde ikamet ettiğini söylüyor. Bunun anlamı, belirli bir deneyin koşullarını sorgulamak gibi basit soruların, birden fazla veritabanında manuel dedektif çalışması gerektirmesi gibi basit soruların olduğunu söylüyor.

“Bu senaryo, tekrar tekrar gözlemlediğim bir gerçeği vurguluyor – bilimsel veriler, kurumsal veri mimarileri için nihai stres testini temsil ediyor. Çoğu kuruluş veri silolarıyla boğuşurken, bilimsel veriler bu zorlukları mutlak sınırlarına itiyor ”diyor.

Örneğin, bilimsel veri analizi, pront’un “hassas enstrüman dizisi, tezgah bilimcileri tarafından yazılmış yapılandırılmamış notlar, tutarsız anahtar-değer çiftleri ve iş akışlarından o kadar karmaşık ki çok boyutlu sayısal setlere dayanmaktadır. . “

Pront için, bilimsel veri mühendisliğinden, veri mühendisliğini geliştirmek isteyen herhangi bir kuruluşun kavrayabileceği üç temel ilke vardır. Bunlar, dosya merkezli veri merkezli mimarilere geçiş, veri mühendisliği yoluyla bağlamdan kaynaktan dönüşüm yoluyla korunmanın önemi ve anında ve gelecekteki analiz ihtiyaçlarına hizmet eden birleşik veri erişim modellerine duyulan ihtiyaçtır.

Pront’a göre, Veri Mühendislerinin Yaşam Bilimlerinde Karşılaştığı Zorluklar, veri yoğun işletmelere fayda sağlayabilecek değerli dersler sunmaktadır. “Bağlamın korunması, veri bütünlüğünün sağlanması ve çeşitli analitik iş akışlarının sağlanması bilimsel alanların ve kullanım durumlarının çok ötesinde uygulanıyor” diyor.

Veri merkezli bir mimariye geçişi tartışarak şunları ekliyor: “Birçok işletme kullanıcısı gibi, bilim adamları da geleneksel olarak dosyaları birincil veri kapsayıcısı olarak görüyor. Bununla birlikte, dosya bilgileri sınırlı erişimli silolara ayırır ve önemli bağlamı ortadan kaldırır. Bu, elektronik laboratuvar dizüstü bilgisayarlarına (ELN) veya laboratuvar bilişim yönetim sistemine (LIMS) verileri almak için test sonuçlarını analiz eden bireysel bilim adamı için çalışırken, herhangi bir toplam veya keşif analizini veya AI ve ML [machine learning] Mühendislik zamanı ve emek yoğun. ”

Pront, modern veri mühendisliğinin verileri değerli kılan ilişkilere ve ilişkilere ve meta verilere odaklanması gerektiğine inanıyor. Pront için bu, veri soyunu, kalite metriklerini ve kullanım bağlamını yakalayan ve koruyan platformlar kullanmak anlamına gelir.

Veri bütünlüğü açısından şunları söylüyor: “Ondalık bir okumada sıfıra sıfırın atlanması gibi bilimsel çalışmalarda küçük veri değişiklikleri bile yanlış yorumlamaya veya geçersiz sonuçlara yol açabilir. Bu, farklı veri görünümlerini etkinleştirirken orijinal değerleri koruyan değişmez veri toplama ve tekrarlanabilir işleme boru hatlarına olan ihtiyacı artırıyor. ”

Sağlık hizmetleri, ilaç sektörü ve finansal hizmetler gibi düzenlenmiş endüstrilerde, veri dönüşümü ve analizi yoluyla bir dosyada veya kaynak sisteminde edinimden veri bütünlüğü pazarlık edilemez.

Bilim adamları için veri erişimine bakıldığında Pront, acil erişilebilirlik ile gelecekteki faydalar arasında bir gerilim olduğunu söylüyor. Bu açıkça birçok kuruluşun karşılaştığı bir durumdur. “Bilim adamları tercih ettikleri analiz araçlarındaki verilere sorunsuz erişim istiyorlar ve ihtiyaç duyuyorlar, bu nedenle elektronik tablolar veya yerelleştirilmiş görselleştirme yazılımı gibi genelleştirilmiş masaüstü tabanlı araçlarla sonuçlanıyorlar. Bu şekilde daha fazla silo ile sonuçlanıyoruz ”diyor.

Bununla birlikte, Pront’un belirttiği gibi, aynı hızlı analizi sağlamak için analiz araçlarıyla birlikte bulut tabanlı veri kümelerini de kullanırken, tüm işletme verilerin gelişmiş uygulamalar, AI eğitimi ve gerektiğinde düzenleyici başvurular için hazır ve hazır olmasından yararlanır. Delta ve buzdağı gibi açık depolama formatları üzerine inşa edilen veri göl tabehelerinin bu ihtiyaçlara yanıt olarak ortaya çıktığını ve birleşik yönetişim ve esnek erişim kalıpları sunduğunu söylüyor.

Mühendislik verileri akışları

Flowx.ai’den Raduta’nın daha önce de belirttiği gibi, bir kuruluşun işlenmesi gereken tüm farklı veri türlerini anlamama zorluğuna geri dönerek, ETL’nin işlerin şu anda ihtiyaç duyduğu şeyden çok daha kısa bir süre sonra.

Teknoloji sektörünün geliştirdiği AI’nın umut verici bir alanı büyük dil modelleridir (LLMS). Raduta, LLMS’nin veri mühendisliğine temelde farklı bir yaklaşım sunduğunu söylüyor. ETL araçlarının doğasında var olan deterministik dönüşüm kurallarına güvenmek yerine şunları söylüyor: “LLM’ler bağlamı anlayabilir ve yapılandırılmamış içerikten anlam çıkarabilir ve herhangi bir belgeyi etkili bir şekilde sorgulanabilir bir veri kaynağına dönüştürebilir.”

Raduta için bu, LLM’lerin veri işleme için tamamen yeni bir mimari sunduğu anlamına gelir. Temelinde, çeşitli giriş kaynaklarını işleyebilen akıllı bir yutma tabakası yatmaktadır. Ancak geleneksel ETL sistemlerinden farklı olarak Raduta, akıllı yutma katmanının yalnızca veri kaynaklarından gelen bilgileri çıkarmakla kalmayıp, yuttuğu tüm farklı veri kaynaklarının gerçekte ne söylediğini anlama yeteneğine sahip olduğunu söylüyor.

Veri mühendisliğine tek bir yaklaşım olması pek olası değildir. Tetrascience’ın pront’u BT liderlerini veri mühendisliğini zamanla gelişen bir uygulama olarak görmeye çağırıyor. Big Veri Enstitüsü’nün Anderson’ın belirttiği gibi, veri mühendisliğini geliştirmek, programlama becerilerini ve geleneksel veri bilimi becerilerini birleştirmek için gereken beceriler, liderlerin yönetim kurulunu ve İK insanlarını doğru veri mühendisliği becerilerini çekmek için ikna etmek zorunda kalacakları anlamına geliyor. Personel için bir prim ödemesi gerekecek.



Source link