Birçok işletme, artan miktardaki bilgiyi yönetmeye yardımcı olmak için veri göllerini kullanmaya yöneliyor.
Bu tür büyük veri havuzları, kuruluşların yapılandırılmış ve yapılandırılmamış verileri bir veri ambarında, veritabanında, kurumsal uygulamada veya veri bilimcilere, analitiklere ve yapay zeka (AI) araçlarına daha fazla veri yönetimi ve işlenmesi için devretmeden önce toplayıp saklamasına olanak tanır.
Ve potansiyel olarak çok büyük miktarda verinin mevcut olduğu ve iş büyüdükçe ölçeklendirme ihtiyacı göz önüne alındığında, daha fazla kuruluş bulutu bir veri gölü konumu olarak görüyor.
Veri gölü nedir?
Veri gölleri ham verileri tutar. Veriler, veri gölünden aşağı yönde – genellikle daha ileri işlemler için veya bir veritabanına veya kurumsal uygulamaya – gider. Veri gölü, tedarik zincirinden, müşterilerden, pazarlamadan, envanterden veya tesis veya makineden gelen sensör verilerine ilişkin işletmenin çeşitli veri akışlarının toplandığı yerdir.
Veri gölündeki veriler yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış olabilir. Firmalar, varlıkları bulmaya yardımcı olmak için meta veri etiketlemeyi kullanabilir, ancak varsayım, verilerin uzman uygulamalara aktarılacağı veya veri bilimcileri ve geliştiriciler tarafından üzerinde çalışılacağı yönündedir.
Amazon Web Services (AWS) iyi bir çalışma tanımı sunar: veri gölü, “yapılandırılmış ve yapılandırılmamış tüm verilerinizi istediğiniz ölçekte depolamanıza olanak tanıyan merkezi bir depodur. Verilerinizi ilk önce yapılandırmanıza gerek kalmadan olduğu gibi saklayabilirsiniz”.
Bu, bilgilerin çalışanların ve kurumsal uygulamaların erişebildiği veritabanlarında saklandığı veri ambarıyla çelişir.
Bulut veri gölleri: temel özellikler
Bulut veri gölünün temel özelliği ölçeğidir ve bunu yönetim kolaylığı takip eder. Hiper ölçekli bulut sağlayıcılarının veri gölleri nesne depolama üzerinde çalışır ve bunlar neredeyse sınırsız kapasite sunar. Tek kısıtlama muhtemelen kuruluşun veri depolama bütçesidir.
Diğer bulut depolama teknolojilerinde olduğu gibi, bulut veri göllerinin ölçeği de artırılıp azaltılarak müşterilerin iş gereksinimlerine göre kapasiteyi ve dolayısıyla maliyeti ayarlamasına olanak sağlanır. Hiper ölçekleyici, kapasite ekleme, donanım ve yazılım bakımı, yedeklilik ve güvenlikten sorumludur ve böylece bu yükü veri bilimi ekibinin üzerinden alır.
PA Consulting’de veri uzmanı olan Srivatsa Nori, “Bulut hiper ölçekleyicilerin sunduğu yönetilen veri gölü hizmetleri, veri mühendisliği ekiplerinin iş analitiğine odaklanmasına olanak tanıyarak onları yerinde veri gölü altyapısının bakımı gibi zaman alan görevlerden kurtarıyor” diyor.
“Bulut hiper ölçekleyicilerinin sunduğu yüksek güvenilirlik, kullanılabilirlik ve güncel teknoloji, güçlü performans ve minimum kesinti süresi sağladığından, yönetilen veri gölü altyapılarını giderek daha popüler hale getiriyor.”
Bulut sağlayıcıları aynı zamanda gelişmiş erişim kontrolleri ve denetimin yanı sıra kaynak etiketleme gibi araçlar aracılığıyla kolaylaştırılmış faturalandırma da sunuyor.
Her ne kadar veri gölleri ve veri ambarları şu ana kadar büyük ölçüde ayrı olsa da, ya tek bir platform üzerinde çalışarak ya da “veri göl evleri” olarak birbirlerine giderek yaklaşıyorlar.
Nori, “Modern bir veri mimarisinde, ücretsiz amaçlara hizmet ettikleri için veri gölü ve veri ambarı için bir yer vardır” diyor. “Bulut, her iki yaklaşımı birleştirmek için güçlü bir ortam sağlıyor.”
Bulut veri göllerinin artıları ve eksileri
Hiper ölçekli bulut depolamanın avantajlarının çoğu, ölçek, esneklik ve yönetim kolaylığı dahil olmak üzere bulut veri gölleri için de aynı şekilde geçerlidir.
Kuruluşlar ayrıca peşin sermaye harcaması ihtiyacını ve veri merkezi inşaatı ve donanım kurulumundan kaynaklanan uzun teslim sürelerini de ortadan kaldırır.
Buna karşı kuruluşların, özellikle maliyet konusunda olası kontrol kaybını dikkate alması gerekir. Bulut depolamanın esnek yapısı, bir veri gölünün beklenenden daha fazla kullanılması durumunda maliyetlerin artması anlamına gelebilir. Veri ekiplerinin, özellikle verileri veritabanlarına ve diğer uygulamalara “aşağı yönde” taşırken, çıkışı ve olası bant genişliği maliyetlerini de dikkate alması gerekir.
Güvenlik, gizlilik ve veri egemenliği bazı kuruluşlar için engel teşkil etmeye devam ediyor. Düzenlemeler, kuruluşların verileri nerede tutacağına dair sınırlamalar getirebilir ve işlenmemiş ham veriler son derece hassas olabilir. Hiper ölçekleyiciler artık müşteri verilerini nerede tutacakları konusunda kullanılabilirlik bölgeleri ve coğrafi sınırlar sunuyor. CIO’ların ve CDO’ların bu sınırların iş gereksinimlerini karşıladığından emin olmaları gerekir.
Ancak performans, büyük ölçekli veri gölü projeleri için genellikle bir engel oluşturmaz çünkü ağır iş süreçleri daha aşağı akışta gerçekleşir. Performans, veri ambarı düzeyinde daha fazla önem taşır; burada blok depolama (bulutta veya şirket içinde) veritabanı depolaması için kullanılır.
Hiper ölçekleyicilerin veri gölü teklifleri
Microsoft, bulutta veri gölleri oluşturan kuruluşlara Azure Data Lake Storage’ın (ADLS) yanı sıra analiz için Azure Synapse ve veri yönetimi için Azure Purview’i sunar. ADLS Gen2, ADLS Gen1’i Azure Blob depolamayla birleştirir; Synapse ise veri göl evleri için yapılandırılmış ve yapılandırılmamış verilerle çalışır.
AWS, S3 depolama alanında veri gölleri oluşturmak için AWS Lake Formation’ı sağlar. Bu, veri erişimi, analiz ve makine öğrenimi için Athena, Redshift Spectrum ve SageMaker ile birleştirilir.
Google, Google Cloud Storage’ı açık kaynaklı araçlar BigQuery ve VertexAI ile birleştirerek biraz farklı bir yaklaşım benimsiyor. Google ayrıca GCP, S3 ve Azure genelinde depolamayı birleştirebilen, veri gölleri ve veri ambarları için birleşik bir mimari oluşturabilen ve Google’ın “açık formatlı veri göl evi” olarak adlandırdığı BigLake’i de sunuyor.