CunoFS, Posix dosya erişimini S3 nesne depolama kapasitesine getirir


Posix uyumlu dosya erişimi ile bulut nesne depolamanın sonsuz kapasitesi – bu, Cambridge merkezli PetaGene’den CunoFS’nin vaadi.

Yapay zeka (AI), video üretimi, tıbbi araştırma ve güvenlik anormalliği tespiti gibi en iyi şekilde çalışması için genellikle derin veya yaygın kaynaklardan gelen verileri sık sık ve hızlı bir şekilde yenilemesi gereken iş yükleri için bir zorluktur. Normalde, çok büyük depolama hacimlerine erişirken hızlı bir şekilde okumak ve yazmak maliyetli bir önermedir.

PetaGene’in kurucu ortağı ve CEO’su Dan Greenfield, yakın zamanda Berlin’de düzenlenen IT Press Tour etkinliğinde, “Kapasite maliyetlerinden tasarruf etmek için çözüm, yerel olarak veya bulutta nesne depolamayı kullanmaktır” dedi. LeMagIT. “Sorun, uygulamaların genellikle nesne depolama için tasarlanmamasıdır. Genellikle NAS’ta dosya olarak açılır, kaydedilir vb. [network-attached storage]. Gerektiğinde HTTP istekleri göndermezler. [Amazon] S3.”

Dosya erişimini S3 klasörlerine koyun

Greenfield bazı örnekler verdi: “AWS’de [Amazon Web Services]1TB [terabyte] Sık erişilen S3 depolamanın maliyeti ayda 276 ABD dolarıdır. AWS’nin NAS hizmeti EFS ile fatura ayda 3.600 ABD dolarına çıkıyor. S3’te sunulanla aynı türde paralel erişim istiyorsanız, AWS FSx Lustre’ye ve ayda 7.200 ABD dolarına mal olan 1 TB’a ihtiyacınız olacak.”

Buna rağmen, pek çok kuruluşun uygulamaları dosya modunda olduğu gibi S3’te çalışacak şekilde dönüştürmesi pek olası değildir. İletişim protokolü farklılıklarını bir kenara bırakırsak – REST API’leri ile ana bilgisayar işletim sistemi aracılığıyla erişim – mevcut algoritmaları ve kullanıcı alışkanlıklarını da değiştirmek gerekir.

Nesne depolamada, dizin kavramı yoktur, kullanıcıların veya kullanıcı gruplarının Posix yönetimi yoktur, değişiklik yoktur, yalnızca yeni sürümlerin oluşturulması vardır. Kısacası dosyadan nesneye geçiş süreci uzun ve maliyetlidir.

NAS erişiminin yüksek maliyetleriyle başa çıkmak için geleneksel yaklaşım, nesne depolamanın önüne bir ağ geçidi koymak ve anında NFS veya SMB’yi dönüştürmek olmuştur. Bir ağ geçidi örneği, Python tabanlı açık kaynaklı s3fs’dir.

S3’te olacakları Greenfield, “Bu tür bir mimariyle ilgili sorun, ağ geçidinin, sunucuların paralel olarak sağlayabileceği tüm erişimi tek bir dosyaya koyan bir darboğaz oluşturmasıdır” dedi. “Çözümümüz, bir uygulama çalıştıran her sunucuda bir dosya/nesne ağ geçidi dağıtmaktır.”

CunoFS, “/cuno/s3” Posix yoluna sahip sunuculara bağlanır ve tercihlerde belirtilen kovaya işaret eder. Bu, “cd” komutunu kullanarak düşünce dizinlerinde gezinmeyi, “tar” ile dosyaları ayıklamayı, “chmod” ile erişim haklarını değiştirmeyi, “grep” ile içerikleri filtrelemeyi vb. mümkün kılar.

Geleneksel NAS’tan çok daha hızlı

CunoFS, yalnızca tek bir ağ geçidi darboğazından kaçınmakla kalmaz, aynı zamanda geleneksel NAS ile mümkün olanın ötesinde erişimi hızlandırır.

PetaGene’in performans rakamlarına göre bir AWS sanal sunucusuna kurulan CunoFS, Linux çekirdeği için kaynak kodunu 128 saniyede S3 depolamaya yazıp 21 saniyede okuyacak.

AWS’nin EFS NAS’ına yazmak için bir uygulama sunucusu kullanmak sırasıyla altı ve 10,5 dakika sürer. Burada yazma, okumadan daha hızlıdır çünkü EFS önbellek kullanır.

Aynı kodu aynı sunucudan aynı S3 depolamaya yazmak için s3fs gibi harici bir NAS/nesne ağ geçidinden geçmek iki saatten biraz fazla sürerken okuma işlemi yaklaşık 15 dakika sürer.

Ayrıca, artan sayıda şirket için uygun bir kullanım durumu olması muhtemel olan yapay zeka çerçeveleridir. Bu nedenle, Google Cloud Platform’da (GCP) barındırılan bir PyTorch sunucusu, bir s3fs ağ geçidi üzerinden bir nesne depolama hizmetine 260 Mb/sn hızında ve dönüştürme olmadan NAS’a 350 Mb/sn hızında yazacaktır. PyTorch sunucusundaki CunoFS ile bu hız 20 Gb/sn’ye çıkar.

CunoFS, HTTP istekleriyle uğraşması gerekmeyen bir NAS’tan daha hızlı dosyalarda okuma/yazma işlemini nasıl gerçekleştirir? Basitçe, CunoFS yalnızca yerel bir ağ geçidi değil, aynı zamanda anında sıkıştırma için verimli bir araç olduğu için. Daha hızlı çünkü çok daha az veri aktarıyor.

CunoFS: PetaSuite’in bir çeşidi

PetaGene, genom laboratuvarları için %60 ila %90 oranında azalma sağlayabilen PetaSuite sıkıştırma araçları tedarikçisi olarak başladı.

PetaSuite’i, dosyaların uygulama sunucularında anında sıkıştırılmasını ve yeniden sulandırılmasını sağlayan PetaLink kitaplığı izledi. NAS’ta hızlandırılmış okuma ve yazma işlemlerine izin veren şey buydu.

2018’de platform, anında nesne moduna dönüştürme ile dosyaları S3 kovalarında depolama yeteneği kazandı, ancak modülün genomik veriler dışında herhangi bir şey için kullanılmasından önce dört yıl daha geçti.

Greenfield, “Başlangıçta, PetaSuite Bulut Sürümü çok büyük dosyaları buluta kaydetmede çok verimliydi, ancak daha normal boyuttaki dosyalarda performans çok hayal kırıklığı yarattı” dedi. “Bu sorunu çözmenin, müşteri tabanımızı çok sayıda dosyayı işlemek isteyen herkesi kapsayacak şekilde genişletmemize izin vereceğini anladık.”

Tesadüfen PetaGene, Posix meta verilerini (dizinler, erişim hakları) S3’te depolanan diğer meta verilerle (yazarın adı, içerik türü) birlikte depolama hatası yaptığını fark etti.

Greenfield, “Posix meta verileri, S3 meta verilerinden çok daha basittir” dedi. “Çok daha sıkıştırılabilir ve onu birkaç dosya arasında birleştirebiliriz. Bu nedenle onu ayrı ayrı ele almak mümkün ve PetaSuite Bulut Sürümü bu şekilde CunoFS haline geldi.”

2022’den beri CunoFS, çözümlerini hızlandırmanın bir yolunu gören Dell ve NetApp başta olmak üzere bazı büyük depolama oyuncuları üzerinde büyüsünü yaptı.

Ayrıca PeteGene, Windows ve MacOS için bir istemci sürümünün yanı sıra Kubernetes kümeleri için bir CSI sürücüsü ile CunoFS uyumluluğunu Linux sunucularına genişletmeyi umuyor. ARM sunucularıyla uyumlu bir sürümün bu yılın sonuna kadar çıkması bekleniyor.



Source link