Avrupa’nın ikinci büyük bilgisayarı Alps’in arkasındaki hikaye


CSCS olarak da bilinen İsviçre Ulusal Süper Bilgisayar Merkezi, NVIDIA ve HPE ile işbirliği içinde yeni bir süper bilgisayar kurdu ve kullandı.

Alpler olarak adlandırılan makine, 2024’ün sonunda sıraya girdi ve zaten dünyanın en güçlü yedinci süper bilgisayar olarak listeleniyor – ve Avrupa’nın en güçlü ikinci. Computer Weekly, CSCS direktörü Thomas Schulthess ve ETH’de Hesaplamalı Fizik Profesörü ile oturdu [Eidgenössische Technische Hochschule or Federal Institute of Technology] Zürih, daha fazlasını öğrenmek için.

Alplerin tarihi nedir ve yol boyunca hangi mimari kararlar verdiniz?

Thomas Schulthess: CSC’ler ve Alpler arasındaki farkı açıklayarak başlayacağım. CSCS insanlarla bir merkezdir. Ana tesis Lugano’da, Futbol Stadyumu ve Buz Hokeyi Stadyumu yakınında. 1991 yılında, ben gelmeden çok önce kuruldu ve en büyüğü 2024’te çevrimiçi olan ALP’ler olan süper bilgisayarları konuşlandırdığımız ve işlettiğimiz yer. Alplerden önce, zaten birçok süper bilgisayar dağıtmıştık.

Örneğin, Avrupa’daki ilk GPU tabanlı süper bilgisayar olan hibrit bir Cray XC40/XC50 makinesi olan Piz Daint vardı. ABD’deki Oak Ridge Ulusal Laboratuvarı’nda Jaguar zamanında olan 2012-2013 yılları arasında konuşlandırdık.

Bizi özel kılan şeylerden biri, İsviçre meteoroloji hizmeti Meteoswiss için süper bilgisayarlar tasarlamamız, oluşturmamız ve işletmemiz. Normalde, hava hizmetleri kendi bilgisayarlarını yürütür, ancak bizim durumumuzda bunu onlar için yapıyoruz. Sonuç olarak, onlarca yıldır Meteoswiss ile güçlü bir işbirliği yaptık.

Alps, farklı bilgisayarları tek bir platforma getirmek için bir çabadır – ve 2015’te sahip olduğumuz merkezin akran incelemesi ile motive edildi, burada bize Piz Daint’i konuşlandırdığımızı söyleyen çok güçlü bir mesaj aldık, ancak şimdi Bilimsel hesaplamada veri ve karmaşık iş akışlarının zorluklarıyla yüzleşmelidir.

İşte o zaman süper bilgisayarı nasıl geliştireceğine dair seçenekler aramaya başladık. Ve o zaman Cray ile işbirliği olarak ortaya çıkan şey ve şimdi 2019’da Cray’i satın alan HPE. Mimarlık. Bizim için bu gerçekten iyi bir gelişimdi, ama çok zor, herkesin tahmin ettiğinden çok daha zor olduğu ortaya çıktı.

Ancak 2018-2019 yılları arasında bu şekilde gitmeye karar verdik. Tedarik yaptık ve Cray sözleşmeyi kazandı. Daha sonra rakip mimarileri – Nvidia’ya karşı AMD – düşündük ve sonunda her ikisine de gittik. Ölçeği Grace Hopper ile yaptık [from Nvidia]; Ve şimdi de MI300A hızlandırıcılarının önemli bir bölümüne sahibiz [from AMD] Alpler üzerinde.

Ve bugün Alpler nasıl çalışıyor?

Schulthess: Alplerin bugün çalışma şekli, Frontier ve Lumi gibi çok büyük bir sapan ağına sahip olması ve ağı bölümleyebilmemizdir. Her ağ uç noktasının sonunda bir depolama aygıtı veya bir hesaplama düğümü bulunur. Ve hesaplama düğümleri ya Grace Hopper (GH200) tabanlı veya AMD-MI300A tabanlıdır. Ayrıca düğümü Lumi ve Frontier ile aynı hale getiren NVIDIA A100 ve AMD MI250X işlemcilerimiz var. AMD Roma tabanlı düğümlerimiz de var, bu yüzden geleneksel bir çok çekirdekli bölüm.

Bu nedenle, ALP’lerde çok sayıda hesaplama mimarisini destekliyoruz. Oradaki fikir, farklı iş yüklerine hizmet edebileceğimizdir. Uygulama yazılımı geliştirmeye odaklanıyoruz. Böylece, tüm bu tür mimarileri yazılım geliştiricileri için kullanılabilir hale getirebiliriz. Ve bugün buradayız.

Alplerde nasıl hizmet sunuyorsunuz?

Schulthess: Alpleri farklı hizmet türleriyle bulut benzeri bir deneyim gibi görebilirsiniz. Hizmet olarak altyapı sunabiliriz (IAAS). Tipik olarak, IAAS’ı bir senkrotrona erişim de dahil olmak üzere birkaç büyük kullanıcı programı çalıştıran Paul Scherrer Enstitüsü gibi diğer araştırma altyapılarına sunuyoruz. [the Swiss Light Source]serbest elektron lazeri [SwissFEL]ve muon bilimlerini incelemek için İsviçre spallasyon nötron tesisi. Ve böylece Alpler üzerinde bir bölüm alırlar ve üzerinde kendi platformlarını çalıştırırlar.

Diğer durumlarda, yapay zeka veya geleneksel HPC veya iklim ve hava durumu için bir platform oluşturabiliriz. Ve sonra kendi işlevlerini bir hizmet olarak çalıştıran kullanıcılarımız veya topluluklarımız var ve onlara hizmet olarak bir platform sunuyoruz. Ayrıca, Alpler üzerinde bir bölüm olan Dünya LHC Compute Grid’in bir parçası olan LHC veri analizi için kare kilometre dizisi veya İsviçre Tier İkinci gibi büyük deneylerle de ilgileniyoruz.

Ve muhtemelen en önemli şey, Meteoswiss için ayrı bir bilgisayara sahip olduğumuz yer, yeni modelle birlikte, sayısal tahmin sistemi simgelerini ALP’lerde bir bölüm halinde çalıştırıyoruz.

Görünüşe göre simgenin şimdi bir bölümde çalıştığı gerçeği, Alplerin boyutunun iyi bir göstergesidir?

Schulthess: Size boyutu, aynı zamanda kaplayabileceğimiz genişliği de gösterir. Geleneksel olarak, bir süper bilgisayar benzersiz bir sistemdir. Heterojen olabilir-örneğin, Piz Daint, çok çekirdekli düğümlere, GPU’ya aktarılmış düğümlere sahip olması nedeniyle heterojendir. Heterojen olabilir, ancak programlama ortamı ve bunun gibi şeyler açısından tek bedene uyan bir çözüm olduğu için tek tip bir sistem olarak denetlenmiştir.

Tipik olarak, kullanıcılar belirli bir süper bilgisayara uyum sağlamak zorundadır. Yani, temelde bir çekiç var ve her şeyi bir çivi gibi göstermeniz gerekiyor. Şimdi Alpler’de, kullanıcılara uyum sağlamak için bu bölümlerde bölümler ve yazılım ortamı oluşturabiliriz.

CSC’leri ve ALP’leri kim finanse eder?

Schulthess: Araştırma altyapısı olarak ALP’ler ETH alanı tarafından finanse edilmektedir. CSCS, aynı zamanda fizik profesörü olduğum Eth Zürih’in bir birimidir. ETH Zürih ve EPFL, Lausanne’deki kardeş okulu ve dört ulusal laboratuvar, ETH Alanı olarak adlandırılan şey altında birleştirilir.

Tüm alan adı Devlet Eğitim, Araştırma ve Yenilik Sekreterliği tarafından finanse edilmektedir – bu bizim ana finansman kaynağımızdır. Ancak Meteoswiss kısmı Meteoswiss tarafından finanse ediliyor ve finansman kaynakları ne olursa olsun. Bu yüzden, orada net bir ayrım yapmalıyız. Ayrıca, çoğu araştırma altyapısı gibi, yaklaşık%20 aralığında üçüncü taraf finansmanına sahiptir.

Kamu tarafından finanse edilen bir altyapı olduğumuz için, diğer üçüncü taraflarla çalışsak ve tam maliyet geri kazanımı elde etsek bile, hala sübvanse ediyoruz ve sübvansiyonlar ölçeklenmiyor. Ticari şirketlerle araştırma işbirliği yapabilmemize rağmen, altyapımızda ticari faaliyetler olamayız. Ve şirketlerle işbirliği yaptığımızda, bu işbirliklerinin kurtarma maliyetlerini finanse etmelidirler.

Openchami konsorsiyumuna katılımınız ne olacak?

Schulthess: Openchami konsorsiyumu şu anda beş ortak içeriyor: Los Alamos Ulusal Laboratuvarı, NERSC [National Energy Research Scientific Computing Center]Lawrence Berkeley Ulusal Laboratuvarı, Bristol Üniversitesi, HPE ve CSC’ler.

Konsorsiyum, geleceğin sistem yönetimi altyapısını geliştiriyor. Alpler bu gelişmede önemli bir kullanım durumudur. Bu yüzden sistem yönetimi yazılımı önümüzdeki iki veya üç yıl içinde – burada CSC’lerde, aynı zamanda Bristol, Los Alamos’ta ve Berkeley’de de gelişmeye devam edecek.



Source link