NVIDIA, kullanıcılara GDDR6 belleğine sahip grafik işlemcilere yönelik Rowhammer saldırılarına karşı koruma sağlamak için sistem seviyesi hatası düzeltme kodunu etkinleştirmeleri için uyarıyor.
Yeni araştırmalar bir NVIDIA A6000 GPU’ya (grafik işleme birimi) karşı bir Rowhammer saldırısı gösterdiği için şirket tavsiyeyi güçlendiriyor.
Rowhammer, yazılım işlemleri yoluyla tetiklenebilen ve bellek hücrelerinin birbirine çok yakın olmasından kaynaklanabilen bir donanım hatasıdır. Saldırı DRAM hücrelerinde gösterildi, ancak GPU belleğini de etkileyebilir.
Bitişik veri bitlerinin değerinin birinden sıfıra ve tam tersine, tam tersi bir bellek satırına erişerek çalışır.
Etki, bir hizmet reddi durumu, veri bozulması ve hatta ayrıcalık artışı olabilir.
Sistem düzeyinde hata düzeltme kodları (ECC), gereksiz bitler ekleyerek ve veri güvenilirliği ve doğruluğunu korumak için tek bit hataları düzelterek verilerin integiritini koruyabilir.
VRAM’ın büyük veri kümelerini ve AI iş yükleriyle ilgili kesin hesaplamaları işlediği iş istasyonu ve veri merkezi GPU’larında ECC, çalışmalarında önemli hataları önlemek için etkinleştirilmelidir.
NVIDIA’nın güvenlik bildirimi, Toronto Üniversitesi’ndeki araştırmacıların, sistem düzeyinde ECC’nin etkin olmadığı “GDDR6 belleğe sahip bir NVIDIA A6000 GPU’ya karşı potansiyel bir Rowhammer saldırısı” gösterdiğini belirtiyor.
Akademik araştırmacılar, GPU anılarını çevirmek için bir saldırı yöntemi olan GPUHAMMER’i geliştirdiler.
CPU tabanlı DDR4 ile karşılaştırıldığında daha yüksek gecikme ve daha hızlı yenileme nedeniyle GDDR6’da çekiçleme daha zor olsa da, araştırmacılar GPU bellek bankalarına yönelik Rowhammer saldırılarının mümkün olduğunu gösterebildiler.
RTX A6000 dışında GPU üreticisi, aşağıdaki ürünler için sistem düzeyinde ECC’nin etkinleştirilmesini önerir:
Veri Merkezi GPU’ları:
- AMPRE: A100, A40, A30, A16, A10, A2, A800
- Orada: L40’lar, L40, L4
- Hopper: H100, H200, GH200, H20, H800
- Blackwell: GB200, B200, B100
- Turing: T1000, T600, T400, T4
- Volta: Tesla V100, Tesla V100S
İş İstasyonu GPU’lar:
- Amper RTX: A6000, A5000, A4500, A4000, A2000, A1000, A400
- RTX var: 6000, 5000, 4500, 4000, 4000 sff, 2000
- Blackwell RTX Pro (en yeni iş istasyonu hattı)
- Turing RTX: 8000, 6000, 5000, 4000
- Dönüş: Çerçeve GV100
Gömülü / Endüstriyel:
- Jetson Agx Orin Industrial
- IGX Müzik
GPU üreticisi, Blackwell RTX 50 Serisi (GeForce), Blackwell Veri Merkezi GB200, B200, B100 ve Hopper Veri Merkezi H100, H200, H20 ve GH200 gibi daha yeni GPU’ların, kullanıcıdan bir müdahale gerektiren ve gerektiren yerleşik ECC koruması ile birlikte geldiğini not eder.
Sistem düzeyinde ECC’nin etkin olup olmadığını kontrol etmenin bir yolu, “ECCModeenablabled” durumunu kontrol etmek için sistemin BMC’yi (süpürgelik yönetim denetleyicisi) ve Redfish API gibi donanım arayüz yazılımını kullanan bant dışı bir yöntem kullanmaktır.
NSM Type 3 ve NVIDIA SMBPBI gibi araçlar da yapılandırma için kullanılabilir, ancak NVIDIA ortak portalına erişim gerektirir.
Desteklendiği yerlerde ECC’yi kontrol etmek ve etkinleştirmek için sistemin CPU’sundan NVIDIA-SMI komut satırı yardımcı programını kullanan ikinci bir bant içi yöntemi de mevcuttur.
Rowhammer, savunmasız GPU’ların konuşlandırılabileceği bulut sunucuları gibi çok kiracılı ortamlarda veri bozulmasına neden olabilecek veya saldırılara neden olabilecek gerçek bir güvenlik endişesini temsil eder.
Bununla birlikte, gerçek risk bağlama bağımlıdır ve Rowhammer’ın güvenilir bir şekilde sömürülmesi karmaşıktır, belirli koşullar, yüksek erişim oranları ve hassas kontrol gerektirir, bu da bir saldırının yürütülmesini zorlaştırır.
Bulut saldırıları daha sofistike büyüyor olsa da, saldırganlar hala şaşırtıcı derecede basit tekniklerle başarılı oluyorlar.
Wiz’in binlerce kuruluşta tespitlerinden yararlanan bu rapor, bulut-yüzlü tehdit aktörleri tarafından kullanılan 8 temel tekniği ortaya koymaktadır.