
Deepseek, NVIDIA’nın Hopper GPU mimarisi için optimize edilmiş çığır açan çok kafalı gizli dikkat (MLA) kod çözme çekirdeği olan Flashmla’yı piyasaya sürdü ve açık kaynak haftası girişiminin ilk büyük sürümünü işaretledi.
Bu yenilikçi araç, 3000 GB/s bellek bant genişliği ve 580 TFLOPS H800 GPU’lar üzerindeki benzeri görülmemiş performans metrikleri elde ederek AI çıkarım verimliliği için yeni ölçütler ayarlarken, gelişmiş BF16 desteği ve sayfalı KV önbellekleri yoluyla bellek yükünü azaltır.
Flashmla’nın mimarisi, modern AI araştırmalarından iki kritik yeniliği birleştiriyor: düşük dereceli anahtar değeri sıkıştırma ve konum farkında dikkat yolları.
Ayrı döner pozisyon gömeçlerini (halat) korurken Matrix Faktörleştirme yoluyla KV önbellek boyutlarını sıkıştırarak, çekirdek, konumsal doğruluktan ödün vermeden geleneksel dikkat mekanizmalarına kıyasla bellek tüketimini% 40-60 azaltır.
Bu, değişken uzunlukta dizilerin sorunsuz işlenmesini sağlar-doğal dil işleme ve üretken AI görevlerinde kalıcı bir zorluk.
64 element bellek blokları kullanan çekirdeğin blok tabanlı sayfalama sistemi, GPU kaynaklarının eşzamanlı çıkarım istekleri arasında dinamik tahsis edilmesine izin verir. CUDA 12.6 çalıştıran H800 SXM5 GPU’lar üzerinde test edildiğinde, flashmla, teorik bellek bant genişliğinin% 83’ünü ve hesaplamaya bağlı konfigürasyonlarda tepe floplarının% 91’ini gösterdi.
Bu verimlilik, önceki en son teknoloji uygulamalara kıyasla 175B parametre dil modelleri için 2.3x daha hızlı çıkarım hızlarına dönüşür.
Deepseek Yeni Flashmla
Deepseek, derhal üretim entegrasyonu için Flashmla’yı tasarladı:
- BF16/FP16 Karma hassasiyet desteği Bellek tasarruflu eğitim ve çıkarım için
- Fayans tabanlı zamanlama Sekans uzunluklarına ve donanım özelliklerine dayalı olarak çekirdek parametrelerini otomatik olarak ayarlayan
- Uyumluluk Basit Python Bağlamaları ile Pytorch 2.0+ ile
Bu sadelik, CUDA seviyesi bellek birleştiren desenler ve cutlass ve flaş ve flaşlı projelerden uyarlanan çözgüsel uzmanlaşmış hesaplama boru hatları dahil olmak üzere sofistike kaput altı optimizasyonlarına inanmaktadır.
Deepseek’in açık kaynak haftasında başlatılan Flashmla, yoğunlaştırıcı AI altyapı yarışında stratejik bir oyunu temsil ediyor.
Deepseek, bu üretim sınıfı çekirdeğini izin veren lisanslama altında açık kaynaklayarak AI yığını etrafında ekosistem gelişimini teşvik ederken teknik liderlik kurmayı amaçlamaktadır.
Zamanlama, endüstrinin özel AI donanımına kaymalarla hizalanır-NVIDIA’nın hazne mimarisi, çeyrek 2025 itibariyle yeni AI süper bilgisayarlarının% 78’i. performans avantajları.
Erken benimseyenler dönüştürücü sonuçları birden çok alanda bildirir:
- Sağlık hizmeti: Genomik sekans analizi, 18 ila 42 örnek arasında hızlandı
- Finans: Yüksek frekanslı ticaret modelleri gecikmeyi% 63 azalttı
- Özerk sistemler: Çok modlu füzyon ağları 22ms çıkarım süreleri elde etti.
Çekirdeğin değişken uzunlukta kullanımı, geleneksel dikkat mekanizmalarının dolgu belirteçleri üzerindeki hesaplamanın% 35-50’sini harcadığı, geri alma artışlı üretim (RAG) sistemleri için özellikle değerlidir. Flashmla’nın dinamik zamanlaması, sekans başına tam bellek tahsisi ile bu ek yükü ortadan kaldırır.
Serbest bırakıldıktan sonraki saatler içinde Flashmla, 3.7k Github Yıldızları ve 143 çatalgeliştiriciler “oyun değiştiren optimizasyon potansiyelini” övüyor. Deepseek ekibi, FP8 desteği ve çoklu GPU parçaları ile üç aylık güncellemeler planlıyor.
Yapay zeka modelleri daha karmaşık hale geldikçe, flashmla gibi algoritmik inovasyon ve donanım verimliliğini köprüleyen araçlar, akıllı sistemlerin bir sonraki dönemini tanımlayacaktır. Bu kritik altyapıyı açık kaynaklayarak, Deepseek kendisini AI’nın performans devriminin merkezine yerleştirirken, rakipleri teknik şeffaflığını eşleştirmeye zorluyor.