Deepseek, işleri açık bir şekilde hızlı hale getiren kod çözen bir çekirdek olan flashmla'yı ortaya çıkarır

Deepseek, NVIDIA’nın Hopper GPU mimarisi için optimize edilmiş çığır açan çok kafalı gizli dikkat (MLA) kod çözme çekirdeği olan Flashmla’yı piyasaya sürdü ve açık kaynak haftası girişiminin ilk büyük sürümünü işaretledi.

Bu yenilikçi araç, 3000 GB/s bellek bant genişliği ve 580 TFLOPS H800 GPU’lar üzerindeki benzeri görülmemiş performans metrikleri elde ederek AI çıkarım verimliliği için yeni ölçütler ayarlarken, gelişmiş BF16 desteği ve sayfalı KV önbellekleri yoluyla bellek yükünü azaltır.

Flashmla’nın mimarisi, modern AI araştırmalarından iki kritik yeniliği birleştiriyor: düşük dereceli anahtar değeri sıkıştırma ve konum farkında dikkat yolları.

Ayrı döner pozisyon gömeçlerini (halat) korurken Matrix Faktörleştirme yoluyla KV önbellek boyutlarını sıkıştırarak, çekirdek, konumsal doğruluktan ödün vermeden geleneksel dikkat mekanizmalarına kıyasla bellek tüketimini% 40-60 azaltır.

Bu, değişken uzunlukta dizilerin sorunsuz işlenmesini sağlar-doğal dil işleme ve üretken AI görevlerinde kalıcı bir zorluk.

64 element bellek blokları kullanan çekirdeğin blok tabanlı sayfalama sistemi, GPU kaynaklarının eşzamanlı çıkarım istekleri arasında dinamik tahsis edilmesine izin verir. CUDA 12.6 çalıştıran H800 SXM5 GPU’lar üzerinde test edildiğinde, flashmla, teorik bellek bant genişliğinin% 83’ünü ve hesaplamaya bağlı konfigürasyonlarda tepe floplarının% 91’ini gösterdi.

Bu verimlilik, önceki en son teknoloji uygulamalara kıyasla 175B parametre dil modelleri için 2.3x daha hızlı çıkarım hızlarına dönüşür.

Deepseek Yeni Flashmla

Deepseek, derhal üretim entegrasyonu için Flashmla’yı tasarladı:

BF16/FP16 Karma hassasiyet desteği Bellek tasarruflu eğitim ve çıkarım için
Fayans tabanlı zamanlama Sekans uzunluklarına ve donanım özelliklerine dayalı olarak çekirdek parametrelerini otomatik olarak ayarlayan
Uyumluluk Basit Python Bağlamaları ile Pytorch 2.0+ ile

Bu sadelik, CUDA seviyesi bellek birleştiren desenler ve cutlass ve flaş ve flaşlı projelerden uyarlanan çözgüsel uzmanlaşmış hesaplama boru hatları dahil olmak üzere sofistike kaput altı optimizasyonlarına inanmaktadır.

Deepseek’in açık kaynak haftasında başlatılan Flashmla, yoğunlaştırıcı AI altyapı yarışında stratejik bir oyunu temsil ediyor.

Deepseek, bu üretim sınıfı çekirdeğini izin veren lisanslama altında açık kaynaklayarak AI yığını etrafında ekosistem gelişimini teşvik ederken teknik liderlik kurmayı amaçlamaktadır.

Zamanlama, endüstrinin özel AI donanımına kaymalarla hizalanır-NVIDIA’nın hazne mimarisi, çeyrek 2025 itibariyle yeni AI süper bilgisayarlarının% 78’i. performans avantajları.

Erken benimseyenler dönüştürücü sonuçları birden çok alanda bildirir:

Sağlık hizmeti: Genomik sekans analizi, 18 ila 42 örnek arasında hızlandı
Finans: Yüksek frekanslı ticaret modelleri gecikmeyi% 63 azalttı
Özerk sistemler: Çok modlu füzyon ağları 22ms çıkarım süreleri elde etti.

Çekirdeğin değişken uzunlukta kullanımı, geleneksel dikkat mekanizmalarının dolgu belirteçleri üzerindeki hesaplamanın% 35-50’sini harcadığı, geri alma artışlı üretim (RAG) sistemleri için özellikle değerlidir. Flashmla’nın dinamik zamanlaması, sekans başına tam bellek tahsisi ile bu ek yükü ortadan kaldırır.

Serbest bırakıldıktan sonraki saatler içinde Flashmla, 3.7k Github Yıldızları ve 143 çatalgeliştiriciler “oyun değiştiren optimizasyon potansiyelini” övüyor. Deepseek ekibi, FP8 desteği ve çoklu GPU parçaları ile üç aylık güncellemeler planlıyor.

Yapay zeka modelleri daha karmaşık hale geldikçe, flashmla gibi algoritmik inovasyon ve donanım verimliliğini köprüleyen araçlar, akıllı sistemlerin bir sonraki dönemini tanımlayacaktır. Bu kritik altyapıyı açık kaynaklayarak, Deepseek kendisini AI’nın performans devriminin merkezine yerleştirirken, rakipleri teknik şeffaflığını eşleştirmeye zorluyor.

Source link

Deepseek, işleri açık bir şekilde hızlı hale getiren kod çözen bir çekirdek olan flashmla’yı ortaya çıkarır

Deepseek Yeni Flashmla

Son Yazılar

Kategoriler