新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 摩爾線程完成DeepSeek-V4全鏈路工程化適配：S5000基于MUSA+SGLang實現(xiàn)復雜MoE模型快速落地

摩爾線程完成DeepSeek-V4全鏈路工程化適配：S5000基于MUSA+SGLang實現(xiàn)復雜MoE模型快速落地

作者：時間：2026-05-01 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

近日，摩爾線程依托旗艦級AI訓推一體智算卡MTT S5000與自研MUSA軟件棧，基于SGLang 開源推理框架，成功完成DeepSeek-V4的完整運行驗證。該成果表明，面向新一代MoE大模型，摩爾線程已構建起從硬件架構核心計算引擎承接、熱點算子支持，再到端到端部署驗證的系統(tǒng)化適配鏈路，驗證了國產(chǎn)GPU平臺對前沿大模型“框架級兼容、開箱即落地”的承載實力及工程化落地能力。

隨著大模型架構持續(xù)演進，DeepSeek-V4等先進模型對底層精度能力、算子覆蓋、編譯優(yōu)化、并行通信和推理效率提出了嚴苛要求。摩爾線程充分發(fā)揮S5000原生FP8算力、MUSA對CUDA深度兼容、TileLang MUSA編譯器對TileLang生態(tài)完美支持等優(yōu)勢，結合TileKernels開源庫復用，基于TileLang快捷開發(fā)自定義算子等手段，快速打通了DeepSeek-V4推理適配鏈路，再次驗證了摩爾線程為開發(fā)者和行業(yè)用戶提供高效、易部署的國產(chǎn)大模型運行軟硬件底座的能力。

值得注意的是，TileLang-MUSA已正式進入 TileLang官方主線，實現(xiàn)了對DeepSeek-V4最新發(fā)布TileLang算子庫TileKernels的Day-0無縫支持。這意味著MUSA平臺已具備承載前沿LLM算子生態(tài)的工程基礎，為后續(xù)先進開源模型適配提供了直接復用的算子通路。

▼ TileKernels算子庫開源地址：

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

▼ TileLang-MUSA開源地址：

https://github.com/tile-ai/tilelang-musa

三層技術路徑，

完成DeepSeek-V4工程化適配

本次適配驗證了一條新模型快速推理部署的系統(tǒng)化工程路徑：通過MUSA對CUDA的全棧兼容，實現(xiàn)核心主流AI框架快速適配，復用開源 TileKernels算子替代標準融合模式，并借助AI Agent基于TileLang完成模型特異性算子的快速開發(fā)與驗證。

首先，MUSA軟件棧提供了FlashMLA、DeepGEMM、DeepEP等DeepSeek開源倉庫的兼容實現(xiàn)，使得推理依賴的Attention、FP8 GEMM、MoE dispatch/combine等關鍵計算、通信算子能夠在S5000上快速適配。

其次，面向SwiGLU + FP8 quant等標準融合模式，S5000可直接復用DeepSeek TileKernels原生算子實現(xiàn)Day 0開箱適配，通過摩爾線程MATE 開源算子庫在layout、dtype 、scale contract及接口層面與DeepGEMM深度兼容，消除熱點算子的格式、接口對齊開銷。得益于MUSA對AI軟件生態(tài)良好的兼容性，DeepSeek-V4在MUSA平臺上可實現(xiàn)從核心算子適配，到端到端拉起，再到系統(tǒng)級性能調(diào)優(yōu)的工程級加速。

最后，針對DeepSeek-V4高度特異化的計算負載，摩爾線程借助AI Agent實現(xiàn)TileLang Kernel 自動生成及調(diào)試，圍繞算子語義分析、接口適配、Kernel實現(xiàn)與正確性及精度驗證等環(huán)節(jié)提升開發(fā)效率，完成RMSNorm、RoPE、Compress、Topk等多個核心自定義算子快速開發(fā)、集成。該方案在保證計算語義零偏差的前提下，顯著壓縮了Kernel級開發(fā)及適配周期，并進一步釋放關鍵算子的性能，例如，RMSNorm等帶寬瓶頸算子帶寬利用率可達80%。

原生FP8支持，

夯實混合精度推理底座

上述三層路徑快速打通，得益于摩爾線程S5000 原生FP8算力底座支撐，完整承接前沿混合精度模型推理需求，在保持模型精度的同時，實現(xiàn)高吞吐、低顯存占用與顯存帶寬的高效利用。

該能力深度對齊DeepSeek V4等先進MoE模型的精度演進范式，確保DeepGEMM、FlashMLA、DeepEP等核心算子在MUSA平臺上快速適配。

圍繞原生FP8能力，摩爾線程已完成涵蓋激活量化（SwiGLU FP8 quant）、MoE路由（routing）、注意力預處理（attention-prep）、緩存管理（FlashMLA cache store / paged metadata）及解碼壓縮（compressor decode/prefill）在內(nèi)的關鍵模塊適配，并通過多層回歸測試，完成關鍵路徑正確性與穩(wěn)定性的驗證。

FlashMLA DSA極致優(yōu)化，

釋放長上下文推理性能

在完整模型鏈路適配的基礎上，摩爾線程在S5000上針對FlashMLA DSA的Prefill（預填充）與Decode（解碼）場景開展了專項優(yōu)化，采用了一致的底層優(yōu)化邏輯：緊密圍繞DeepSeek-V4 KV Cache的數(shù)據(jù)組織模式，直接完成稀疏KV讀取、Cache Layout解析、Attention計算及結果寫回，有效消除了額外的緩存重排（Rearrangement）開銷，同步支持Original + Extra雙路KV Cache機制及動態(tài)Top-k長度，通過TileLang對DSA算子進行深度優(yōu)化，顯著提升了長上下文與稀疏注意力場景下的計算效率，最終DSA Prefill及Decode算子BF16 Tensor算力利用率可達50%，這還不是終點，我們還在繼續(xù)推進優(yōu)化。

四層驗證體系，

確保生產(chǎn)級穩(wěn)定和確定性

圍繞完整推理鏈路，摩爾線程建立了覆蓋MUSA Kernel驗證、算子級精度對齊、優(yōu)化路徑選擇、端到端場景回歸四層驗證體系，確保關鍵算子在實際運行中的正確性及穩(wěn)定性。當前，摩爾線程基于DeepSeek-V4的工作已進入性能調(diào)優(yōu)、長上下文能力完善與生產(chǎn)級穩(wěn)定性驗證階段。

后續(xù)，摩爾線程將持續(xù)深耕DeepGEMM、 MoE 調(diào)度、長上下文推理服務化部署等關鍵能力，推動DeepSeek-V4等前沿大模型在摩爾線程GPU平臺實現(xiàn)更高質(zhì)量、更高效率的規(guī)模化部署。

從TileLang-MUSA對DeepSeek-V4 TileKernels的Day-0支持，到S5000基于FlagOS DeepSeek-V4 Pro和Flash雙模型推理鏡像發(fā)布，再到基于SGLang推理框架成功實現(xiàn)S5000 MUSA適配，摩爾線程正以“產(chǎn)品發(fā)布即適配、框架開源即支持”的節(jié)奏，持續(xù)推進國產(chǎn)GPU對前沿大模型的快速承接與深度優(yōu)化。未來，摩爾線程將圍繞MUSA、TileLang與FlagOS生態(tài)，持續(xù)完善FP8推理、MoE調(diào)度、長上下文與端到端部署能力，為開發(fā)者和行業(yè)用戶提供性能穩(wěn)定可靠、路徑可持續(xù)、生態(tài)可生長的國產(chǎn) AI 算力底座。

▼ 開發(fā)者可下載鏡像進行開箱體驗：

registry.mthreads.com/mcconline/inference/sglang:deepseek-v4-s5000-4.3.5-torch2.9.0-20260430

▼ DeepSeek-V4推理服務部署指南：

https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/