狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 摩爾線程完成DeepSeek-V4全鏈路工程化適配:S5000基于MUSA+SGLang實現(xiàn)復雜MoE模型快速落地

摩爾線程完成DeepSeek-V4全鏈路工程化適配:S5000基于MUSA+SGLang實現(xiàn)復雜MoE模型快速落地

作者: 時間:2026-05-01 來源: 收藏

近日,依托旗艦級AI訓推一體智算卡MTT S5000與自研MUSA軟件棧,基于SGLang 開源推理框架,成功完成的完整運行驗證。該成果表明,面向新一代MoE大模型,已構建起從硬件架構核心計算引擎承接、熱點算子支持,再到端到端部署驗證的系統(tǒng)化適配鏈路驗證了國產(chǎn)GPU平臺對前沿大模型“框架級兼容、開箱即落地”的承載實力及工程化落地能力。


隨著大模型架構持續(xù)演進,等先進模型對底層精度能力、算子覆蓋、編譯優(yōu)化、并行通信和推理效率提出了嚴苛要求。充分發(fā)揮S5000原生FP8算力、MUSA對CUDA深度兼容、TileLang MUSA編譯器對TileLang生態(tài)完美支持等優(yōu)勢,結合TileKernels開源庫復用,基于TileLang快捷開發(fā)自定義算子等手段,快速打通了推理適配鏈路,再次驗證了摩爾線程為開發(fā)者和行業(yè)用戶提供高效、易部署的國產(chǎn)大模型運行軟硬件底座的能力。


值得注意的是,TileLang-MUSA已正式進入 TileLang官方主線,實現(xiàn)了對DeepSeek-V4最新發(fā)布TileLang算子庫TileKernels的Day-0無縫支持。這意味著MUSA平臺已具備承載前沿LLM算子生態(tài)的工程基礎,為后續(xù)先進開源模型適配提供了直接復用的算子通路。

 TileKernels算子庫開源地址:

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

 TileLang-MUSA開源地址:

https://github.com/tile-ai/tilelang-musa

三層技術路徑,

完成DeepSeek-V4工程化適配

本次適配驗證了一條新模型快速推理部署的系統(tǒng)化工程路徑:通過MUSA對CUDA的全棧兼容,實現(xiàn)核心主流AI框架快速適配,復用開源 TileKernels算子替代標準融合模式,并借助AI Agent基于TileLang完成模型特異性算子的快速開發(fā)與驗證。


首先,MUSA軟件棧提供了FlashMLA、DeepGEMM、DeepEP等DeepSeek開源倉庫的兼容實現(xiàn),使得推理依賴的Attention、FP8 GEMM、MoE dispatch/combine等關鍵計算、通信算子能夠在S5000上快速適配。


其次,面向SwiGLU + FP8 quant等標準融合模式,S5000可直接復用DeepSeek TileKernels原生算子實現(xiàn)Day 0開箱適配,通過摩爾線程MATE 開源算子庫在layout、dtype 、scale contract及接口層面與DeepGEMM深度兼容,消除熱點算子的格式、接口對齊開銷。得益于MUSA對AI軟件生態(tài)良好的兼容性,DeepSeek-V4在MUSA平臺上可實現(xiàn)從核心算子適配,到端到端拉起,再到系統(tǒng)級性能調(diào)優(yōu)的工程級加速。


最后,針對DeepSeek-V4高度特異化的計算負載,摩爾線程借助AI Agent實現(xiàn)TileLang Kernel 自動生成及調(diào)試,圍繞算子語義分析、接口適配、Kernel實現(xiàn)與正確性及精度驗證等環(huán)節(jié)提升開發(fā)效率,完成RMSNorm、RoPE、Compress、Topk多個核心自定義算子快速開發(fā)、集成。該方案在保證計算語義零偏差的前提下,顯著壓縮了Kernel級開發(fā)及適配周期,并進一步釋放關鍵算子的性能,例如,RMSNorm等帶寬瓶頸算子帶寬利用率可達80%。


原生FP8支持,

夯實混合精度推理底座

上述三層路徑快速打通,得益于摩爾線程S5000 原生FP8算力底座支撐,完整承接前沿混合精度模型推理需求,在保持模型精度的同時,實現(xiàn)高吞吐、低顯存占用與顯存帶寬的高效利用。


該能力深度對齊DeepSeek V4等先進MoE模型的精度演進范式,確保DeepGEMM、FlashMLA、DeepEP等核心算子在MUSA平臺上快速適配。


圍繞原生FP8能力,摩爾線程已完成涵蓋激活量化(SwiGLU FP8 quant)、MoE路由(routing)、注意力預處理(attention-prep)、緩存管理(FlashMLA cache store / paged metadata)及解碼壓縮(compressor decode/prefill)在內(nèi)的關鍵模塊適配,并通過多層回歸測試,完成關鍵路徑正確性與穩(wěn)定性的驗證。


FlashMLA DSA極致優(yōu)化,

釋放長上下文推理性能

在完整模型鏈路適配的基礎上,摩爾線程在S5000上針對FlashMLA DSA的Prefill(預填充)與Decode(解碼)場景開展了專項優(yōu)化,采用了一致的底層優(yōu)化邏輯:緊密圍繞DeepSeek-V4 KV Cache的數(shù)據(jù)組織模式,直接完成稀疏KV讀取、Cache Layout解析、Attention計算及結果寫回,有效消除了額外的緩存重排(Rearrangement)開銷,同步支持Original + Extra雙路KV Cache機制及動態(tài)Top-k長度,通過TileLang對DSA算子進行深度優(yōu)化,顯著提升了長上下文與稀疏注意力場景下的計算效率,最終DSA Prefill及Decode算子BF16 Tensor算力利用率可達50%,這還不是終點,我們還在繼續(xù)推進優(yōu)化。


四層驗證體系,

確保生產(chǎn)級穩(wěn)定和確定性

圍繞完整推理鏈路,摩爾線程建立了覆蓋MUSA Kernel驗證、算子級精度對齊、優(yōu)化路徑選擇、端到端場景回歸四層驗證體系,確保關鍵算子在實際運行中的正確性及穩(wěn)定性。當前,摩爾線程基于DeepSeek-V4的工作已進入性能調(diào)優(yōu)、長上下文能力完善與生產(chǎn)級穩(wěn)定性驗證階段。


后續(xù),摩爾線程將持續(xù)深耕DeepGEMM、 MoE 調(diào)度、長上下文推理服務化部署等關鍵能力,推動DeepSeek-V4等前沿大模型在摩爾線程GPU平臺實現(xiàn)更高質(zhì)量、更高效率的規(guī)模化部署。


從TileLang-MUSA對DeepSeek-V4 TileKernels的Day-0支持,到S5000基于FlagOS DeepSeek-V4 Pro和Flash雙模型推理鏡像發(fā)布,再到基于SGLang推理框架成功實現(xiàn)S5000 MUSA適配,摩爾線程正以“產(chǎn)品發(fā)布即適配、框架開源即支持”的節(jié)奏,持續(xù)推進國產(chǎn)GPU對前沿大模型的快速承接與深度優(yōu)化。未來,摩爾線程將圍繞MUSA、TileLang與FlagOS生態(tài),持續(xù)完善FP8推理、MoE調(diào)度、長上下文與端到端部署能力,為開發(fā)者和行業(yè)用戶提供性能穩(wěn)定可靠、路徑可持續(xù)、生態(tài)可生長的國產(chǎn) AI 算力底座。


▼ 開發(fā)者可下載鏡像進行開箱體驗:

registry.mthreads.com/mcconline/inference/sglang:deepseek-v4-s5000-4.3.5-torch2.9.0-20260430


▼ DeepSeek-V4推理服務部署指南:

https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/



評論


相關推薦

技術專區(qū)

關閉
苗栗市| 南汇区| 盐边县| 五台县| 阳信县| 延长县| 科技| 安康市| 湘乡市| 娱乐| 枣庄市| 满城县| 墨竹工卡县| 峨眉山市| 汝州市| 理塘县| 阿克| 中阳县| 德惠市| 克东县| 亳州市| 水富县| 宣恩县| 红桥区| 余姚市| 南宁市| 长沙县| 沐川县| 文山县| 沭阳县| 叶城县| 罗甸县| 抚州市| 客服| 青铜峡市| 梧州市| 景德镇市| 平和县| 扎赉特旗| 双江| 莒南县|