狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 借助英偉達全新CMX平臺突破GPU內(nèi)存墻瓶頸

借助英偉達全新CMX平臺突破GPU內(nèi)存墻瓶頸

作者: 時間:2026-03-04 來源: 收藏

在擴展 AI 工作負載的過程中,你會遇到的問題之一就是 KV 緩存耗盡 HBM 內(nèi)存,這會限制 AI 應(yīng)用的 “記憶” 容量,并導(dǎo)致用戶體驗下降。針對這一問題,及其合作伙伴正在開發(fā)全新的 上下文內(nèi)存存儲平臺(Context Memory Storage,。上周在美國猶他州鹽湖城舉辦的首屆 VAST Forward 大會上, 的代表演示了 如何突破 。 

KV 緩存是現(xiàn)代 AI 技術(shù)棧的固有組件。有了 KV 緩存,用戶不必每天早上 7 點重新加載所有輸入給 AI 模型的上下文,而是可以將上下文長期保留(按天、按月),以簡單的鍵值存儲形式存放在 HBM、片上內(nèi)存,最終延伸到存儲介質(zhì)中。作為 AI 技術(shù)棧面向用戶的核心組件之一,KV 緩存自然會受到人類使用需求的影響。換句話說,當(dāng)員工使用 AI 時 —— 無論是生成貓咪視頻,還是搜索新的核苷酸序列 —— 緩存都會快速占滿。

1772587161544912.png

圖1 不斷膨脹的 KV 緩存正在擠占內(nèi)存 來源:與 VAST 在 2026 VAST Forward 大會上的演講《突破

“KV 緩存的一個核心問題是,它會隨著你使用的上下文長度與批次大小同步增長?!?英偉達高級研究科學(xué)家 Vikram Sharma Mailthody 在上周 VAST Forward 的一場演講中表示,“假設(shè)我們使用相同的模型進行推理……緩存計算成本會隨上下文長度呈二次方增長。正如你所見,當(dāng)你需要使用更長的上下文窗口時,系統(tǒng)負擔(dān)會顯著增加,這在智能體工作流中尤為明顯?!?/p>

這已成為當(dāng)前擴展 AI 推理系統(tǒng)的核心瓶頸之一。除了 HBM 與 之間的數(shù)據(jù)搬運速度之外,HBM 能存儲的數(shù)據(jù)量,也直接決定了 AI 能完成多少有效工作。當(dāng) HBM 占滿后,KV 緩存會開始溢出到系統(tǒng)內(nèi)存;系統(tǒng)內(nèi)存也占滿后,就會溢出到本地存儲。但到那時,延遲就會嚴(yán)重影響用戶體驗。誰愿意等上五分鐘,才等到智能體 AI 系統(tǒng)給出回答?

“核心結(jié)論很簡單:推理上下文離 GPU 越遠,推理的成本就越高、效率也越低?!盡ailthody 說,“這就是為什么現(xiàn)有的內(nèi)存與存儲層級結(jié)構(gòu),并不適合為下一代 AI 做擴展。也正因如此,我們必須重新構(gòu)想:存儲應(yīng)該如何構(gòu)建,以及應(yīng)該如何為推理上下文管理而構(gòu)建?!?/p>

英偉達針對 “上下文窗口–GPU ” 問題的短期解決方案就是 平臺。該平臺于今年 1 月隨 BlueField?4 DPU(數(shù)據(jù)處理器)一同發(fā)布。英偉達正與包括 在內(nèi)的存儲合作伙伴合作,大幅擴展 KV 緩存容量,讓客戶能夠用智能體 AI 完成更多工作。

1772587185957196.png

圖2 CMX 旨在擴展客戶 KV 緩存且不損失性能 (來源:同上)

CMX 包含多個組件:

  • 在基礎(chǔ)設(shè)施層面,它將使用英偉達下一代      Rubin GPU 系統(tǒng),并利用部署在 VAST 等存儲廠商管理的存儲集群中的      BlueField?4 DPU。BlueField?4      將幫助管理元數(shù)據(jù)、減少數(shù)據(jù)遷移,并讓 Rubin GPU 從數(shù)據(jù)管理負擔(dān)中解放出來。

  • 它還將利用      Spectrum?X 以太網(wǎng)交換機,構(gòu)建基于 RoCE(面向融合以太網(wǎng)的遠程直接內(nèi)存訪問)      的高速網(wǎng)絡(luò)架構(gòu),用于高速共享 KV 緩存數(shù)據(jù)。

  • 在軟件層面,CMX 將使用英偉達面向 BlueField?4 的 DOCA 開發(fā)套件,以及 Nvidia Inference      Transfer Library(NIXL)——      這是一個開源庫,用于加速 Dynamo 內(nèi)部的數(shù)據(jù)遷移。Dynamo 是英偉達開源的 AI 推理框架。

Mailthody 表示,CMX + VAST 存儲的組合將提供下一代千兆級推理架構(gòu),可實現(xiàn):

  • 首詞延遲(TTFT)最高提升 20 倍

  • GPU 利用率提升 90%

  • 存儲功耗降低 70%

VAST AI 架構(gòu)總監(jiān) Anat Heilper 在 VAST Forward 演講中表示,基于 CMX 的鍵值塊管理器,VAST 可以 “從根本上改變計算邏輯”。

“我們把緩慢、重 I/O 的過程,變成了高吞吐量、受網(wǎng)絡(luò)限制的過程?!?她說,“本質(zhì)上,這意味著存儲可以隨網(wǎng)絡(luò)一起擴展,以支撐這類工作負載?!?/p>

在基于 Llama 3 模型的基準(zhǔn)測試中,VAST 實現(xiàn)了 200GbE 網(wǎng)絡(luò)接近線速利用率,該網(wǎng)絡(luò)連接了 8 張 H100 GPU。

1772587206778423.png

圖3 VAST 與英偉達合作開發(fā) CMX (來源:同上)

“結(jié)果顯示,從 VAST 系統(tǒng)中讀取 KV 緩存,相比讓 GPU 重新計算,首詞響應(yīng)速度提升 20 倍?!盚eilper 說,“這是用戶能直觀感受到的變化。原本需要等待 GPU 計算 65 秒,現(xiàn)在只需要 3 秒就能讀取。這是根本性的改變。這種加速,再加上 GPU 時間節(jié)省 90%,體現(xiàn)了效率的巨大提升?!?/p>

如果使用更快的網(wǎng)絡(luò),收益還會更高,因為 VAST 已經(jīng)(幾乎)打滿了 200GbE 帶寬。在實際場景中,VAST 估算:通過 CMX 和 BlueField?4 DPU 將 KV 緩存溢出到 VAST NVMe 存儲,利潤可提升 60%~130%。

(VAST 上周還發(fā)布了全新 CNode?X,將英偉達 GPU、BlueField?4 DPU 和 Spectrum?X 硅光交換機直接集成到 VAST 存儲集群中。)

“我們假設(shè)企業(yè) AI 工作流的緩存命中率保守在 40%~60%。對于智能體工作流和認知任務(wù),提升幅度可能更高?!盚eilper 說,“原理很明確:我們沒有讓 GPU 變快 —— 那是英偉達的工作。但我們讓它更常處于可用狀態(tài),并把存儲變成算力倍增器?!?/p>

VAST 還給出了一份用于智能體系統(tǒng)的 最佳 KV 緩存容量配置指南

  • 對于 10,000 名用戶、每輪對話 32GB KV 緩存的組織,要支持 “即時恢復(fù)” 會話,需要 320TB 系統(tǒng)。

  • 保留每位用戶最近 5 輪會話(每日備份):需要 1.6PB 系統(tǒng)。

  • 保留最近 15 輪會話(適合程序員、研究員等高頻用戶做周級緩存):需要 4.8PB      系統(tǒng)。

  • 要實現(xiàn) “智能體記憶”,即      10,000 名用戶每人 150 輪會話:需要 48PB 存儲。

“CMX 是一種專為 KV 緩存設(shè)計的新型存儲?!盡ailthody 說,“它會取代這里所有的存儲嗎?適合所有人、所有集群嗎?不,并不是。CMX 專為推理和 KV 緩存管理而設(shè)計。

如果你的工作負載模型大、需要大緩存,CMX 就是為此而生。

如果你有需要超長輸入序列的場景,比如 AI、聊天機器人或推理模型,它能提供超大內(nèi)存容量,讓服務(wù)極高效。如果你的訪問模式存在大量內(nèi)容復(fù)用,或是擁有跨多洲共享的大型 GPU 集群,CMX 能輕松啟用并提升運營效率?!?/p>


關(guān)鍵詞: 英偉達 CMX GPU 內(nèi)存墻 VAST Data

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉
鄢陵县| 托克逊县| 鹤山市| 自贡市| 上栗县| 金坛市| 甘孜县| 兴宁市| 太湖县| 锡林浩特市| 乌拉特前旗| 合阳县| 南溪县| 双辽市| 射洪县| 张北县| 蕲春县| 华蓥市| 龙川县| 长宁县| 常德市| 天峨县| 广丰县| 安乡县| 巴林左旗| 新营市| 喀什市| 湘潭市| 栖霞市| 资阳市| 乌审旗| 桑植县| 色达县| 陇南市| 广灵县| 大港区| 进贤县| 牙克石市| 乌拉特中旗| 海原县| 堆龙德庆县|