新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 借助英偉達全新CMX平臺突破GPU內(nèi)存墻瓶頸

借助英偉達全新CMX平臺突破GPU內(nèi)存墻瓶頸

作者：時間：2026-03-04 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在擴展 AI 工作負載的過程中，你會遇到的問題之一就是 KV 緩存耗盡 HBM 內(nèi)存，這會限制 AI 應(yīng)用的 “記憶” 容量，并導(dǎo)致用戶體驗下降。針對這一問題，英偉達及其合作伙伴正在開發(fā)全新的 上下文內(nèi)存存儲平臺（Context Memory Storage，CMX）。上周在美國猶他州鹽湖城舉辦的首屆 VAST Forward 大會上，英偉達與 VAST Data 的代表演示了 CMX 如何突破 GPU 內(nèi)存墻。

KV 緩存是現(xiàn)代 AI 技術(shù)棧的固有組件。有了 KV 緩存，用戶不必每天早上 7 點重新加載所有輸入給 AI 模型的上下文，而是可以將上下文長期保留（按天、按月），以簡單的鍵值存儲形式存放在 HBM、片上內(nèi)存，最終延伸到存儲介質(zhì)中。作為 AI 技術(shù)棧面向用戶的核心組件之一，KV 緩存自然會受到人類使用需求的影響。換句話說，當(dāng)員工使用 AI 時 —— 無論是生成貓咪視頻，還是搜索新的核苷酸序列 —— 緩存都會快速占滿。

圖1 不斷膨脹的 KV 緩存正在擠占內(nèi)存來源：英偉達與 VAST 在 2026 VAST Forward 大會上的演講《突破 GPU 內(nèi)存墻》

“KV 緩存的一個核心問題是，它會隨著你使用的上下文長度與批次大小同步增長?！?英偉達高級研究科學(xué)家 Vikram Sharma Mailthody 在上周 VAST Forward 的一場演講中表示，“假設(shè)我們使用相同的模型進行推理……緩存計算成本會隨上下文長度呈二次方增長。正如你所見，當(dāng)你需要使用更長的上下文窗口時，系統(tǒng)負擔(dān)會顯著增加，這在智能體工作流中尤為明顯?！?/p>

這已成為當(dāng)前擴展 AI 推理系統(tǒng)的核心瓶頸之一。除了 HBM 與 GPU 之間的數(shù)據(jù)搬運速度之外，HBM 能存儲的數(shù)據(jù)量，也直接決定了 AI 能完成多少有效工作。當(dāng) HBM 占滿后，KV 緩存會開始溢出到系統(tǒng)內(nèi)存；系統(tǒng)內(nèi)存也占滿后，就會溢出到本地存儲。但到那時，延遲就會嚴(yán)重影響用戶體驗。誰愿意等上五分鐘，才等到智能體 AI 系統(tǒng)給出回答？

“核心結(jié)論很簡單：推理上下文離 GPU 越遠，推理的成本就越高、效率也越低?！盡ailthody 說，“這就是為什么現(xiàn)有的內(nèi)存與存儲層級結(jié)構(gòu)，并不適合為下一代 AI 做擴展。也正因如此，我們必須重新構(gòu)想：存儲應(yīng)該如何構(gòu)建，以及應(yīng)該如何為推理上下文管理而構(gòu)建?！?/p>

英偉達針對 “上下文窗口–GPU 內(nèi)存墻” 問題的短期解決方案就是 CMX 平臺。該平臺于今年 1 月隨 BlueField?4 DPU（數(shù)據(jù)處理器）一同發(fā)布。英偉達正與包括 VAST Data 在內(nèi)的存儲合作伙伴合作，大幅擴展 KV 緩存容量，讓客戶能夠用智能體 AI 完成更多工作。

圖2 CMX 旨在擴展客戶 KV 緩存且不損失性能（來源：同上）

CMX 包含多個組件：

在基礎(chǔ)設(shè)施層面，它將使用英偉達下一代 Rubin GPU 系統(tǒng)，并利用部署在 VAST 等存儲廠商管理的存儲集群中的 BlueField?4 DPU。BlueField?4 將幫助管理元數(shù)據(jù)、減少數(shù)據(jù)遷移，并讓 Rubin GPU 從數(shù)據(jù)管理負擔(dān)中解放出來。
它還將利用 Spectrum?X 以太網(wǎng)交換機，構(gòu)建基于 RoCE（面向融合以太網(wǎng)的遠程直接內(nèi)存訪問） 的高速網(wǎng)絡(luò)架構(gòu)，用于高速共享 KV 緩存數(shù)據(jù)。
在軟件層面，CMX 將使用英偉達面向 BlueField?4 的 DOCA 開發(fā)套件，以及 Nvidia Inference Transfer Library（NIXL）—— 這是一個開源庫，用于加速 Dynamo 內(nèi)部的數(shù)據(jù)遷移。Dynamo 是英偉達開源的 AI 推理框架。

Mailthody 表示，CMX + VAST 存儲的組合將提供下一代千兆級推理架構(gòu)，可實現(xiàn)：

首詞延遲（TTFT）最高提升 20 倍
GPU 利用率提升 90%
存儲功耗降低 70%

VAST AI 架構(gòu)總監(jiān) Anat Heilper 在 VAST Forward 演講中表示，基于 CMX 的鍵值塊管理器，VAST 可以 “從根本上改變計算邏輯”。

“我們把緩慢、重 I/O 的過程，變成了高吞吐量、受網(wǎng)絡(luò)限制的過程?！?她說，“本質(zhì)上，這意味著存儲可以隨網(wǎng)絡(luò)一起擴展，以支撐這類工作負載?！?/p>

在基于 Llama 3 模型的基準(zhǔn)測試中，VAST 實現(xiàn)了 200GbE 網(wǎng)絡(luò)接近線速利用率，該網(wǎng)絡(luò)連接了 8 張 H100 GPU。

圖3 VAST 與英偉達合作開發(fā) CMX （來源：同上）

“結(jié)果顯示，從 VAST 系統(tǒng)中讀取 KV 緩存，相比讓 GPU 重新計算，首詞響應(yīng)速度提升 20 倍?！盚eilper 說，“這是用戶能直觀感受到的變化。原本需要等待 GPU 計算 65 秒，現(xiàn)在只需要 3 秒就能讀取。這是根本性的改變。這種加速，再加上 GPU 時間節(jié)省 90%，體現(xiàn)了效率的巨大提升?！?/p>

如果使用更快的網(wǎng)絡(luò)，收益還會更高，因為 VAST 已經(jīng)（幾乎）打滿了 200GbE 帶寬。在實際場景中，VAST 估算：通過 CMX 和 BlueField?4 DPU 將 KV 緩存溢出到 VAST NVMe 存儲，利潤可提升 60%～130%。

（VAST 上周還發(fā)布了全新 CNode?X，將英偉達 GPU、BlueField?4 DPU 和 Spectrum?X 硅光交換機直接集成到 VAST 存儲集群中。）

“我們假設(shè)企業(yè) AI 工作流的緩存命中率保守在 40%～60%。對于智能體工作流和認知任務(wù)，提升幅度可能更高?！盚eilper 說，“原理很明確：我們沒有讓 GPU 變快 —— 那是英偉達的工作。但我們讓它更常處于可用狀態(tài)，并把存儲變成算力倍增器?！?/p>

VAST 還給出了一份用于智能體系統(tǒng)的 最佳 KV 緩存容量配置指南：