新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 英偉達——推理王國持續(xù)擴張

英偉達——推理王國持續(xù)擴張

—— 涵蓋 Groq LP30、LPX 機柜、注意力與前饋網(wǎng)絡(luò)解耦（AFD）、Oberon 與 Kyber 更新、英偉達 CPO 路線圖、Vera ETL256、CMX 及 STX 技術(shù)解析

作者：時間：2026-03-25 來源：SemiAnalysis

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

英偉達通過極致協(xié)同設(shè)計，每年從芯片、機柜到人工智能工廠，持續(xù)釋放顛覆性技術(shù)優(yōu)勢

（注：文中涉及的英偉達產(chǎn)品代際與技術(shù)規(guī)格圖表，已在翻譯中轉(zhuǎn)化為清晰的文字說明與表格，核心參數(shù)完整保留）

在 2026 年 GPU 技術(shù)大會（GTC）上，英偉達發(fā)布了一系列突破性成果，創(chuàng)新步伐絲毫未減。本次大會推出三款全新系統(tǒng)：Groq LPX、Vera ETL256 與 STX；同時公布 Kyber 機柜架構(gòu)的重大更新，首次展示面向規(guī)模化擴展網(wǎng)絡(luò)的共封裝光學（CPO）技術(shù)，推出 Rubin Ultra NVL576 與 Feynman NVL1152 多機柜系統(tǒng)，并披露 Feynman 架構(gòu)的早期細節(jié)。黃仁勛在主題演講中重點提及的 InferenceX 技術(shù)，成為本次大會的一大亮點。

本文將為你復(fù)盤 2026 年 GTC 大會核心內(nèi)容，解答英偉達尚未明確的關(guān)鍵問題：深入解析 LPX 機柜與 LP30 芯片，闡釋注意力與前饋網(wǎng)絡(luò)解耦（AFD）技術(shù)原理；詳解 NVL144、NVL576、NVL1152 背后的機柜架構(gòu)差異，說明光模塊的部署規(guī)模及高密 Vera ETL256 的設(shè)計邏輯；揭秘下一代 Kyber 機柜的重大更新與隱藏細節(jié)。

一、Groq 收購與 LPU 技術(shù)解析

近期人工智能基礎(chǔ)設(shè)施領(lǐng)域最重大的事件之一，便是英偉達對 Groq 的 “收購”—— 嚴格來說，英偉達以 200 億美元的價格獲得 Groq 的 IP 授權(quán)，并吸納其核心團隊。這一交易形式雖未構(gòu)成法律意義上的完全收購，卻實質(zhì)達到收購效果，既簡化了監(jiān)管審批流程（若按完全收購提交反壟斷審查，大概率無法通過），又避免了冗長的交割周期，讓英偉達迅速獲得 Groq 的技術(shù)與人才。這也是為何交易宣布后不到四個月，英偉達便推出整合 Groq 技術(shù)的系統(tǒng)概念，并將其融入 Vera Rubin 推理架構(gòu)。

1. LPU 架構(gòu)核心原理

Groq 的 LPU（推理處理單元）架構(gòu)最早在 2020 年國際計算機體系結(jié)構(gòu)研討會（ISCA）上披露。與傳統(tǒng)多通用核心互聯(lián)架構(gòu)不同，LPU 將硬件重新設(shè)計為多個專用功能單元組（稱為 “切片”），單元組間通過流寄存器、暫存 SRAM 實現(xiàn)數(shù)據(jù)交互。Groq 采用單級暫存 SRAM 而非多級存儲層級，確保硬件執(zhí)行的確定性。

LPU 架構(gòu)包含四類切片：

VXM 切片：負責向量運算
MEM 切片：負責數(shù)據(jù)加載 / 存儲
SXM 切片：負責張量形狀轉(zhuǎn)換
MXM 切片：負責矩陣乘法運算

切片按水平方向布局，數(shù)據(jù)沿水平方向流轉(zhuǎn)；切片內(nèi)部，指令沿垂直方向在單元間傳輸，整體類似 “垂直傳指令、水平傳數(shù)據(jù)” 的脈動陣列結(jié)構(gòu)。這種數(shù)據(jù)流與指令流設(shè)計需通過細粒度流水線實現(xiàn)高性能，而確定性計算特性讓編譯器可通過激進的指令調(diào)度與重疊，隱藏延遲。高帶寬 SRAM 與激進流水線設(shè)計，是 LPU 實現(xiàn)低延遲的兩大核心。

2. LPU 芯片迭代歷程

第一代 LPU：基于格芯 14nm 工藝打造，由美滿電子負責物理設(shè)計。2020 年流片時，14nm 工藝已相當成熟（同期主流人工智能芯片多采用臺積電 N7 工藝），適合作為驗證 Groq 架構(gòu)的初代產(chǎn)品，更側(cè)重架構(gòu)差異化而非制程領(lǐng)先性。其核心優(yōu)勢是可完全在美國完成制造與封裝，而競爭對手高度依賴亞洲供應(yīng)鏈（中國臺灣的邏輯芯片與封裝、韓國的 HBM）。
第二代 LPU：原計劃采用三星晶圓廠 SF4X 工藝，由三星奧斯汀工廠生產(chǎn)，延續(xù) “美國本土制造” 的定位。三星為爭奪先進制程客戶，以優(yōu)惠條款與投資吸引 Groq 合作，并參與了 Groq 2024 年 8 月的 D 輪融資及 2025 年 9 月英偉達 “收購” 前的最后一輪融資。但該產(chǎn)品因設(shè)計問題未能量產(chǎn) —— 芯片上的 C2C 串并轉(zhuǎn)換器（SerDes）無法達到宣傳的 112G 速率，導(dǎo)致功能異常。
第三代 LPU（LP30）：英偉達將量產(chǎn)的首款 LPU 產(chǎn)品，跳過第二代直接迭代。產(chǎn)品本身無英偉達設(shè)計參與，但已修復(fù)第二代的 SerDes 問題。后續(xù)還將推出小幅升級的 LP35 版本，仍基于 SF4 工藝，需重新流片，將支持 NVFP4 數(shù)據(jù)格式，為搶占上市時間，暫不做其他大幅設(shè)計改動。
第四代 LPU（LP40）：將采用臺積電 N3P 工藝與 CoWoS-R 封裝，英偉達將深度參與設(shè)計，融入 NVLink 協(xié)議（替代 Groq 原生 C2C），并與 Feynman 平臺深度協(xié)同。計劃采用混合鍵合 DRAM 技術(shù)擴展片上內(nèi)存， latency 與帶寬略低于 SRAM，但遠超傳統(tǒng) DRAM；SK 海力士將為其提供 3D 堆疊 DRAM。

3. SRAM 在存儲層級中的定位

SRAM 的優(yōu)勢是低延遲、高帶寬，但密度低、成本高。因此，以 Groq LPU 為代表的 SRAM 架構(gòu)設(shè)備，首 token 生成速度與單用戶每秒 token 生成量極快，但總吞吐量受限 —— 有限的 SRAM 容量易被權(quán)重占滿，留給隨用戶批量增加而擴容的 KV 緩存空間有限。而 GPU 在吞吐量與成本上更具優(yōu)勢。

這也是英偉達決定整合兩種架構(gòu)的核心原因：將延遲敏感、內(nèi)存需求較低的解碼環(huán)節(jié)，交由低延遲、高 SRAM 占比的 LPU 處理；將內(nèi)存密集型的注意力計算，交由具備大容量高速內(nèi)存（雖不及 SRAM 快）的 GPU 完成，實現(xiàn)優(yōu)勢互補。

各類存儲介質(zhì)性能對比

存儲類型	單 GPU/XPU/LPU 容量	單 GPU/XPU/CPU 帶寬	延遲
HBM4 12 層堆疊	約 288GB	約 22TB/s	約 100-150 納秒
DDR5	128-1024GB（2-16 條 DIMM）	約 307-614GB/s	約 60-100 納秒
GDDR7	約 16-48GB（8-12 顆芯片）	約 1.5-1.8TB/s	約 50-80 納秒
LPU SRAM	約 500MB	約 150TB/s	約 5-20 納秒

4. 第三代 LPU（LP30）核心規(guī)格

LP30 芯片采用接近掩模版尺寸的單片設(shè)計，無需先進封裝，500MB 片上 SRAM 占用大量芯片面積，而矩陣乘法核心僅提供 1.2 PFLOPs 的 FP8 算力，遠低于英偉達 GPU。相比第一代 LPU（230MB SRAM、750 TFLOPs INT8 算力），性能提升主要源于制程從格芯 14nm 遷移至三星 SF4 工藝。

采用 SF4 工藝的核心優(yōu)勢：不受臺積電 N3 工藝產(chǎn)能限制（當前 N3 工藝制約加速器量產(chǎn)，是行業(yè)算力緊張的關(guān)鍵原因），且無需依賴同樣緊缺的 HBM，讓英偉達可在不占用寶貴的臺積電產(chǎn)能與 HBM 配額的前提下，擴大 LPU 產(chǎn)量，創(chuàng)造獨特的增量收入與產(chǎn)能優(yōu)勢。

二、GPU 與 LPU 整合：注意力與前饋網(wǎng)絡(luò)解耦（AFD）

英偉達引入 LPU 的核心目標是提升高交互場景的推理性能，核心技術(shù)路徑之一便是注意力與前饋網(wǎng)絡(luò)解耦（AFD）—— 該技術(shù)最早在 MegaScale-Infer 與 Step-3 中提出。

1. LLM 推理的兩個階段

預(yù)填充（Prefill）：處理完整輸入上下文，屬于計算密集型任務(wù)，適合 GPU 執(zhí)行。
解碼（Decode）：逐一生成新 token，屬于內(nèi)存受限型任務(wù)，對延遲敏感。LPU 的高 SRAM 帶寬與低延遲特性，可顯著加速這一迭代過程。

2. 注意力與 FFN 的性能差異

注意力（Attention）與前饋網(wǎng)絡(luò)（FFN）是模型中的兩類核心運算：

注意力運算：輸出需傳入 token 路由器，路由器將每個 token 分配給 k 個專家（每個專家對應(yīng)一個 FFN）；解碼階段，注意力運算受 KV 緩存加載限制，批量擴大時 GPU 利用率提升有限。
FFN 運算：計算僅依賴 token 輸入，無狀態(tài)；批量擴大時 GPU 利用率提升更明顯。

隨著最先進的混合專家（MoE）模型稀疏度不斷提高，token 可選擇的專家池擴大，每個專家接收的 token 減少，導(dǎo)致利用率下降 —— 這正是 AFD 技術(shù)的核心應(yīng)用場景。

3. AFD 技術(shù)原理

將注意力與 FFN 運算解耦，分別映射至不同硬件：

注意力運算→GPU：GPU 擅長處理動態(tài)工作負載，其 HBM 容量可完全分配給 KV 緩存，提升單次處理的 token 總量，進而提高每個專家的平均 token 處理量，改善利用率。
FFN 運算→LPU：LPU 架構(gòu)具有確定性，更適合靜態(tài)計算工作負載。

4. 令牌路由與通信優(yōu)化

AFD 技術(shù)中，GPU 與 LPU 間的令牌路由可能成為瓶頸（尤其在嚴格延遲約束下），路由流程包含 “分發(fā)（dispatch）” 與 “合并（combine）” 兩步：

分發(fā)：通過全對全（All-to-All）集合運算，將每個 token 路由至最優(yōu)的 k 個專家。
合并：專家運算完成后，通過反向全對全集合運算，將結(jié)果返回至源 GPU，繼續(xù)下一層計算。

為隱藏路由通信延遲，采用 “乒乓流水線并行” 技術(shù)：除將批量拆分為微批量并進行計算流水處理外，令牌在 GPU 與 LPU 間循環(huán)傳輸（類似 “乒乓”），最大化重疊計算與通信時間。

5. 推測解碼（Speculative Decoding）

LPU 加速解碼的另一路徑是推測解碼：在 LPU 上部署草稿模型（draft model）或多令牌預(yù)測（MTP）層。

核心原理：對于 N 個 token 的上下文解碼，若新增 k 個 token（k<<N），延遲僅小幅增加。利用這一特性，草稿模型 / MTP 層先預(yù)測 k 個新 token（小模型解碼延遲更低）；主模型僅需對這 k 個 token 進行一次 “熱身預(yù)填充” 驗證，延遲相當于單次解碼步驟。推測解碼通?？蓪⒚坎浇獯a的輸出 token 數(shù)提升 1.5-2 倍，而 LPU 的低延遲特性可進一步擴大延遲節(jié)省效果，提升吞吐量。

與 AFD 技術(shù)不同，推測解碼中的草稿模型 / MTP 層需動態(tài)加載 KV 緩存（有狀態(tài)），且模型體積達數(shù)十 GB（遠超單個 FFN 的數(shù)百 MB）。為此，LPX 計算托盤的結(jié)構(gòu)擴展邏輯 FPGA，可為 LPU 提供高達 256GB 的 DDR5 內(nèi)存支持。

三、LPX 機柜系統(tǒng)

英偉達在 GTC 上展示的 LPX 機柜包含 32 個 1U LPU 計算托盤與 2 個 Spectrum-X 交換機，這一配置與收購前 Groq 的原始服務(wù)器設(shè)計高度相似，但預(yù)計 2026 年第三季度量產(chǎn)時將有調(diào)整。以下是量產(chǎn)版本的核心細節(jié)：

1. LPX 機柜整體配置

組件	規(guī)格
光纖跳線 / 交換面板	-
電源架	1U，90kW（共 4 個）
帶外管理交換機	1Gbe MGMT Switch 01 - SN2201 M DC
機柜加固件 + 接水盤	-
計算托盤	2U，含 16 顆 Groq 3 LPU、2 顆 FPGA、1 顆 CPU（共 16 個）

2. LPX 計算托盤核心設(shè)計

每個計算托盤（節(jié)點）包含 16 顆 LPU、2 顆阿爾特拉 FPGA、1 顆英特爾 Granite Rapids 主機 CPU 與 1 個 BlueField-4 前端模塊（超大規(guī)?？蛻艨商鎿Q為自定義網(wǎng)卡）。

LPU 部署方式：采用 “背對背” 安裝，PCB 上表面與下表面各 8 個 LP30 模塊，所有 LPU 互聯(lián)通過 PCB 走線實現(xiàn)。這種設(shè)計可縮短 X、Y 維度的 PCB 走線長度，滿足節(jié)點內(nèi)全對全互聯(lián)的高密度布線需求。
FPGA 的三大作用：

網(wǎng)卡功能：將 LPU 的 C2C 協(xié)議轉(zhuǎn)換為以太網(wǎng)，連接 Spectrum-X 擴展網(wǎng)絡(luò)，實現(xiàn) LPU 與 GPU 的解碼系統(tǒng)互聯(lián)。
協(xié)議轉(zhuǎn)換：將 LPU 的 C2C 協(xié)議轉(zhuǎn)換為 PCIe，實現(xiàn) LPU 與主機 CPU 的通信（LPU 無原生 PCIe PHY，無法直接連接 CPU）。
控制與內(nèi)存擴展：通過背板與節(jié)點內(nèi)其他 FPGA 互聯(lián)，管理 LPU 的控制流與時序；每顆 FPGA 可提供高達 256GB 的額外系統(tǒng) DRAM，若用戶需完全由 LPX 承擔解碼流程，該內(nèi)存池可用于 KV 緩存。

前端接口：8 個 OSFP 插槽用于跨機柜 C2C 互聯(lián)；2 個 QSFP-DD 插槽連接 Spectrum 交換機，實現(xiàn) LPU 與 GPU 的解耦解碼系統(tǒng)互聯(lián)。

3. LPU 網(wǎng)絡(luò)架構(gòu)（分為擴展網(wǎng)絡(luò)與外聯(lián)網(wǎng)絡(luò)）

（1）擴展網(wǎng)絡(luò)（C2C 網(wǎng)絡(luò)）

分為節(jié)點內(nèi)、節(jié)點間 / 機柜內(nèi)、機柜間三個層級，英偉達宣稱單機柜擴展帶寬達 640TB/s（計算邏輯：256 顆 LPU × 90 通道 × 112Gbps/8 × 2 方向 = 645TB/s，注：英偉達采用 112G 線速計算，而非 100G 有效數(shù)據(jù)率）。

節(jié)點內(nèi)拓撲：16 顆 LPU 采用全對全互聯(lián)，每顆 LPU 與其他 15 顆 LPU 通過 4×100G C2C 帶寬連接（非 NVLink，為 Groq 原生擴展網(wǎng)絡(luò)），所有連接通過 PCB 走線實現(xiàn)。每顆 LPU 還通過 1×100G 連接至 1 顆 FPGA，每顆 FPGA 通過 8×PCIe Gen5 連接至 CPU。
節(jié)點間 / 機柜內(nèi)拓撲：每顆 LPU 與機柜內(nèi)其他 15 個節(jié)點的對應(yīng) LPU 通過 2×100G 銅纜背板連接；每顆 FPGA 與其他節(jié)點的 FPGA 通過 25G/50G 鏈路連接（同樣通過背板）。單個節(jié)點需 510 個通道（1020 個差分對）用于節(jié)點間互聯(lián)。
機柜間拓撲：每顆 LPU 通過 4×100G 通道連接至 OSFP 插槽，支持跨 4 個機柜互聯(lián)。推薦采用菊花鏈配置，節(jié)點 0 與其他 2 個節(jié)點 0 連接，兩端通過 9 米 AEC 線纜或光模塊連接形成環(huán)形網(wǎng)絡(luò)。

（2）外聯(lián)網(wǎng)絡(luò)

通過 Spectrum-X 以太網(wǎng)，實現(xiàn) LPU 與英偉達 GPU 的通信。

四、英偉達 CPO 路線圖

英偉達在 2026 年 GTC 主題演講中首次披露 CPO（共封裝光學）路線圖，黃仁勛在次日的財務(wù)分析師問答會上進一步補充說明。與行業(yè)預(yù)期不同，英偉達并未將 CPO 用于 Rubin Ultra Kyber 機柜的內(nèi)部擴展，而是聚焦于構(gòu)建更大規(guī)模的計算系統(tǒng)。

1. GTC 2026 披露的機柜級形態(tài)與 CPO 應(yīng)用

系統(tǒng)	Rubin 系列			Feynman 系列
NVL 規(guī)格	NVL72	NVL144	NVL576	NVL72	NVL144	NVL1152
形態(tài)	Oberon	Kyber	8 個 Oberon 機柜	Oberon	Kyber	8 個 Kyber 機柜
機柜內(nèi)擴展	銅背板	PCB 中板 + 飛線	銅背板	銅背板（推測）	PCB 中板 + 飛線（推測）	銅或 CPO（未確定）
機柜間擴展	無	無	CPO（DR 光模塊）	無	無	CPO（DR 或 DWDM）

2. 各代產(chǎn)品 CPO 應(yīng)用規(guī)劃

Rubin 系列：

NVL72（Oberon）：全銅擴展網(wǎng)絡(luò)。
Rubin Ultra NVL72（Oberon）、NVL144（Kyber）、NVL288（2 個 Kyber 機柜互聯(lián)）：均采用全銅擴展網(wǎng)絡(luò)。
Rubin Ultra NVL576（8 個 Oberon 機柜互聯(lián)）：機柜內(nèi)銅擴展，機柜間采用兩層全對全網(wǎng)絡(luò)的 CPO 擴展（低批量測試用途）。

Feynman 系列：

NVL72（Oberon）、NVL144（Kyber）：全銅擴展網(wǎng)絡(luò)。
NVL1152（8 個 Kyber 機柜互聯(lián)）：機柜內(nèi)銅擴展，機柜間 CPO 擴展（黃仁勛稱 “全 CPO”，但機柜內(nèi)是否仍用銅存在爭議）。

3. 技術(shù)決策邏輯

英偉達的核心原則是 “能用電銅則不用光”：

當前 224Gbit/s 雙向 SerDes 難以升級至 448Gbit/s 單向，帶寬提升有限；
448G 高速 SerDes 在傳輸距離、功耗上面臨巨大挑戰(zhàn)，且 Feynman 的制造復(fù)雜度、成本與可靠性要求，決定了交換機仍需采用銅互聯(lián)。
注：NVL1152 距量產(chǎn)尚有多年，路線圖可能調(diào)整，當前基準假設(shè)為 “機柜內(nèi)銅、機柜間 CPO”。

五、Oberon 與 Kyber 更新：更大規(guī)模擴展與網(wǎng)絡(luò)升級

1. Kyber 機柜形態(tài)更新

Kyber 機柜首次作為原型機在 2025 年 GTC 展示，此次披露的量產(chǎn)版本有顯著調(diào)整：

計算刀片密度提升：每個計算刀片含 4 顆 Rubin Ultra GPU 與 2 顆 Vera CPU；共 2 個罐式單元，每個單元 18 個計算刀片，整機柜 36 個計算刀片，合計 144 顆 GPU。（初代原型機每個計算刀片含 2 顆 GPU 與 2 顆 Vera CPU，共 4 個罐式單元）。
交換刀片高度翻倍：每個交換刀片含 6 顆 NVLink 7 交換機，整機柜 12 個交換刀片，合計 72 顆 NVLink 7 交換機。
互聯(lián)方式：GPU 通過 2 塊 PCB 中板（每罐 1 塊）與交換刀片全對全互聯(lián)；交換機與中板通過銅質(zhì)飛線連接（距離過遠，無法通過 PCB 走線）。

2. Rubin Ultra NVL144 核心參數(shù)

單 GPU 擴展帶寬：14.4Tbit/s 單向（采用 80DP 連接器，72 個 DP 通道 × 200Gbit/s 雙向通道）。
交換機規(guī)格：每顆 NVLink 7 交換機單向聚合帶寬 28.8Tbit/s，含 144 個 200G 雙向通道；每個交換刀片通過 144 個 DP 連接器（144 × 200G 雙向通道）與中板連接。

3. 更大規(guī)模擴展方案

Rubin Ultra NVL288：供應(yīng)鏈透露的概念方案，由兩個 NVL144 Kyber 機柜通過機柜間銅背板互聯(lián)。面臨的挑戰(zhàn)：當前 NVLink 7 交換機最大端口基數(shù)僅 144 個（200G 端口），若實現(xiàn) 288 顆 GPU 全對全互聯(lián)，需更高基數(shù)交換機，或采用蜻蜓網(wǎng)絡(luò)拓撲并接受一定程度的超訂閱。

Rubin Ultra NVL576：8 個低密 Oberon 機柜互聯(lián)，機柜間需光互聯(lián)（CPO 概率高于可插拔光模塊），形成兩層胖樹架構(gòu)。當前 Blackwell NVL576 原型機 “Polyphe” 采用可插拔光模塊，但 Rubin Ultra NVL576 預(yù)計先以低批量測試形式推出，待 Feynman NVL1152 量產(chǎn)時，CPO 才會大規(guī)模應(yīng)用。

六、Feynman 架構(gòu)前瞻

Feynman 雖未披露過多細節(jié)，但從大會預(yù)覽可知，其將集成三大核心技術(shù)創(chuàng)新：混合鍵合 / 系統(tǒng)級芯片互聯(lián)（SoIC）、A16、CPO 與定制 HBM，是極具突破性的平臺。核心懸念在于 CPO 的應(yīng)用范圍 —— 機柜內(nèi)互聯(lián)將沿用銅還是轉(zhuǎn)向光，后續(xù)將在付費內(nèi)容中披露可能的配置方案。

七、Vera ETL256：超高密度 CPU 機柜

人工智能工作負載對數(shù)據(jù)處理、預(yù)處理與調(diào)度的需求日益增長，強化學習進一步提升 CPU 需求（CPU 需并行運行模擬、執(zhí)行代碼、驗證輸出）。由于 GPU 性能增長速度遠超 CPU，需更大規(guī)模的 CPU 集群才能充分發(fā)揮 GPU 算力，CPU 已成為日益突出的瓶頸。

Vera ETL256 機柜專為解決這一問題設(shè)計，通過液冷實現(xiàn)超高密度部署：單機柜集成 256 顆 CPU，設(shè)計理念與 NVL 機柜一致 —— 通過極致密集的計算布局，讓銅互聯(lián)可覆蓋機柜內(nèi)所有節(jié)點，省去骨干網(wǎng)的光模塊，銅互聯(lián)的成本節(jié)省遠超額外的冷卻開銷。

1. 機柜結(jié)構(gòu)

32 個計算托盤（上下各 16 個），對稱分布在中間 4 個 1U MGX ETL 交換機托盤（基于 Spectrum-6）兩側(cè)，最小化計算托盤與骨干網(wǎng)的線纜長度差異，確保所有連接在銅互聯(lián)范圍內(nèi)。
交換機托盤的后置端口連接銅骨干網(wǎng)，用于機柜內(nèi)通信；32 個前置 OSFP 插槽提供光互聯(lián)，連接其余 POD 節(jié)點。
機柜內(nèi)采用 Spectrum-X 多平面拓撲，將 200Gb/s 通道分布在 4 個交換機上，實現(xiàn)單層網(wǎng)絡(luò)的全對全互聯(lián)。每個計算托盤含 8 顆 Vera CPU，整機柜 256 顆 CPU 通過以太網(wǎng)實現(xiàn)扁平互聯(lián)。

八、CMX 與 STX：存儲層標準化方案

1. CMX（推理上下文內(nèi)存存儲平臺）

前身為 ICMS（推理上下文內(nèi)存存儲），是英偉達推出的 “G3.5 層” 存儲解決方案，位于 G3 層（本地 SSD）與 G4 層（共享存儲）之間，專為解決長上下文與智能體式工作負載中 KV 緩存快速擴張的瓶頸。

KV 緩存存儲層級挑戰(zhàn)

存儲層級	介質(zhì)	訪問延遲	應(yīng)用場景	核心特點
G1	GPU HBM	納秒級	活躍 KV 緩存（生成中）	訪問最快，每瓦性能、性價比最優(yōu)
G2	系統(tǒng) DRAM	納秒級	暫存 / 溢出 KV 緩存	延遲遞增，每 token 開銷上升
G3	本地 SSD / 機柜本地存儲	微秒級	短期復(fù)用的熱 KV 緩存	延遲較高
G4	共享對象 / 文件存儲	毫秒級	冷 KV 緩存或共享 KV 上下文	延遲最高，推理瓶頸，限制擴展，效率最低

CMX 的本質(zhì)是通過 BlueField 網(wǎng)卡連接存儲服務(wù)器與計算服務(wù)器（替代原有的 Connect-X 網(wǎng)卡），為 KV 緩存提供額外的卸載層級，緩解本地存儲容量不足與共享存儲延遲過高的矛盾。

2. STX：參考存儲機柜架構(gòu)

STX 是基于英偉達 BlueField-4 的存儲解決方案參考架構(gòu)，用于補充 VR 計算機柜，明確規(guī)定了特定集群所需的硬盤、Vera CPU、BlueField-4 數(shù)據(jù)處理單元（DPU）、CX-9 網(wǎng)卡與 Spectrum-X 交換機數(shù)量。

核心配置

每個 STX 盒含 2 個 BlueField-4 單元，每個單元含 1 顆 Vera CPU、2 顆 CX-9 網(wǎng)卡、2 個 SOCAMM 模塊；整機柜 16 個 STX 盒，合計 32 顆 Vera CPU、64 顆 CX-9 網(wǎng)卡、64 個 SOCAMM 模塊。
支持廠商包括 AIC、Cloudian、DDN、戴爾科技、愛惠浦、日立 Vantara、HPE、IBM、MinIO、NetApp、Nutanix、超微、廣達云、VAST Data、WEKA 等主流存儲廠商。

3. 戰(zhàn)略意義

BlueField-4、CMX 與 STX 共同構(gòu)成英偉達存儲層集群標準化的核心布局。在掌控計算與網(wǎng)絡(luò)層后，英偉達正逐步向存儲、軟件與基礎(chǔ)設(shè)施運營層擴張。