Arm Axion領(lǐng)銜谷歌第八代TPU,云端算力全面轉(zhuǎn)向智能體AI
谷歌在 Google Cloud Next 大會(huì)上發(fā)布第八代 TPU,分為 TPU 8t 與 TPU 8i 兩款獨(dú)立型號(hào),并首次采用自研 Arm Axion CPU 作為整套 TPU 系統(tǒng)的主控處理器。同期,Arm 發(fā)布面向服務(wù)器端的免費(fèi)性能分析工具 Performix。三項(xiàng)發(fā)布均指向同一行業(yè)趨勢(shì):云端 AI 工作負(fù)載正從單次模型查詢,轉(zhuǎn)向持續(xù)運(yùn)行的智能體系統(tǒng),需要持續(xù)編排推理鏈、調(diào)用工具、執(zhí)行檢索任務(wù)。
訓(xùn)練與推理首次分拆為獨(dú)立芯片
從初代到第七代 Ironwood,谷歌 TPU 均采用單一芯片同時(shí)承載訓(xùn)練與推理任務(wù)。第八代產(chǎn)品打破這一慣例,訓(xùn)練與推理對(duì)硬件的核心需求存在本質(zhì)差異,訓(xùn)練側(cè)重大規(guī)?;ヂ?lián)下的計(jì)算吞吐,推理更看重內(nèi)存帶寬、片上緩存與能效表現(xiàn),單一芯片無法兼顧兩類場(chǎng)景,長期存在性能妥協(xié)。
TPU 8t:面向大規(guī)模訓(xùn)練的算力架構(gòu)
TPU 8t 主打大規(guī)模預(yù)訓(xùn)練與高嵌入負(fù)載場(chǎng)景,單芯片搭載 216GB HBM,帶寬 6528GB/s,片上 SRAM 128MB,F(xiàn)P4 峰值算力 12.6PFLOPs,超級(jí) Pod 最大可擴(kuò)展至 9600 顆芯片,采用 3D Torus 架構(gòu)組網(wǎng)。芯片內(nèi)置 SparseCore 單元,專項(xiàng)處理嵌入查找時(shí)的不規(guī)則內(nèi)存訪問,避免主矩陣運(yùn)算單元因數(shù)據(jù)依賴出現(xiàn)性能損耗,同時(shí)搭載 LLM 解碼器引擎,專項(xiàng)加速自回歸解碼流程。相較上一代 Ironwood,TPU 8t 訓(xùn)練性價(jià)比提升 2.7 倍,能效比最高提升 2 倍。

TPU 8t ASIC block diagram.
TPU 8i:針對(duì)長上下文推理優(yōu)化設(shè)計(jì)
TPU 8i 面向推理與長上下文解碼場(chǎng)景,單芯片 HBM 容量提升至 288GB,帶寬達(dá) 8601GB/s,約為 TPU 8t 的 1.3 倍,片上 SRAM 擴(kuò)容至 384MB,為上一代產(chǎn)品的三倍,單 Pod 最大規(guī)模 1152 顆芯片。片上存儲(chǔ)大幅擴(kuò)容可直接優(yōu)化長上下文推理性能。產(chǎn)品采用谷歌全新 Boardfly 互聯(lián)拓?fù)?,專?xiàng)優(yōu)化混合專家模型路由的全量通信,壓縮網(wǎng)絡(luò)傳輸直徑,片上搭載集合通信加速引擎,保障互聯(lián)同步效率。相較上一代產(chǎn)品,TPU 8i 推理性價(jià)比提升 80%,能效比最高同樣提升 2 倍。

TPU 8i ASIC block diagram.
Axion 首次成為 TPU 全系主控
兩款新一代 TPU 均統(tǒng)一采用 Axion 作為主控 CPU,Axion 基于 Arm Neoverse V2 架構(gòu),為谷歌自研定制芯片。選用該架構(gòu)的核心邏輯,與智能體 AI 的負(fù)載特性高度契合。智能體系統(tǒng)包含大量 CPU 密集型任務(wù),涵蓋數(shù)據(jù)預(yù)處理、工具調(diào)用、檢索邏輯與多步推理編排調(diào)度,這類任務(wù)的運(yùn)行效率,直接決定 TPU 算力的實(shí)際利用率。
Axion 在谷歌云的產(chǎn)品布局同步拓展,C4A 虛擬機(jī)與全新 C4A Metal 裸金屬實(shí)例,面向低延遲敏感型 AI 推理場(chǎng)景,N4A 實(shí)例覆蓋高性價(jià)比橫向擴(kuò)展負(fù)載,包括網(wǎng)頁服務(wù)、API 接口與數(shù)據(jù)管道業(yè)務(wù)。谷歌同時(shí)將 Axion 與全新 GKE 智能體沙箱深度綁定,該沙箱基于 gVisor 與 Kata 容器構(gòu)建,可保障智能體生成代碼的安全運(yùn)行,在限定延遲內(nèi)完成臨時(shí)容器啟動(dòng)、工具調(diào)用與容器銷毀,谷歌表示 x86 架構(gòu)難以在高并發(fā)場(chǎng)景滿足該延遲要求。歐洲旅行平臺(tái) Loveholidays 為該方案早期商用客戶,在 C4A 實(shí)例上運(yùn)行 PB 級(jí)嵌入與推理負(fù)載,規(guī)避專用加速器的高額成本。
Arm 發(fā)布 Performix 工具,適配智能體優(yōu)化場(chǎng)景
Performix 可直接從 Arm 服務(wù)器硬件讀取運(yùn)行計(jì)數(shù)器、追蹤數(shù)據(jù)與微架構(gòu)事件,通過預(yù)設(shè)方案輸出結(jié)構(gòu)化分析結(jié)果,同時(shí)適配工程師人工調(diào)試與 AI 智能體自動(dòng)化調(diào)優(yōu),輸出數(shù)據(jù)可直接接入自動(dòng)化優(yōu)化流程。該工具為 Arm 官方首款覆蓋全棧 Neoverse 架構(gòu)的性能分析工具,兼容下一代 Arm AGI CPU。微軟、MongoDB、Redis、SAP 為首批合作廠商。Arm 公布數(shù)據(jù)顯示,2025 年全球頭部云廠商采購的 CPU 算力中,Arm 架構(gòu)產(chǎn)品占比已達(dá) 50%。
這三項(xiàng)發(fā)布放在一起,呈現(xiàn)的是谷歌對(duì)下一階段云端AI基礎(chǔ)設(shè)施的整體判斷:單芯片通吃的時(shí)代結(jié)束了,訓(xùn)練與推理需要針對(duì)性設(shè)計(jì);CPU在智能體系統(tǒng)里不再是配角,編排、工具調(diào)用、沙箱執(zhí)行這些任務(wù)對(duì)主控處理器提出了新的要求;性能分析工具也需要跟上自動(dòng)化調(diào)優(yōu)的節(jié)奏。Arm架構(gòu)在這套體系里的角色,已經(jīng)不只是"省電的替代方案",而是從主控CPU到開發(fā)工具鏈的全棧滲透。JAX、PyTorch和Keras在Ironwood上的代碼可以直接移植到第八代,遷移門檻不高,但這套新架構(gòu)能否在生產(chǎn)環(huán)境中兌現(xiàn)其價(jià)格性能承諾,仍需時(shí)間驗(yàn)證。


評(píng)論