新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > Arm Axion領(lǐng)銜谷歌第八代TPU，云端算力全面轉(zhuǎn)向智能體AI

Arm Axion領(lǐng)銜谷歌第八代TPU，云端算力全面轉(zhuǎn)向智能體AI

作者：時(shí)間：2026-05-07 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

谷歌在 Google Cloud Next 大會(huì)上發(fā)布第八代 TPU，分為 TPU 8t 與 TPU 8i 兩款獨(dú)立型號(hào)，并首次采用自研 Arm Axion CPU 作為整套 TPU 系統(tǒng)的主控處理器。同期，Arm 發(fā)布面向服務(wù)器端的免費(fèi)性能分析工具 Performix。三項(xiàng)發(fā)布均指向同一行業(yè)趨勢(shì)：云端 AI 工作負(fù)載正從單次模型查詢，轉(zhuǎn)向持續(xù)運(yùn)行的智能體系統(tǒng)，需要持續(xù)編排推理鏈、調(diào)用工具、執(zhí)行檢索任務(wù)。

訓(xùn)練與推理首次分拆為獨(dú)立芯片

從初代到第七代 Ironwood，谷歌 TPU 均采用單一芯片同時(shí)承載訓(xùn)練與推理任務(wù)。第八代產(chǎn)品打破這一慣例，訓(xùn)練與推理對(duì)硬件的核心需求存在本質(zhì)差異，訓(xùn)練側(cè)重大規(guī)?；ヂ?lián)下的計(jì)算吞吐，推理更看重內(nèi)存帶寬、片上緩存與能效表現(xiàn)，單一芯片無法兼顧兩類場(chǎng)景，長期存在性能妥協(xié)。

TPU 8t：面向大規(guī)模訓(xùn)練的算力架構(gòu)

TPU 8t 主打大規(guī)模預(yù)訓(xùn)練與高嵌入負(fù)載場(chǎng)景，單芯片搭載 216GB HBM，帶寬 6528GB/s，片上 SRAM 128MB，F(xiàn)P4 峰值算力 12.6PFLOPs，超級(jí) Pod 最大可擴(kuò)展至 9600 顆芯片，采用 3D Torus 架構(gòu)組網(wǎng)。芯片內(nèi)置 SparseCore 單元，專項(xiàng)處理嵌入查找時(shí)的不規(guī)則內(nèi)存訪問，避免主矩陣運(yùn)算單元因數(shù)據(jù)依賴出現(xiàn)性能損耗，同時(shí)搭載 LLM 解碼器引擎，專項(xiàng)加速自回歸解碼流程。相較上一代 Ironwood，TPU 8t 訓(xùn)練性價(jià)比提升 2.7 倍，能效比最高提升 2 倍。

TPU 8t ASIC block diagram.

TPU 8i：針對(duì)長上下文推理優(yōu)化設(shè)計(jì)

TPU 8i 面向推理與長上下文解碼場(chǎng)景，單芯片 HBM 容量提升至 288GB，帶寬達(dá) 8601GB/s，約為 TPU 8t 的 1.3 倍，片上 SRAM 擴(kuò)容至 384MB，為上一代產(chǎn)品的三倍，單 Pod 最大規(guī)模 1152 顆芯片。片上存儲(chǔ)大幅擴(kuò)容可直接優(yōu)化長上下文推理性能。產(chǎn)品采用谷歌全新 Boardfly 互聯(lián)拓?fù)?，專?xiàng)優(yōu)化混合專家模型路由的全量通信，壓縮網(wǎng)絡(luò)傳輸直徑，片上搭載集合通信加速引擎，保障互聯(lián)同步效率。相較上一代產(chǎn)品，TPU 8i 推理性價(jià)比提升 80%，能效比最高同樣提升 2 倍。

TPU 8i ASIC block diagram.

Axion 首次成為 TPU 全系主控

兩款新一代 TPU 均統(tǒng)一采用 Axion 作為主控 CPU，Axion 基于 Arm Neoverse V2 架構(gòu)，為谷歌自研定制芯片。選用該架構(gòu)的核心邏輯，與智能體 AI 的負(fù)載特性高度契合。智能體系統(tǒng)包含大量 CPU 密集型任務(wù)，涵蓋數(shù)據(jù)預(yù)處理、工具調(diào)用、檢索邏輯與多步推理編排調(diào)度，這類任務(wù)的運(yùn)行效率，直接決定 TPU 算力的實(shí)際利用率。

Axion 在谷歌云的產(chǎn)品布局同步拓展，C4A 虛擬機(jī)與全新 C4A Metal 裸金屬實(shí)例，面向低延遲敏感型 AI 推理場(chǎng)景，N4A 實(shí)例覆蓋高性價(jià)比橫向擴(kuò)展負(fù)載，包括網(wǎng)頁服務(wù)、API 接口與數(shù)據(jù)管道業(yè)務(wù)。谷歌同時(shí)將 Axion 與全新 GKE 智能體沙箱深度綁定，該沙箱基于 gVisor 與 Kata 容器構(gòu)建，可保障智能體生成代碼的安全運(yùn)行，在限定延遲內(nèi)完成臨時(shí)容器啟動(dòng)、工具調(diào)用與容器銷毀，谷歌表示 x86 架構(gòu)難以在高并發(fā)場(chǎng)景滿足該延遲要求。歐洲旅行平臺(tái) Loveholidays 為該方案早期商用客戶，在 C4A 實(shí)例上運(yùn)行 PB 級(jí)嵌入與推理負(fù)載，規(guī)避專用加速器的高額成本。

Arm 發(fā)布 Performix 工具，適配智能體優(yōu)化場(chǎng)景

Performix 可直接從 Arm 服務(wù)器硬件讀取運(yùn)行計(jì)數(shù)器、追蹤數(shù)據(jù)與微架構(gòu)事件，通過預(yù)設(shè)方案輸出結(jié)構(gòu)化分析結(jié)果，同時(shí)適配工程師人工調(diào)試與 AI 智能體自動(dòng)化調(diào)優(yōu)，輸出數(shù)據(jù)可直接接入自動(dòng)化優(yōu)化流程。該工具為 Arm 官方首款覆蓋全棧 Neoverse 架構(gòu)的性能分析工具，兼容下一代 Arm AGI CPU。微軟、MongoDB、Redis、SAP 為首批合作廠商。Arm 公布數(shù)據(jù)顯示，2025 年全球頭部云廠商采購的 CPU 算力中，Arm 架構(gòu)產(chǎn)品占比已達(dá) 50%。

這三項(xiàng)發(fā)布放在一起，呈現(xiàn)的是谷歌對(duì)下一階段云端AI基礎(chǔ)設(shè)施的整體判斷：單芯片通吃的時(shí)代結(jié)束了，訓(xùn)練與推理需要針對(duì)性設(shè)計(jì)；CPU在智能體系統(tǒng)里不再是配角，編排、工具調(diào)用、沙箱執(zhí)行這些任務(wù)對(duì)主控處理器提出了新的要求；性能分析工具也需要跟上自動(dòng)化調(diào)優(yōu)的節(jié)奏。Arm架構(gòu)在這套體系里的角色，已經(jīng)不只是"省電的替代方案"，而是從主控CPU到開發(fā)工具鏈的全棧滲透。JAX、PyTorch和Keras在Ironwood上的代碼可以直接移植到第八代，遷移門檻不高，但這套新架構(gòu)能否在生產(chǎn)環(huán)境中兌現(xiàn)其價(jià)格性能承諾，仍需時(shí)間驗(yàn)證。

關(guān)鍵詞：谷歌 TPU

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

Arm Axion領(lǐng)銜谷歌第八代TPU，云端算力全面轉(zhuǎn)向智能體AI

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)