新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 編輯觀點(diǎn) > 谷歌優(yōu)化升級(jí)網(wǎng)絡(luò)架構(gòu)，打造生成式 AI 推理與訓(xùn)練高效利器

谷歌優(yōu)化升級(jí)網(wǎng)絡(luò)架構(gòu)，打造生成式 AI 推理與訓(xùn)練高效利器

作者：時(shí)間：2026-04-29 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

谷歌一位網(wǎng)絡(luò)領(lǐng)域?qū)＜視x升至核心管理層、執(zhí)掌這家搜索引擎、廣告巨頭（如今更是 AI 巨頭）的基礎(chǔ)設(shè)施研發(fā)業(yè)務(wù)，這絕非偶然。尤其關(guān)鍵的是，谷歌幾乎已經(jīng)落地了解耦式數(shù)據(jù)中心基礎(chǔ)設(shè)施架構(gòu) —— 過(guò)去十余年間，我們一直在持續(xù)探討、追蹤這一技術(shù)方向。

在解耦、可組合的數(shù)據(jù)中心架構(gòu)體系中，網(wǎng)絡(luò)始終處于核心樞紐位置。企業(yè)不僅需要對(duì)網(wǎng)絡(luò)進(jìn)行性能調(diào)優(yōu)，更要針對(duì)性定制專用網(wǎng)絡(luò)，使其高度適配特定業(yè)務(wù)負(fù)載，這也是差異化網(wǎng)絡(luò)架構(gòu)誕生的核心原因。

傳統(tǒng)一體化服務(wù)器被拆解為獨(dú)立硬件單元，以機(jī)架模塊化方式部署，算力、內(nèi)存、I/O、加速卡、存儲(chǔ)資源可自由組合，靈活構(gòu)建不同規(guī)格的虛擬集群：小集群承載輕量化分布式任務(wù)，超大規(guī)模集群專注單一巨型 AI 作業(yè)。這套復(fù)雜架構(gòu)，絕非僅靠在機(jī)架內(nèi)堆疊 PCIe 交換芯片就能實(shí)現(xiàn)。

從傳統(tǒng)分布式計(jì)算、存儲(chǔ)系統(tǒng)，到跨區(qū)域、全球化數(shù)據(jù)中心互聯(lián)，專用網(wǎng)絡(luò)與通信協(xié)議正迎來(lái)全面普及。谷歌自研網(wǎng)絡(luò)技術(shù)布局已久：2019 年，谷歌公開(kāi)基于 Linux 自研的網(wǎng)絡(luò)操作系統(tǒng)Snap，以及配套數(shù)據(jù)面引擎 Pony Express，該套方案早在 2016 年便已投入量產(chǎn)部署。

四年前，谷歌推出Aquila協(xié)議，可為小規(guī)模緊耦合集群提供媲美 InfiniBand 的超低時(shí)延能力；同步配套研發(fā)機(jī)架頂置網(wǎng)卡芯片 TiN，基于蜻蜓全互聯(lián)拓?fù)?，?shí)現(xiàn)千節(jié)點(diǎn)集群的定制化組網(wǎng)。此外，谷歌與英特爾聯(lián)合為 “芒特埃文斯” DPU 打造Falcon低時(shí)延網(wǎng)絡(luò)傳輸接口，進(jìn)一步豐富低延遲算力互聯(lián)方案。

上周谷歌正式發(fā)布TPU 8系列芯片，面向推理場(chǎng)景的 TPU 8i 與面向訓(xùn)練場(chǎng)景的 TPU 8t 同步亮相。本文將深度解析兩大核心技術(shù)：一是谷歌自研的Boardfly 芯片間互聯(lián)（ICI）全新拓?fù)洌糜?nbsp;TPU 算力集群組網(wǎng)，并實(shí)現(xiàn)跨芯片一定程度的內(nèi)存一致性；二是全新室女座（Virgo）橫向擴(kuò)展級(jí)以太網(wǎng)架構(gòu)，面向全域數(shù)據(jù)中心規(guī)模部署，全面適配 TPU 集群及各類服務(wù)器機(jī)架互聯(lián)。

此前歷代 TPU 集群均采用環(huán)形拓?fù)浣M網(wǎng)：中小規(guī)模集群使用二維環(huán)網(wǎng)，搭載數(shù)千顆 TPU 的超大規(guī)模計(jì)算集群則升級(jí)為三維環(huán)網(wǎng)。

環(huán)形拓?fù)渚邆涠嗑S度互聯(lián)特性，廣泛應(yīng)用于超級(jí)計(jì)算機(jī)架構(gòu)：IBM 藍(lán)色基因大型并行超算、富士通研發(fā)的 “K 超算” 與 “富岳超算” 搭載的六維 Tofu 互聯(lián)架構(gòu)，均是典型案例。

環(huán)形拓?fù)溥m合海量硬件節(jié)點(diǎn)組網(wǎng)，但橫向擴(kuò)容難度極高。二維環(huán)網(wǎng)最大僅支持 256 顆加速卡互聯(lián)；谷歌上一代鐵木 TPU v7e 采用的三維環(huán)網(wǎng)，上限為 9216 顆加速卡；而全新太陽(yáng)魚(yú) TPU 8t 訓(xùn)練集群，依托升級(jí)版三維環(huán)網(wǎng)，將單系統(tǒng)鏡像互聯(lián)規(guī)模提升至 9600 顆 TPU。

環(huán)形拓?fù)溥m配分布式并行計(jì)算，但設(shè)備間數(shù)據(jù)轉(zhuǎn)發(fā)跳數(shù)過(guò)多，會(huì)顯著增加傳輸時(shí)延，該特性勉強(qiáng)滿足大模型訓(xùn)練需求，卻完全無(wú)法適配推理業(yè)務(wù)。推理場(chǎng)景的核心目標(biāo)是極致降本，且存在大量全規(guī)約、全互聯(lián)通信需求，當(dāng)前主流混合專家（MoE）大模型尤為依賴高頻低延遲互聯(lián)。

為此，谷歌為斑馬魚(yú) TPU 8i 推理芯片量身打造Boardfly 全新拓?fù)浼軜?gòu)。該架構(gòu)單集群可實(shí)現(xiàn) 1152 顆 TPU 8i 一體化內(nèi)存與算力協(xié)同組網(wǎng)；同等規(guī)模下，網(wǎng)絡(luò)轉(zhuǎn)發(fā)跳數(shù)從三維環(huán)網(wǎng)的 16 跳壓縮至 7 跳。

Boardfly 拓?fù)浣梃b近十五年超算領(lǐng)域普及的蜻蜓拓?fù)湓O(shè)計(jì)，推理集群網(wǎng)絡(luò)直徑降低 56%，大幅削減數(shù)據(jù)傳輸尾延遲。谷歌實(shí)測(cè)數(shù)據(jù)顯示，在推理負(fù)載下，Boardfly 架構(gòu)的數(shù)據(jù)傳輸平均時(shí)延，較三維環(huán)網(wǎng)直接降低 50%。

時(shí)延優(yōu)化能夠充分釋放 TPU 8i 內(nèi)置的集合通信加速引擎（CAE）卸載芯片性能，保障硬件算力持續(xù)滿載輸出。更強(qiáng)的原生算力、扁平化Boardfly 互聯(lián)架構(gòu)與專用 CAE 加速單元形成協(xié)同，讓全新推理集群的整體吞吐性能，較上一代鐵木平臺(tái)實(shí)現(xiàn)三倍及以上躍升。

下面是另一個(gè)

在 Boardfly 架構(gòu)中，單塊斑馬魚(yú)系統(tǒng)板搭載 8 顆 TPU 8i，通過(guò)芯片間互聯(lián)端口實(shí)現(xiàn)板內(nèi)全互聯(lián)；每顆芯片預(yù)留冗余互聯(lián)端口，可將 8 塊系統(tǒng)板進(jìn)一步級(jí)聯(lián)，構(gòu)建機(jī)架級(jí) 32 顆 TPU 全互聯(lián)體系，機(jī)架內(nèi)任意兩顆芯片僅需 1~2 跳即可完成通信，且全程采用低成本銅纜互聯(lián)。

如需擴(kuò)展至 1152 顆 TPU、合計(jì) 36 組算力單元的超大規(guī)模推理集群，谷歌接入阿波羅（Apollo）光電路交換設(shè)備（隸屬木星數(shù)據(jù)中心骨干網(wǎng)絡(luò)），實(shí)現(xiàn)跨集群高速互聯(lián)。

這套「芯片間互聯(lián) + 光電路交換」組合架構(gòu)，是跳數(shù)大幅壓縮的關(guān)鍵：光交換設(shè)備搭載海量光口，推理系統(tǒng)板可集成更多光收發(fā)模塊，大幅提升板間光纖互聯(lián)密度。對(duì)比上一代三維環(huán)網(wǎng)，32 節(jié)點(diǎn)集群的光電互聯(lián)鏈路數(shù)量提升約 4~8 倍，硬件互聯(lián)瓶頸徹底解除。

面向 AI 訓(xùn)練的規(guī)?；M網(wǎng)升級(jí)

AI 訓(xùn)練與推理的負(fù)載需求截然不同，谷歌會(huì)盡可能減少光電路交換設(shè)備的使用 —— 相較于博通、思科、英偉達(dá) ASIC 架構(gòu)的以太網(wǎng)交換機(jī)，光交換硬件成本更高、供給更稀缺。

谷歌并未完整披露室女座（Virgo）橫向擴(kuò)展網(wǎng)絡(luò)的底層硬件參數(shù)，但明確了核心設(shè)計(jì)思路：不再單純追求單端口超高速率，而是平衡帶寬需求、高基數(shù)端口密度與扁平化網(wǎng)絡(luò)架構(gòu)，通過(guò)減少轉(zhuǎn)發(fā)跳數(shù)控制整體部署成本。

技術(shù)層面，Virgo 架構(gòu)為 GPU、TPU 等加速卡機(jī)架，構(gòu)建扁平化、無(wú)阻塞雙層全域互聯(lián)拓?fù)?。阿波羅光交換設(shè)備不再用于訓(xùn)練集群橫向擴(kuò)容，僅負(fù)責(zé)對(duì)接谷歌數(shù)據(jù)中心內(nèi)通用算力、存儲(chǔ)資源池。

官方數(shù)據(jù)顯示，單套 Virgo 網(wǎng)絡(luò)架構(gòu)可無(wú)縫互聯(lián)多達(dá) 13.4 萬(wàn)顆 TPU 8t 芯片，提供 47PB/s 無(wú)阻塞二分帶寬；太陽(yáng)魚(yú) TPU 8t 單芯片橫向擴(kuò)展帶寬達(dá) 400Gb/s，是上一代鐵木 v7e 100Gb/s 端口帶寬的四倍，網(wǎng)絡(luò)架構(gòu)時(shí)延同步降低 40%。

谷歌超大規(guī)格 TPU 訓(xùn)練集群的構(gòu)建邏輯清晰：?jiǎn)渭簝?nèi)，依托三維環(huán)網(wǎng)芯片間互聯(lián)，最高可容納 9600 顆 TPU 8t 算力芯片；結(jié)合深度優(yōu)化 RDMA 協(xié)議、借鑒 Aquila 協(xié)議與 TiN 混合交換網(wǎng)卡技術(shù)的 Virgo 數(shù)據(jù)中心網(wǎng)絡(luò)，再疊加 JAX、Pathways 兩大 AI 框架專屬優(yōu)化，單套 Virgo 組網(wǎng)可支撐 13.4 萬(wàn)顆TPU 協(xié)同訓(xùn)練。

多套 Virgo 架構(gòu)通過(guò)光電路交換設(shè)備級(jí)聯(lián)后，可組建百萬(wàn)級(jí) TPU超大型邏輯訓(xùn)練集群，滿足萬(wàn)億參數(shù)大模型、通用人工智能的極限訓(xùn)練需求。

除此之外，谷歌為 TPU 8t 新增原生 RDMA 支持，推出兩大關(guān)鍵技術(shù)：TPU 直連 RDMA與TPU 直連存儲(chǔ)。兩項(xiàng)技術(shù)對(duì)標(biāo)英偉達(dá) GPU 生態(tài)成熟方案，補(bǔ)齊了 TPU 長(zhǎng)期缺失的高速互聯(lián)能力。

實(shí)測(cè)結(jié)果顯示，在谷歌托管級(jí) Lustre 10T 存儲(chǔ)服務(wù)中，TPU 直連存儲(chǔ)技術(shù)可將存儲(chǔ)訪問(wèn)性能提升 10 倍，徹底解決上一代 TPU 平臺(tái)存儲(chǔ) IO 瓶頸。而TPU 內(nèi)存 RDMA 互聯(lián)的具體性能提升幅度，谷歌暫未公開(kāi)細(xì)節(jié)。

關(guān)鍵詞：谷歌 生成式AI 推理與訓(xùn)練

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

谷歌優(yōu)化升級(jí)網(wǎng)絡(luò)架構(gòu)，打造生成式 AI 推理與訓(xùn)練高效利器

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

谷歌優(yōu)化升級(jí)網(wǎng)絡(luò)架構(gòu)，打造生成式 AI 推理與訓(xùn)練高效利器

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

谷歌優(yōu)化升級(jí)網(wǎng)絡(luò)架構(gòu)，打造生成式 AI 推理與訓(xùn)練高效利器