狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 編輯觀點(diǎn) > 谷歌優(yōu)化升級(jí)網(wǎng)絡(luò)架構(gòu),打造生成式 AI 推理與訓(xùn)練高效利器

谷歌優(yōu)化升級(jí)網(wǎng)絡(luò)架構(gòu),打造生成式 AI 推理與訓(xùn)練高效利器

作者: 時(shí)間:2026-04-29 來(lái)源: 收藏

一位網(wǎng)絡(luò)領(lǐng)域?qū)<視x升至核心管理層、執(zhí)掌這家搜索引擎、廣告巨頭(如今更是 AI 巨頭)的基礎(chǔ)設(shè)施研發(fā)業(yè)務(wù),這絕非偶然。尤其關(guān)鍵的是,幾乎已經(jīng)落地了解耦式數(shù)據(jù)中心基礎(chǔ)設(shè)施架構(gòu) —— 過(guò)去十余年間,我們一直在持續(xù)探討、追蹤這一技術(shù)方向。

在解耦、可組合的數(shù)據(jù)中心架構(gòu)體系中,網(wǎng)絡(luò)始終處于核心樞紐位置。企業(yè)不僅需要對(duì)網(wǎng)絡(luò)進(jìn)行性能調(diào)優(yōu),更要針對(duì)性定制專用網(wǎng)絡(luò),使其高度適配特定業(yè)務(wù)負(fù)載,這也是差異化網(wǎng)絡(luò)架構(gòu)誕生的核心原因。

傳統(tǒng)一體化服務(wù)器被拆解為獨(dú)立硬件單元,以機(jī)架模塊化方式部署,算力、內(nèi)存、I/O、加速卡、存儲(chǔ)資源可自由組合,靈活構(gòu)建不同規(guī)格的虛擬集群:小集群承載輕量化分布式任務(wù),超大規(guī)模集群專注單一巨型 AI 作業(yè)。這套復(fù)雜架構(gòu),絕非僅靠在機(jī)架內(nèi)堆疊 PCIe 交換芯片就能實(shí)現(xiàn)。

從傳統(tǒng)分布式計(jì)算、存儲(chǔ)系統(tǒng),到跨區(qū)域、全球化數(shù)據(jù)中心互聯(lián),專用網(wǎng)絡(luò)與通信協(xié)議正迎來(lái)全面普及。自研網(wǎng)絡(luò)技術(shù)布局已久:2019 年,谷歌公開(kāi)基于 Linux 自研的網(wǎng)絡(luò)操作系統(tǒng)Snap,以及配套數(shù)據(jù)面引擎 Pony Express,該套方案早在 2016 年便已投入量產(chǎn)部署。

四年前,谷歌推出Aquila協(xié)議,可為小規(guī)模緊耦合集群提供媲美 InfiniBand 的超低時(shí)延能力;同步配套研發(fā)機(jī)架頂置網(wǎng)卡芯片 TiN,基于蜻蜓全互聯(lián)拓?fù)?,?shí)現(xiàn)千節(jié)點(diǎn)集群的定制化組網(wǎng)。此外,谷歌與英特爾聯(lián)合為 “芒特埃文斯” DPU 打造Falcon低時(shí)延網(wǎng)絡(luò)傳輸接口,進(jìn)一步豐富低延遲算力互聯(lián)方案。

上周谷歌正式發(fā)布TPU 8系列芯片,面向推理場(chǎng)景的 TPU 8i 與面向訓(xùn)練場(chǎng)景的 TPU 8t 同步亮相。本文將深度解析兩大核心技術(shù):一是谷歌自研的Boardfly 芯片間互聯(lián)(ICI) 全新拓?fù)洌糜?nbsp;TPU 算力集群組網(wǎng),并實(shí)現(xiàn)跨芯片一定程度的內(nèi)存一致性;二是全新室女座(Virgo) 橫向擴(kuò)展級(jí)以太網(wǎng)架構(gòu),面向全域數(shù)據(jù)中心規(guī)模部署,全面適配 TPU 集群及各類服務(wù)器機(jī)架互聯(lián)。

此前歷代 TPU 集群均采用環(huán)形拓?fù)浣M網(wǎng):中小規(guī)模集群使用二維環(huán)網(wǎng),搭載數(shù)千顆 TPU 的超大規(guī)模計(jì)算集群則升級(jí)為三維環(huán)網(wǎng)。

圖片

環(huán)形拓?fù)渚邆涠嗑S度互聯(lián)特性,廣泛應(yīng)用于超級(jí)計(jì)算機(jī)架構(gòu):IBM 藍(lán)色基因大型并行超算、富士通研發(fā)的 “K 超算” 與 “富岳超算” 搭載的六維 Tofu 互聯(lián)架構(gòu),均是典型案例。

環(huán)形拓?fù)溥m合海量硬件節(jié)點(diǎn)組網(wǎng),但橫向擴(kuò)容難度極高。二維環(huán)網(wǎng)最大僅支持 256 顆加速卡互聯(lián);谷歌上一代鐵木 TPU v7e 采用的三維環(huán)網(wǎng),上限為 9216 顆加速卡;而全新太陽(yáng)魚(yú) TPU 8t 訓(xùn)練集群,依托升級(jí)版三維環(huán)網(wǎng),將單系統(tǒng)鏡像互聯(lián)規(guī)模提升至 9600 顆 TPU。

環(huán)形拓?fù)溥m配分布式并行計(jì)算,但設(shè)備間數(shù)據(jù)轉(zhuǎn)發(fā)跳數(shù)過(guò)多,會(huì)顯著增加傳輸時(shí)延,該特性勉強(qiáng)滿足大模型訓(xùn)練需求,卻完全無(wú)法適配推理業(yè)務(wù)。推理場(chǎng)景的核心目標(biāo)是極致降本,且存在大量全規(guī)約、全互聯(lián)通信需求,當(dāng)前主流混合專家(MoE)大模型尤為依賴高頻低延遲互聯(lián)。

為此,谷歌為斑馬魚(yú) TPU 8i 推理芯片量身打造Boardfly 全新拓?fù)浼軜?gòu)。該架構(gòu)單集群可實(shí)現(xiàn) 1152 顆 TPU 8i 一體化內(nèi)存與算力協(xié)同組網(wǎng);同等規(guī)模下,網(wǎng)絡(luò)轉(zhuǎn)發(fā)跳數(shù)從三維環(huán)網(wǎng)的 16 跳壓縮至 7 跳。

Boardfly 拓?fù)浣梃b近十五年超算領(lǐng)域普及的蜻蜓拓?fù)湓O(shè)計(jì),推理集群網(wǎng)絡(luò)直徑降低 56%,大幅削減數(shù)據(jù)傳輸尾延遲。谷歌實(shí)測(cè)數(shù)據(jù)顯示,在推理負(fù)載下,Boardfly 架構(gòu)的數(shù)據(jù)傳輸平均時(shí)延,較三維環(huán)網(wǎng)直接降低 50%。

時(shí)延優(yōu)化能夠充分釋放 TPU 8i 內(nèi)置的集合通信加速引擎(CAE) 卸載芯片性能,保障硬件算力持續(xù)滿載輸出。更強(qiáng)的原生算力、扁平化Boardfly 互聯(lián)架構(gòu)與專用 CAE 加速單元形成協(xié)同,讓全新推理集群的整體吞吐性能,較上一代鐵木平臺(tái)實(shí)現(xiàn)三倍及以上躍升。

圖片

下面是另一個(gè)

圖片

在 Boardfly 架構(gòu)中,單塊斑馬魚(yú)系統(tǒng)板搭載 8 顆 TPU 8i,通過(guò)芯片間互聯(lián)端口實(shí)現(xiàn)板內(nèi)全互聯(lián);每顆芯片預(yù)留冗余互聯(lián)端口,可將 8 塊系統(tǒng)板進(jìn)一步級(jí)聯(lián),構(gòu)建機(jī)架級(jí) 32 顆 TPU 全互聯(lián)體系,機(jī)架內(nèi)任意兩顆芯片僅需 1~2 跳即可完成通信,且全程采用低成本銅纜互聯(lián)。

如需擴(kuò)展至 1152 顆 TPU、合計(jì) 36 組算力單元的超大規(guī)模推理集群,谷歌接入阿波羅(Apollo) 光電路交換設(shè)備(隸屬木星數(shù)據(jù)中心骨干網(wǎng)絡(luò)),實(shí)現(xiàn)跨集群高速互聯(lián)。

這套「芯片間互聯(lián) + 光電路交換」組合架構(gòu),是跳數(shù)大幅壓縮的關(guān)鍵:光交換設(shè)備搭載海量光口,推理系統(tǒng)板可集成更多光收發(fā)模塊,大幅提升板間光纖互聯(lián)密度。對(duì)比上一代三維環(huán)網(wǎng),32 節(jié)點(diǎn)集群的光電互聯(lián)鏈路數(shù)量提升約 4~8 倍,硬件互聯(lián)瓶頸徹底解除。

圖片

面向 AI 訓(xùn)練的規(guī)?;M網(wǎng)升級(jí)

AI 訓(xùn)練與推理的負(fù)載需求截然不同,谷歌會(huì)盡可能減少光電路交換設(shè)備的使用 —— 相較于博通、思科、英偉達(dá) ASIC 架構(gòu)的以太網(wǎng)交換機(jī),光交換硬件成本更高、供給更稀缺。

谷歌并未完整披露室女座(Virgo)橫向擴(kuò)展網(wǎng)絡(luò)的底層硬件參數(shù),但明確了核心設(shè)計(jì)思路:不再單純追求單端口超高速率,而是平衡帶寬需求、高基數(shù)端口密度與扁平化網(wǎng)絡(luò)架構(gòu),通過(guò)減少轉(zhuǎn)發(fā)跳數(shù)控制整體部署成本。

圖片

技術(shù)層面,Virgo 架構(gòu)為 GPU、TPU 等加速卡機(jī)架,構(gòu)建扁平化、無(wú)阻塞雙層全域互聯(lián)拓?fù)?。阿波羅光交換設(shè)備不再用于訓(xùn)練集群橫向擴(kuò)容,僅負(fù)責(zé)對(duì)接谷歌數(shù)據(jù)中心內(nèi)通用算力、存儲(chǔ)資源池。

官方數(shù)據(jù)顯示,單套 Virgo 網(wǎng)絡(luò)架構(gòu)可無(wú)縫互聯(lián)多達(dá) 13.4 萬(wàn)顆 TPU 8t 芯片,提供 47PB/s 無(wú)阻塞二分帶寬;太陽(yáng)魚(yú) TPU 8t 單芯片橫向擴(kuò)展帶寬達(dá) 400Gb/s,是上一代鐵木 v7e 100Gb/s 端口帶寬的四倍,網(wǎng)絡(luò)架構(gòu)時(shí)延同步降低 40%。

谷歌超大規(guī)格 TPU 訓(xùn)練集群的構(gòu)建邏輯清晰:?jiǎn)渭簝?nèi),依托三維環(huán)網(wǎng)芯片間互聯(lián),最高可容納 9600 顆 TPU 8t 算力芯片;結(jié)合深度優(yōu)化 RDMA 協(xié)議、借鑒 Aquila 協(xié)議與 TiN 混合交換網(wǎng)卡技術(shù)的 Virgo 數(shù)據(jù)中心網(wǎng)絡(luò),再疊加 JAX、Pathways 兩大 AI 框架專屬優(yōu)化,單套 Virgo 組網(wǎng)可支撐 13.4 萬(wàn)顆TPU 協(xié)同訓(xùn)練。

多套 Virgo 架構(gòu)通過(guò)光電路交換設(shè)備級(jí)聯(lián)后,可組建百萬(wàn)級(jí) TPU超大型邏輯訓(xùn)練集群,滿足萬(wàn)億參數(shù)大模型、通用人工智能的極限訓(xùn)練需求。

除此之外,谷歌為 TPU 8t 新增原生 RDMA 支持,推出兩大關(guān)鍵技術(shù):TPU 直連 RDMA與TPU 直連存儲(chǔ)。兩項(xiàng)技術(shù)對(duì)標(biāo)英偉達(dá) GPU 生態(tài)成熟方案,補(bǔ)齊了 TPU 長(zhǎng)期缺失的高速互聯(lián)能力。

圖片

實(shí)測(cè)結(jié)果顯示,在谷歌托管級(jí) Lustre 10T 存儲(chǔ)服務(wù)中,TPU 直連存儲(chǔ)技術(shù)可將存儲(chǔ)訪問(wèn)性能提升 10 倍,徹底解決上一代 TPU 平臺(tái)存儲(chǔ) IO 瓶頸。而TPU 內(nèi)存 RDMA 互聯(lián)的具體性能提升幅度,谷歌暫未公開(kāi)細(xì)節(jié)。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉
来宾市| 韩城市| 皮山县| 当涂县| 左权县| 增城市| 中宁县| 神木县| 彰化县| 休宁县| 托里县| 白银市| 吉木乃县| 卢湾区| 万盛区| 正定县| 高青县| 凤冈县| 绥棱县| 本溪市| 葫芦岛市| 望奎县| 托克逊县| 桂林市| 稷山县| 罗田县| 元江| 余姚市| 彭山县| 榆社县| 西丰县| 六安市| 滦平县| 博野县| 象山县| 襄城县| 武山县| 镇巴县| 铜鼓县| 新巴尔虎左旗| 凤城市|