狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 谷歌TPU:為AI推理時(shí)代打造的芯片

谷歌TPU:為AI推理時(shí)代打造的芯片

作者: 時(shí)間:2025-12-01 來源: 收藏

的歷史以及這一切的起源?

張量處理單元()的故事并非始于制造的突破,而是始于對(duì)數(shù)學(xué)和物流的認(rèn)識(shí)。大約在2013年,的領(lǐng)導(dǎo)層——特別是杰夫·迪恩、喬納森·羅斯(Groq的CEO)和大腦團(tuán)隊(duì)——發(fā)布了一個(gè)令他們震驚的預(yù)測(cè)。他們計(jì)算出,如果每個(gè)安卓用戶每天只使用谷歌的語音搜索功能三分鐘,谷歌就需要將全球數(shù)據(jù)中心容量翻倍以應(yīng)對(duì)計(jì)算負(fù)載。

當(dāng)時(shí),谷歌依賴標(biāo)準(zhǔn)CPU和GPU完成這些任務(wù)。雖然功能強(qiáng)大,但這些通用在深度學(xué)習(xí)所需的特殊繁重任務(wù)——大規(guī)模矩陣乘法方面效率低下。用現(xiàn)有硬件進(jìn)行擴(kuò)展將是財(cái)務(wù)和后勤上的噩夢(mèng)。

這激發(fā)了一個(gè)新項(xiàng)目。谷歌決定做一件軟件公司罕見的事:打造自己的定制硅片。目標(biāo)是創(chuàng)建一個(gè)僅用于運(yùn)行 TensorFlow 神經(jīng)網(wǎng)絡(luò)的 ASIC(專用集成電路)。

關(guān)鍵歷史里程碑:

  • 2013-2014年:項(xiàng)目進(jìn)展非常迅速,谷歌不僅聘請(qǐng)了一支非常有能力的團(tuán)隊(duì),而且坦白說,他們?cè)诘谝徊揭踩〉昧艘恍┻\(yùn)氣。團(tuán)隊(duì)從設(shè)計(jì)概念到在數(shù)據(jù)中心部署硅片僅用了15個(gè)月——對(duì)硬件工程來說是一個(gè)非常短的周期。

  • 2015年:在世界還未意識(shí)到它們存在之前,已經(jīng)為谷歌最受歡迎的產(chǎn)品提供動(dòng)力。它們默默加速了谷歌地圖導(dǎo)航、谷歌相冊(cè)和谷歌翻譯。

  • 2016年:谷歌在Google I/O 2016上正式發(fā)布了TPU。

解決“數(shù)據(jù)中心雙重”問題的緊迫性正是TPU存在的原因。它不是為賣給玩家或渲染視頻而設(shè)計(jì)的;它的誕生是為了拯救谷歌免于自身的人工智能成功??紤]到這一點(diǎn),谷歌已經(jīng)思考“代價(jià)高昂”的人工智能推理問題十多年了。這也是TPU相較于其他ASIC項(xiàng)目表現(xiàn)優(yōu)異的主要原因之一。

TPU和GPU的區(qū)別是什么?

要理解它們的區(qū)別,最好看看每個(gè)最初的設(shè)計(jì)目的。GPU是一種“通用”并行處理器,而TPU則是“域?qū)S谩奔軜?gòu)。

這些GPU是為圖形設(shè)計(jì)的。它們擅長(zhǎng)并行處理(同時(shí)處理多項(xiàng)任務(wù)),這對(duì)人工智能非常有利。然而,由于它們?cè)O(shè)計(jì)用于處理從電子游戲紋理到科學(xué)模擬的各種內(nèi)容,因此背負(fù)著“建筑包袱”。他們?cè)诰彺?、分支預(yù)測(cè)和管理獨(dú)立線程等復(fù)雜任務(wù)上花費(fèi)大量能量和芯片空間。

而TPU則剝離了所有這些包袱。它沒有光柵化或紋理映射的硬件。相反,它采用了一種獨(dú)特的架構(gòu),稱為收縮陣列。

“收縮陣列”是關(guān)鍵的區(qū)別。在標(biāo)準(zhǔn)的CPU或GPU中,芯片在每次計(jì)算時(shí)都會(huì)在內(nèi)存和計(jì)算單元之間來回傳遞數(shù)據(jù)。這種持續(xù)的洗牌造成瓶頸(馮·諾依曼瓶頸)。

在TPU的收縮陣列中,數(shù)據(jù)像血液流經(jīng)心臟一樣流經(jīng)芯片(因此得名“收縮壓”)。

  1. 它只加載一次數(shù)據(jù)(權(quán)重)。

  2. 它通過一個(gè)龐大的乘數(shù)網(wǎng)格傳遞輸入。

  3. 數(shù)據(jù)直接傳遞到數(shù)組中的下一個(gè)單元,無需寫回內(nèi)存。

本質(zhì)上,這意味著由于TPU的systolic陣列,大幅減少了從HBM讀取和寫入所需的內(nèi)存數(shù)量。因此,TPU可以花周期進(jìn)行計(jì)算,而不必等待數(shù)據(jù)。

谷歌的新TPU設(shè)計(jì),也稱為Ironwood,也解決了TPU缺乏的一些關(guān)鍵方面:

  • 他們?cè)鰪?qiáng)了 SparseCore 以高效處理大型嵌入(適合推薦系統(tǒng)和大型語言模型)

  • 它提升了 HBM 的容量和帶寬(每顆芯片最高可達(dá) 192 GB)。為了更好地理解,英偉達(dá)的Blackwell B200每顆芯片有192GB,而Blackwell Ultra(也稱為B300)每顆芯片有288GB。

  • 改進(jìn)了芯片間互聯(lián)(ICI),將數(shù)千顆芯片連接成大型集群,也稱為TPU Pods(用于AI訓(xùn)練及部分時(shí)間測(cè)試計(jì)算推理工作負(fù)載)。關(guān)于 ICI,需要注意的是,它的性能非常出色,峰值帶寬為 1.2 TB/s,而 Blackwell NVLink 5 僅為 1.8 TB/s。但谷歌的ICI及其專業(yè)編譯器和軟件堆棧,在某些特定AI任務(wù)上仍能提供更優(yōu)的性能。

關(guān)鍵是,由于TPU不需要解碼復(fù)雜指令或不斷訪問內(nèi)存,它能提供顯著更高的焦耳運(yùn)算。

在擴(kuò)展方面,谷歌使用光電路交換機(jī)(OCS)及其3D環(huán)面網(wǎng)絡(luò),這些網(wǎng)絡(luò)與英偉達(dá)的InfiniBand和Spectrum-X以太網(wǎng)競(jìng)爭(zhēng)。主要區(qū)別在于OCS極具成本效益和節(jié)能性,因?yàn)樗∪チ穗姎忾_關(guān)和O-E-O轉(zhuǎn)換,但因此靈活性不如另外兩種。所以,谷歌技術(shù)棧在當(dāng)前任務(wù)上極為專業(yè)化,缺乏GPU那樣的靈活性。

性能數(shù)據(jù) TPU 與 GPU 的區(qū)別?

既然我們定義了差異,接下來來看TPU與GPU性能的實(shí)際數(shù)據(jù)。由于谷歌沒有公布這些數(shù)據(jù),想要獲得性能細(xì)節(jié)非常困難。我研究了許多文章和替代數(shù)據(jù)來源,包括業(yè)內(nèi)人士的訪談,以下是一些關(guān)鍵要點(diǎn)。

首先,關(guān)于谷歌最新的TPUv7(Ironwood)的信息非常有限,谷歌于2025年4月推出,現(xiàn)在才開始向外部客戶開放(內(nèi)部據(jù)說谷歌自4月起就開始使用Ironwood,甚至可能用于Gemini 3.0)。如果我們以半分析數(shù)據(jù)比較TPUv7與較舊但仍廣泛使用的TPUv5p版本,這為何重要:

  • TPUv7 產(chǎn)生 4,614 TFLOPS(BF16),而 TPUv5p 的 459 TFLOPS。

  • TPUv7 擁有 192GB 內(nèi)存容量,而 TPUv5p 擁有 96GB

  • TPUv7內(nèi)存帶寬為7,370 GB/s,而v5p為2,765

我們可以看到,v5 到 v7 之間的性能飛躍非常顯著。為了說明背景,我們要看的大多數(shù)評(píng)論更側(cè)重于TPUv6或TPUv5,而不是v7。

基于對(duì)大量前谷歌員工、客戶和競(jìng)爭(zhēng)對(duì)手(AMD、NVDA等公司的人員)的訪談分析,結(jié)果總結(jié)如下。

大多數(shù)人同意TPU比Nvidia顯卡更具成本效益,且大多數(shù)人認(rèn)為TPU的每瓦性能更好。不過,這種觀點(diǎn)并不適用于所有使用場(chǎng)景。

一位前谷歌云員工:

“如果這是合適的應(yīng)用,那么它們的每美元性能遠(yuǎn)優(yōu)于顯卡。它們所需的能量更少,產(chǎn)生的熱量也比GPU少得多。它們也更節(jié)能,環(huán)境足跡更小,這也是它們成為理想結(jié)果的原因。

使用場(chǎng)景略有限制于顯卡,雖然不那么通用,但對(duì)于特定應(yīng)用,每美元性能可提升多達(dá)1.4倍,對(duì)于想使用GPU而非TPU的客戶來說,這是相當(dāng)顯著的節(jié)省。“——來源:AlphaSense

同樣,谷歌一位前單位主管關(guān)于TPU相比GPU在AI搜索每次查詢成本上顯著降低的見解:

“TPU v6 比 GPU 高效 60-65%,前幾代高出 40-45%”

這次采訪是在2024年11月進(jìn)行的,所以專家很可能是在比較v6的TPU和Nvidia Hopper。如今,我們已經(jīng)有了Blackwell對(duì)V7的對(duì)決。

許多專家還提到TPU的速度優(yōu)勢(shì),一位前谷歌負(fù)責(zé)人表示,TPU在訓(xùn)練動(dòng)態(tài)模型(如搜索類工作負(fù)載)時(shí)比GPU快5倍。

還有一位客戶的采訪非常令人震驚,他同時(shí)使用了Nvidia GPU和Google TPU,詳細(xì)描述了經(jīng)濟(jì)效益:

“如果我用八個(gè)H100,而不是用一個(gè)v5e艙,我會(huì)花在一個(gè)v5e艙身上少得多。從價(jià)格和性能值來看,TPU的性價(jià)比會(huì)更高。如果我已經(jīng)有代碼,無論是因?yàn)楣雀璧膸椭€是我們自己的工作,知道它能在TPU上運(yùn)行,那么對(duì)我來說,繼續(xù)用TPU是有益的。

從長(zhǎng)遠(yuǎn)來看,如果我覺得需要寫一個(gè)新的代碼庫(kù),我需要做更多的工作,那就取決于我要訓(xùn)練多久。我認(rèn)為,比如說,未來還有一些我們已經(jīng)在TPU上完成的工作,因?yàn)楣雀钑?huì)推出新一代TPU,舊TPU的成本會(huì)大幅降低。

比如,當(dāng)他們發(fā)布 v4 時(shí),我記得 v2 的價(jià)格降得非常低,以至于相比任何 NVIDIA 顯卡,它幾乎免費(fèi)使用。

谷歌有不錯(cuò)的承諾,所以他們繼續(xù)支持老款TPU,而且價(jià)格也大幅降低。如果你不需要馬上訓(xùn)練模型,愿意說“我可以等一周”,即使培訓(xùn)只有三天,那么你可以把成本降低五分之一?!啊獊碓矗篈lphaSense

另一場(chǎng)有價(jià)值的采訪是與一位現(xiàn)任AMD員工的采訪,他認(rèn)可了ASIC的優(yōu)勢(shì):

“我預(yù)計(jì)AI加速器大概能做到我們?cè)谛袠I(yè)里看到的效果。我利用我在FPGA方面的經(jīng)驗(yàn)。相比GPU,我能看到體積能縮小30%,功耗可能降低50%。”

我們還從一位曾在芯片領(lǐng)域工作的谷歌前員工那里獲得了一些數(shù)據(jù):

“當(dāng)我看公布的數(shù)據(jù)時(shí),它們(TPU)在使用場(chǎng)景中比英偉達(dá)提升了25%-30%到接近2倍不等。本質(zhì)上,非常定制化的設(shè)計(jì)完美完成某項(xiàng)任務(wù),與更通用的設(shè)計(jì)之間存在區(qū)別。”

同時(shí)也知道,TPU的真正優(yōu)勢(shì)不在于硬件,而在于軟件以及谷歌對(duì)其TPU生態(tài)系統(tǒng)的優(yōu)化。

很多人提到每個(gè)像TPU這樣的Nvidia“競(jìng)爭(zhēng)對(duì)手”都面臨的問題,那就是Nvidia快速的發(fā)展和不斷“追趕”Nvidia的問題。本月,一位前谷歌云員工正面回應(yīng)了這一擔(dān)憂,他認(rèn)為TPU的提升速度比英偉達(dá)更快:

“TPU每美元性能提升的比例,與新一代相比,遠(yuǎn)遠(yuǎn)超過了英偉達(dá)?!?/p>

此外,谷歌在2025年熱芯片活動(dòng)上的最新發(fā)布會(huì)數(shù)據(jù)也支持了這一點(diǎn),谷歌表示TPUv7在每瓦性能方面比他們的TPUv6e(Trillium)高出100%。

即使是堅(jiān)定的英偉達(dá)支持者,TPU也不能輕易忽視,因?yàn)榧词故钦采卜浅?春霉雀璧腡PU。在與Brad Gerstner的一檔播客中,他提到ASIC方面,谷歌的TPU是“特殊情況”。幾個(gè)月前,我們還收到了《華爾街日?qǐng)?bào)》的一篇文章,稱在新聞媒體《The Information》發(fā)布報(bào)道稱OpenAI開始為ChatGPT租用谷歌TPU后,詹森打電話給奧特曼,詢問是否屬實(shí),并表示愿意讓談判重回正軌(投資談判)。值得一提的是,英偉達(dá)官方X賬號(hào)發(fā)布了一篇文章截圖,內(nèi)容是OpenAI否認(rèn)計(jì)劃使用谷歌自家芯片的計(jì)劃。至少可以說,英偉達(dá)對(duì)TPU的關(guān)注非常密切。

好吧,但看了這些數(shù)據(jù)后,有人可能會(huì)想,為什么沒有更多客戶端使用TPU?

TPU的更廣泛采用面臨哪些問題

TPU采用的主要問題在于生態(tài)系統(tǒng)。英偉達(dá)的CUDA深深印在大多數(shù)AI工程師腦海中,因?yàn)樗麄円恢痹诖髮W(xué)學(xué)習(xí)CUDA。 谷歌在內(nèi)部開發(fā)了生態(tài)系統(tǒng),但沒有外部發(fā)展,因?yàn)橹钡浆F(xiàn)在它只用TPU來處理內(nèi)部工作負(fù)載。TPU結(jié)合使用JAX和TensorFlow,而行業(yè)主要采用CUDA和PyTorch(盡管TPU現(xiàn)在也支持PyTorch)。雖然谷歌正努力使其生態(tài)系統(tǒng)更具支持性,并使其能夠與其他棧轉(zhuǎn)換,但這也是一個(gè)需要多年發(fā)展的庫(kù)和生態(tài)系統(tǒng)形成問題。

同樣需要注意的是,直到最近,生成式人工智能行業(yè)的重點(diǎn)主要集中在訓(xùn)練工作負(fù)載上。在訓(xùn)練工作負(fù)載中,CUDA非常重要,但在推理甚至推理推斷方面,CUDA并不那么重要,因此TPU在推理中擴(kuò)展占比訓(xùn)練中更大的可能性(盡管TPU在訓(xùn)練中表現(xiàn)也非常好——Gemini 3是最典型的例子)。

大多數(shù)客戶采用多云服務(wù)也對(duì)TPU的采用構(gòu)成挑戰(zhàn),因?yàn)锳I工作負(fù)載與數(shù)據(jù)及其位置緊密相關(guān)(云數(shù)據(jù)傳輸成本高昂)。Nvidia 可以通過這三個(gè)超大規(guī)模平臺(tái)訪問,而 TPU 目前僅在 GCP 上提供。一位使用 TPU 和 Nvidia 顯卡的客戶解釋得很好:

“目前,NVIDIA 最大的優(yōu)勢(shì)——這在過去我工作過的三家公司中一直如此——因?yàn)?AWS、Google Cloud 和 Microsoft Azure 是三大云公司。

每家公司、每家企業(yè)、每一個(gè)客戶的數(shù)據(jù)都會(huì)在這三者中的一個(gè)。這三塊云都搭載了NVIDIA GPU。有時(shí)候數(shù)據(jù)太大且存在不同的云,使用客戶數(shù)據(jù)的云計(jì)算成本要低得多。

我不知道你是否了解數(shù)據(jù)從一個(gè)云端遷移出云端的成本,這其中一個(gè)成本比較大。在這種情況下,如果你用的是NVIDIA工作負(fù)載,或者CUDA工作負(fù)載,我們可以直接去Microsoft Azure,找一個(gè)帶NVIDIA GPU的虛擬機(jī),實(shí)際上是同一款GPU,不需要修改代碼,直接運(yùn)行就行。

有了TPU,一旦你都依賴TPU,而谷歌說,“你知道嗎?現(xiàn)在你得多付10倍的錢”,那我們就完了,因?yàn)槟菢游覀兙偷没仡^重寫一切。這就是原因。這也是人們害怕在TPU上投入過多的唯一原因。亞馬遜的Trainium和Inferentia也是同樣的原因。“——來源:AlphaSense

這些問題在谷歌內(nèi)部眾所周知,因此內(nèi)部關(guān)于將TPU保留在谷歌內(nèi)部還是開始對(duì)外銷售的爭(zhēng)論持續(xù)不斷也就不足為奇了。將TPU保留在內(nèi)部,會(huì)加深GCP的護(hù)城河,但與此同時(shí),許多前谷歌員工相信,谷歌遲早會(huì)開始在外部提供TPU,可能通過一些新云技術(shù),而不一定是與最大的兩大競(jìng)爭(zhēng)對(duì)手——Microsoft和亞馬遜。開放生態(tài)系統(tǒng)、提供支持等,并使其更廣泛可用,是實(shí)現(xiàn)這一目標(biāo)的第一步。

一位前谷歌員工還提到,谷歌去年組建了一個(gè)更偏銷售的團(tuán)隊(duì)來推銷和銷售TPU,所以他們并不是多年來一直大力推銷TPU;這是組織內(nèi)部相當(dāng)新的動(dòng)態(tài)。

谷歌的TPU是其云業(yè)務(wù)未來十年最大的競(jìng)爭(zhēng)優(yōu)勢(shì)

對(duì)我來說,TPU最有價(jià)值的是它們對(duì)GCP的影響。隨著云業(yè)務(wù)從AI出現(xiàn)前時(shí)代向AI時(shí)代的轉(zhuǎn)變,最大的收獲是行業(yè)已從AWS、Azure和GCP的寡頭壟斷轉(zhuǎn)變?yōu)楦由唐坊母窬?,甲骨文、Coreweave及許多其他新云在爭(zhēng)奪AI工作負(fù)載。AI工作負(fù)載的問題在于競(jìng)爭(zhēng)和英偉達(dá)75%的毛利率,這也導(dǎo)致AI工作負(fù)載的利潤(rùn)率偏低。云行業(yè)正從50-70%的毛利率行業(yè)轉(zhuǎn)變?yōu)?0-35%的毛利率。對(duì)于云投資者來說,這應(yīng)該令人擔(dān)憂,因?yàn)檫@些公司的未來形象更像是公用事業(yè)公司,而非有吸引力的高利潤(rùn)率企業(yè)。但有一個(gè)解決方案可以避免這種未來,回歸正常利潤(rùn)率:ASIC。

能夠控制硬件且不受Nvidia及其75%毛利率約束的云服務(wù)提供商,將能夠回歸50%毛利率的時(shí)代。毫不意外,三大AWS、Azure和GCP都在開發(fā)自己的ASIC。最成熟的無疑是谷歌的TPU,其次是亞馬遜的Trainum,最后是Microsoft的MAIA(盡管Microsoft擁有OpenAI定制ASIC的全部知識(shí)產(chǎn)權(quán),這可能在未來有所幫助)。

即使使用ASIC,你也不能百分之百獨(dú)立,因?yàn)槟闳匀恍枰c像博通或Marvell這樣的公司合作,他們的利潤(rùn)率低于英偉達(dá)但仍不可忽視,谷歌依然處于非常有利的位置。多年來,谷歌在開發(fā)TPU的過程中,成功控制了芯片設(shè)計(jì)的大部分流程。據(jù)一位現(xiàn)任AMD員工透露,博通已不再對(duì)芯片的全部了解。目前,谷歌是前端設(shè)計(jì)師(設(shè)計(jì)的實(shí)際RTL),而博通只是后端的物理設(shè)計(jì)合作伙伴。此外,谷歌當(dāng)然還擁有芯片的全部軟件優(yōu)化堆棧,這使得芯片性能如此出色。據(jù)這位AMD員工說,基于這項(xiàng)工作分工,他認(rèn)為博通能獲得50個(gè)百分點(diǎn)的毛利率已經(jīng)算幸運(yùn)了。

在不向Nvidia支付加速器費(fèi)用的情況下,云服務(wù)提供商可以選擇與他人類似定價(jià)以保持更好的利潤(rùn)率,或者降低成本并擴(kuò)大市場(chǎng)份額。當(dāng)然,這一切都取決于擁有一款能夠與Nvidia競(jìng)爭(zhēng)的強(qiáng)大ASIC。不幸的是,看起來只有谷歌實(shí)現(xiàn)了這一點(diǎn),因?yàn)楸憩F(xiàn)最好的型號(hào)是基于TPU訓(xùn)練的Gemini 3。據(jù)一些前谷歌員工透露,谷歌內(nèi)部也在整個(gè)AI架構(gòu)中使用TPU進(jìn)行推斷,包括Gemini和Veo等模型。谷歌購(gòu)買Nvidia GPU用于GCP,因?yàn)榭蛻粜枰?,因?yàn)樗麄兪煜み@些產(chǎn)品和生態(tài)系統(tǒng),但在內(nèi)部,谷歌則全力投入TPU。

隨著每一代ASIC的復(fù)雜度提升,類似于Nvidia的復(fù)雜度和速度,我預(yù)測(cè)并非所有ASIC項(xiàng)目都能成功。我認(rèn)為除了TPU之外,目前唯一真正的超大規(guī)模市場(chǎng)機(jī)會(huì)是AWS Trainium,但即便如此,它也面臨比TPU更大的不確定性。考慮到這一點(diǎn),谷歌及其云業(yè)務(wù)有望成為AI時(shí)代的主要受益者和市場(chǎng)份額增長(zhǎng)者。

最近,我們甚至收到了SemiAnalysis團(tuán)隊(duì)對(duì)TPU的贊揚(yáng):

“谷歌在超大規(guī)模開發(fā)者中的硅芯片優(yōu)勢(shì)無人能及,他們的第七代TPU可以說與英偉達(dá)Blackwell不相上下。TPU驅(qū)動(dòng)了Gemini系列模型,這些模型的能力正在提升,在某些任務(wù)中接近每智能價(jià)值的帕累托邊界”——來源:SemiAnalysis

谷歌目前生產(chǎn)多少TPU,規(guī)模會(huì)更大?



關(guān)鍵詞: 谷歌 TPU AI推理 芯片

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉
沁水县| 民勤县| 岳池县| 红河县| 郸城县| 遂平县| 芒康县| 夏津县| 乌兰浩特市| 女性| 班玛县| 巫山县| 博客| 虞城县| 定兴县| 修文县| 调兵山市| 阜宁县| 阳江市| 驻马店市| 青阳县| 游戏| 孙吴县| 双辽市| 甘孜县| 响水县| 泾源县| 兴业县| 石景山区| 游戏| 垦利县| 蓬安县| 永登县| 霸州市| 象山县| 新宁县| 汉源县| 三都| 岳西县| 中宁县| 葫芦岛市|