新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 谷歌TPU:為AI推理時(shí)代打造的芯片

谷歌TPU:為AI推理時(shí)代打造的芯片

作者：時(shí)間：2025-12-01 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

TPU的歷史以及這一切的起源？

谷歌張量處理單元（TPU）的故事并非始于芯片制造的突破，而是始于對(duì)數(shù)學(xué)和物流的認(rèn)識(shí)。大約在2013年，谷歌的領(lǐng)導(dǎo)層——特別是杰夫·迪恩、喬納森·羅斯（Groq的CEO）和谷歌大腦團(tuán)隊(duì)——發(fā)布了一個(gè)令他們震驚的預(yù)測(cè)。他們計(jì)算出，如果每個(gè)安卓用戶每天只使用谷歌的語音搜索功能三分鐘，谷歌就需要將全球數(shù)據(jù)中心容量翻倍以應(yīng)對(duì)計(jì)算負(fù)載。

當(dāng)時(shí)，谷歌依賴標(biāo)準(zhǔn)CPU和GPU完成這些任務(wù)。雖然功能強(qiáng)大，但這些通用芯片在深度學(xué)習(xí)所需的特殊繁重任務(wù)——大規(guī)模矩陣乘法方面效率低下。用現(xiàn)有硬件進(jìn)行擴(kuò)展將是財(cái)務(wù)和后勤上的噩夢(mèng)。

這激發(fā)了一個(gè)新項(xiàng)目。谷歌決定做一件軟件公司罕見的事：打造自己的定制硅片。目標(biāo)是創(chuàng)建一個(gè)僅用于運(yùn)行 TensorFlow 神經(jīng)網(wǎng)絡(luò)的 ASIC（專用集成電路）。

關(guān)鍵歷史里程碑：

2013-2014年：項(xiàng)目進(jìn)展非常迅速，谷歌不僅聘請(qǐng)了一支非常有能力的團(tuán)隊(duì)，而且坦白說，他們?cè)诘谝徊揭踩〉昧艘恍┻\(yùn)氣。團(tuán)隊(duì)從設(shè)計(jì)概念到在數(shù)據(jù)中心部署硅片僅用了15個(gè)月——對(duì)硬件工程來說是一個(gè)非常短的周期。
2015年：在世界還未意識(shí)到它們存在之前，TPU已經(jīng)為谷歌最受歡迎的產(chǎn)品提供動(dòng)力。它們默默加速了谷歌地圖導(dǎo)航、谷歌相冊(cè)和谷歌翻譯。
2016年：谷歌在Google I/O 2016上正式發(fā)布了TPU。

解決“數(shù)據(jù)中心雙重”問題的緊迫性正是TPU存在的原因。它不是為賣給玩家或渲染視頻而設(shè)計(jì)的;它的誕生是為了拯救谷歌免于自身的人工智能成功?？紤]到這一點(diǎn)，谷歌已經(jīng)思考“代價(jià)高昂”的人工智能推理問題十多年了。這也是TPU相較于其他ASIC項(xiàng)目表現(xiàn)優(yōu)異的主要原因之一。

TPU和GPU的區(qū)別是什么？

要理解它們的區(qū)別，最好看看每個(gè)芯片最初的設(shè)計(jì)目的。GPU是一種“通用”并行處理器，而TPU則是“域?qū)Ｓ谩奔軜?gòu)。

這些GPU是為圖形設(shè)計(jì)的。它們擅長(zhǎng)并行處理（同時(shí)處理多項(xiàng)任務(wù)），這對(duì)人工智能非常有利。然而，由于它們?cè)O(shè)計(jì)用于處理從電子游戲紋理到科學(xué)模擬的各種內(nèi)容，因此背負(fù)著“建筑包袱”。他們?cè)诰彺?、分支預(yù)測(cè)和管理獨(dú)立線程等復(fù)雜任務(wù)上花費(fèi)大量能量和芯片空間。

而TPU則剝離了所有這些包袱。它沒有光柵化或紋理映射的硬件。相反，它采用了一種獨(dú)特的架構(gòu)，稱為收縮陣列。

“收縮陣列”是關(guān)鍵的區(qū)別。在標(biāo)準(zhǔn)的CPU或GPU中，芯片在每次計(jì)算時(shí)都會(huì)在內(nèi)存和計(jì)算單元之間來回傳遞數(shù)據(jù)。這種持續(xù)的洗牌造成瓶頸（馮·諾依曼瓶頸）。

在TPU的收縮陣列中，數(shù)據(jù)像血液流經(jīng)心臟一樣流經(jīng)芯片（因此得名“收縮壓”）。

它只加載一次數(shù)據(jù)（權(quán)重）。
它通過一個(gè)龐大的乘數(shù)網(wǎng)格傳遞輸入。
數(shù)據(jù)直接傳遞到數(shù)組中的下一個(gè)單元，無需寫回內(nèi)存。

本質(zhì)上，這意味著由于TPU的systolic陣列，大幅減少了從HBM讀取和寫入所需的內(nèi)存數(shù)量。因此，TPU可以花周期進(jìn)行計(jì)算，而不必等待數(shù)據(jù)。

谷歌的新TPU設(shè)計(jì)，也稱為Ironwood，也解決了TPU缺乏的一些關(guān)鍵方面：

他們?cè)鰪?qiáng)了 SparseCore 以高效處理大型嵌入（適合推薦系統(tǒng)和大型語言模型）
它提升了 HBM 的容量和帶寬（每顆芯片最高可達(dá) 192 GB）。為了更好地理解，英偉達(dá)的Blackwell B200每顆芯片有192GB，而Blackwell Ultra（也稱為B300）每顆芯片有288GB。
改進(jìn)了芯片間互聯(lián)（ICI），將數(shù)千顆芯片連接成大型集群，也稱為TPU Pods（用于AI訓(xùn)練及部分時(shí)間測(cè)試計(jì)算推理工作負(fù)載）。關(guān)于 ICI，需要注意的是，它的性能非常出色，峰值帶寬為 1.2 TB/s，而 Blackwell NVLink 5 僅為 1.8 TB/s。但谷歌的ICI及其專業(yè)編譯器和軟件堆棧，在某些特定AI任務(wù)上仍能提供更優(yōu)的性能。

關(guān)鍵是，由于TPU不需要解碼復(fù)雜指令或不斷訪問內(nèi)存，它能提供顯著更高的焦耳運(yùn)算。

在擴(kuò)展方面，谷歌使用光電路交換機(jī)（OCS）及其3D環(huán)面網(wǎng)絡(luò)，這些網(wǎng)絡(luò)與英偉達(dá)的InfiniBand和Spectrum-X以太網(wǎng)競(jìng)爭(zhēng)。主要區(qū)別在于OCS極具成本效益和節(jié)能性，因?yàn)樗∪チ穗姎忾_關(guān)和O-E-O轉(zhuǎn)換，但因此靈活性不如另外兩種。所以，谷歌技術(shù)棧在當(dāng)前任務(wù)上極為專業(yè)化，缺乏GPU那樣的靈活性。

性能數(shù)據(jù) TPU 與 GPU 的區(qū)別？

既然我們定義了差異，接下來來看TPU與GPU性能的實(shí)際數(shù)據(jù)。由于谷歌沒有公布這些數(shù)據(jù)，想要獲得性能細(xì)節(jié)非常困難。我研究了許多文章和替代數(shù)據(jù)來源，包括業(yè)內(nèi)人士的訪談，以下是一些關(guān)鍵要點(diǎn)。

首先，關(guān)于谷歌最新的TPUv7（Ironwood）的信息非常有限，谷歌于2025年4月推出，現(xiàn)在才開始向外部客戶開放（內(nèi)部據(jù)說谷歌自4月起就開始使用Ironwood，甚至可能用于Gemini 3.0）。如果我們以半分析數(shù)據(jù)比較TPUv7與較舊但仍廣泛使用的TPUv5p版本，這為何重要：

TPUv7 產(chǎn)生 4,614 TFLOPS（BF16），而 TPUv5p 的 459 TFLOPS。
TPUv7 擁有 192GB 內(nèi)存容量，而 TPUv5p 擁有 96GB
TPUv7內(nèi)存帶寬為7,370 GB/s，而v5p為2,765

我們可以看到，v5 到 v7 之間的性能飛躍非常顯著。為了說明背景，我們要看的大多數(shù)評(píng)論更側(cè)重于TPUv6或TPUv5，而不是v7。

基于對(duì)大量前谷歌員工、客戶和競(jìng)爭(zhēng)對(duì)手（AMD、NVDA等公司的人員）的訪談分析，結(jié)果總結(jié)如下。

大多數(shù)人同意TPU比Nvidia顯卡更具成本效益，且大多數(shù)人認(rèn)為TPU的每瓦性能更好。不過，這種觀點(diǎn)并不適用于所有使用場(chǎng)景。

一位前谷歌云員工：

“如果這是合適的應(yīng)用，那么它們的每美元性能遠(yuǎn)優(yōu)于顯卡。它們所需的能量更少，產(chǎn)生的熱量也比GPU少得多。它們也更節(jié)能，環(huán)境足跡更小，這也是它們成為理想結(jié)果的原因。
使用場(chǎng)景略有限制于顯卡，雖然不那么通用，但對(duì)于特定應(yīng)用，每美元性能可提升多達(dá)1.4倍，對(duì)于想使用GPU而非TPU的客戶來說，這是相當(dāng)顯著的節(jié)省。“——來源：AlphaSense

同樣，谷歌一位前單位主管關(guān)于TPU相比GPU在AI搜索每次查詢成本上顯著降低的見解：

“TPU v6 比 GPU 高效 60-65%，前幾代高出 40-45%”

這次采訪是在2024年11月進(jìn)行的，所以專家很可能是在比較v6的TPU和Nvidia Hopper。如今，我們已經(jīng)有了Blackwell對(duì)V7的對(duì)決。

許多專家還提到TPU的速度優(yōu)勢(shì)，一位前谷歌負(fù)責(zé)人表示，TPU在訓(xùn)練動(dòng)態(tài)模型（如搜索類工作負(fù)載）時(shí)比GPU快5倍。

還有一位客戶的采訪非常令人震驚，他同時(shí)使用了Nvidia GPU和Google TPU，詳細(xì)描述了經(jīng)濟(jì)效益：

“如果我用八個(gè)H100，而不是用一個(gè)v5e艙，我會(huì)花在一個(gè)v5e艙身上少得多。從價(jià)格和性能值來看，TPU的性價(jià)比會(huì)更高。如果我已經(jīng)有代碼，無論是因?yàn)楣雀璧膸椭€是我們自己的工作，知道它能在TPU上運(yùn)行，那么對(duì)我來說，繼續(xù)用TPU是有益的。
從長(zhǎng)遠(yuǎn)來看，如果我覺得需要寫一個(gè)新的代碼庫(kù)，我需要做更多的工作，那就取決于我要訓(xùn)練多久。我認(rèn)為，比如說，未來還有一些我們已經(jīng)在TPU上完成的工作，因?yàn)楣雀钑?huì)推出新一代TPU，舊TPU的成本會(huì)大幅降低。

比如，當(dāng)他們發(fā)布 v4 時(shí)，我記得 v2 的價(jià)格降得非常低，以至于相比任何 NVIDIA 顯卡，它幾乎免費(fèi)使用。
谷歌有不錯(cuò)的承諾，所以他們繼續(xù)支持老款TPU，而且價(jià)格也大幅降低。如果你不需要馬上訓(xùn)練模型，愿意說“我可以等一周”，即使培訓(xùn)只有三天，那么你可以把成本降低五分之一?！啊獊碓矗篈lphaSense

另一場(chǎng)有價(jià)值的采訪是與一位現(xiàn)任AMD員工的采訪，他認(rèn)可了ASIC的優(yōu)勢(shì)：

“我預(yù)計(jì)AI加速器大概能做到我們?cè)谛袠I(yè)里看到的效果。我利用我在FPGA方面的經(jīng)驗(yàn)。相比GPU，我能看到體積能縮小30%，功耗可能降低50%。”

我們還從一位曾在芯片領(lǐng)域工作的谷歌前員工那里獲得了一些數(shù)據(jù)：

“當(dāng)我看公布的數(shù)據(jù)時(shí)，它們（TPU）在使用場(chǎng)景中比英偉達(dá)提升了25%-30%到接近2倍不等。本質(zhì)上，非常定制化的設(shè)計(jì)完美完成某項(xiàng)任務(wù)，與更通用的設(shè)計(jì)之間存在區(qū)別。”

同時(shí)也知道，TPU的真正優(yōu)勢(shì)不在于硬件，而在于軟件以及谷歌對(duì)其TPU生態(tài)系統(tǒng)的優(yōu)化。

很多人提到每個(gè)像TPU這樣的Nvidia“競(jìng)爭(zhēng)對(duì)手”都面臨的問題，那就是Nvidia快速的發(fā)展和不斷“追趕”Nvidia的問題。本月，一位前谷歌云員工正面回應(yīng)了這一擔(dān)憂，他認(rèn)為TPU的提升速度比英偉達(dá)更快：

“TPU每美元性能提升的比例，與新一代相比，遠(yuǎn)遠(yuǎn)超過了英偉達(dá)?！?/p>

此外，谷歌在2025年熱芯片活動(dòng)上的最新發(fā)布會(huì)數(shù)據(jù)也支持了這一點(diǎn)，谷歌表示TPUv7在每瓦性能方面比他們的TPUv6e（Trillium）高出100%。

即使是堅(jiān)定的英偉達(dá)支持者，TPU也不能輕易忽視，因?yàn)榧词故钦采卜浅？春霉雀璧腡PU。在與Brad Gerstner的一檔播客中，他提到ASIC方面，谷歌的TPU是“特殊情況”。幾個(gè)月前，我們還收到了《華爾街日?qǐng)?bào)》的一篇文章，稱在新聞媒體《The Information》發(fā)布報(bào)道稱OpenAI開始為ChatGPT租用谷歌TPU后，詹森打電話給奧特曼，詢問是否屬實(shí)，并表示愿意讓談判重回正軌（投資談判）。值得一提的是，英偉達(dá)官方X賬號(hào)發(fā)布了一篇文章截圖，內(nèi)容是OpenAI否認(rèn)計(jì)劃使用谷歌自家芯片的計(jì)劃。至少可以說，英偉達(dá)對(duì)TPU的關(guān)注非常密切。

好吧，但看了這些數(shù)據(jù)后，有人可能會(huì)想，為什么沒有更多客戶端使用TPU？

TPU的更廣泛采用面臨哪些問題

TPU采用的主要問題在于生態(tài)系統(tǒng)。英偉達(dá)的CUDA深深印在大多數(shù)AI工程師腦海中，因?yàn)樗麄円恢痹诖髮W(xué)學(xué)習(xí)CUDA。谷歌在內(nèi)部開發(fā)了生態(tài)系統(tǒng)，但沒有外部發(fā)展，因?yàn)橹钡浆F(xiàn)在它只用TPU來處理內(nèi)部工作負(fù)載。TPU結(jié)合使用JAX和TensorFlow，而行業(yè)主要采用CUDA和PyTorch（盡管TPU現(xiàn)在也支持PyTorch）。雖然谷歌正努力使其生態(tài)系統(tǒng)更具支持性，并使其能夠與其他棧轉(zhuǎn)換，但這也是一個(gè)需要多年發(fā)展的庫(kù)和生態(tài)系統(tǒng)形成問題。

同樣需要注意的是，直到最近，生成式人工智能行業(yè)的重點(diǎn)主要集中在訓(xùn)練工作負(fù)載上。在訓(xùn)練工作負(fù)載中，CUDA非常重要，但在推理甚至推理推斷方面，CUDA并不那么重要，因此TPU在推理中擴(kuò)展占比訓(xùn)練中更大的可能性（盡管TPU在訓(xùn)練中表現(xiàn)也非常好——Gemini 3是最典型的例子）。

大多數(shù)客戶采用多云服務(wù)也對(duì)TPU的采用構(gòu)成挑戰(zhàn)，因?yàn)锳I工作負(fù)載與數(shù)據(jù)及其位置緊密相關(guān)（云數(shù)據(jù)傳輸成本高昂）。Nvidia 可以通過這三個(gè)超大規(guī)模平臺(tái)訪問，而 TPU 目前僅在 GCP 上提供。一位使用 TPU 和 Nvidia 顯卡的客戶解釋得很好：

“目前，NVIDIA 最大的優(yōu)勢(shì)——這在過去我工作過的三家公司中一直如此——因?yàn)?AWS、Google Cloud 和 Microsoft Azure 是三大云公司。
每家公司、每家企業(yè)、每一個(gè)客戶的數(shù)據(jù)都會(huì)在這三者中的一個(gè)。這三塊云都搭載了NVIDIA GPU。有時(shí)候數(shù)據(jù)太大且存在不同的云，使用客戶數(shù)據(jù)的云計(jì)算成本要低得多。
我不知道你是否了解數(shù)據(jù)從一個(gè)云端遷移出云端的成本，這其中一個(gè)成本比較大。在這種情況下，如果你用的是NVIDIA工作負(fù)載，或者CUDA工作負(fù)載，我們可以直接去Microsoft Azure，找一個(gè)帶NVIDIA GPU的虛擬機(jī)，實(shí)際上是同一款GPU，不需要修改代碼，直接運(yùn)行就行。
有了TPU，一旦你都依賴TPU，而谷歌說，“你知道嗎？現(xiàn)在你得多付10倍的錢”，那我們就完了，因?yàn)槟菢游覀兙偷没仡^重寫一切。這就是原因。這也是人們害怕在TPU上投入過多的唯一原因。亞馬遜的Trainium和Inferentia也是同樣的原因。“——來源：AlphaSense

這些問題在谷歌內(nèi)部眾所周知，因此內(nèi)部關(guān)于將TPU保留在谷歌內(nèi)部還是開始對(duì)外銷售的爭(zhēng)論持續(xù)不斷也就不足為奇了。將TPU保留在內(nèi)部，會(huì)加深GCP的護(hù)城河，但與此同時(shí)，許多前谷歌員工相信，谷歌遲早會(huì)開始在外部提供TPU，可能通過一些新云技術(shù)，而不一定是與最大的兩大競(jìng)爭(zhēng)對(duì)手——Microsoft和亞馬遜。開放生態(tài)系統(tǒng)、提供支持等，并使其更廣泛可用，是實(shí)現(xiàn)這一目標(biāo)的第一步。

一位前谷歌員工還提到，谷歌去年組建了一個(gè)更偏銷售的團(tuán)隊(duì)來推銷和銷售TPU，所以他們并不是多年來一直大力推銷TPU;這是組織內(nèi)部相當(dāng)新的動(dòng)態(tài)。

谷歌的TPU是其云業(yè)務(wù)未來十年最大的競(jìng)爭(zhēng)優(yōu)勢(shì)

對(duì)我來說，TPU最有價(jià)值的是它們對(duì)GCP的影響。隨著云業(yè)務(wù)從AI出現(xiàn)前時(shí)代向AI時(shí)代的轉(zhuǎn)變，最大的收獲是行業(yè)已從AWS、Azure和GCP的寡頭壟斷轉(zhuǎn)變?yōu)楦由唐坊母窬?，甲骨文、Coreweave及許多其他新云在爭(zhēng)奪AI工作負(fù)載。AI工作負(fù)載的問題在于競(jìng)爭(zhēng)和英偉達(dá)75%的毛利率，這也導(dǎo)致AI工作負(fù)載的利潤(rùn)率偏低。云行業(yè)正從50-70%的毛利率行業(yè)轉(zhuǎn)變?yōu)?0-35%的毛利率。對(duì)于云投資者來說，這應(yīng)該令人擔(dān)憂，因?yàn)檫@些公司的未來形象更像是公用事業(yè)公司，而非有吸引力的高利潤(rùn)率企業(yè)。但有一個(gè)解決方案可以避免這種未來，回歸正常利潤(rùn)率：ASIC。

能夠控制硬件且不受Nvidia及其75%毛利率約束的云服務(wù)提供商，將能夠回歸50%毛利率的時(shí)代。毫不意外，三大AWS、Azure和GCP都在開發(fā)自己的ASIC。最成熟的無疑是谷歌的TPU，其次是亞馬遜的Trainum，最后是Microsoft的MAIA（盡管Microsoft擁有OpenAI定制ASIC的全部知識(shí)產(chǎn)權(quán)，這可能在未來有所幫助）。

即使使用ASIC，你也不能百分之百獨(dú)立，因?yàn)槟闳匀恍枰c像博通或Marvell這樣的公司合作，他們的利潤(rùn)率低于英偉達(dá)但仍不可忽視，谷歌依然處于非常有利的位置。多年來，谷歌在開發(fā)TPU的過程中，成功控制了芯片設(shè)計(jì)的大部分流程。據(jù)一位現(xiàn)任AMD員工透露，博通已不再對(duì)芯片的全部了解。目前，谷歌是前端設(shè)計(jì)師（設(shè)計(jì)的實(shí)際RTL），而博通只是后端的物理設(shè)計(jì)合作伙伴。此外，谷歌當(dāng)然還擁有芯片的全部軟件優(yōu)化堆棧，這使得芯片性能如此出色。據(jù)這位AMD員工說，基于這項(xiàng)工作分工，他認(rèn)為博通能獲得50個(gè)百分點(diǎn)的毛利率已經(jīng)算幸運(yùn)了。

在不向Nvidia支付加速器費(fèi)用的情況下，云服務(wù)提供商可以選擇與他人類似定價(jià)以保持更好的利潤(rùn)率，或者降低成本并擴(kuò)大市場(chǎng)份額。當(dāng)然，這一切都取決于擁有一款能夠與Nvidia競(jìng)爭(zhēng)的強(qiáng)大ASIC。不幸的是，看起來只有谷歌實(shí)現(xiàn)了這一點(diǎn)，因?yàn)楸憩F(xiàn)最好的型號(hào)是基于TPU訓(xùn)練的Gemini 3。據(jù)一些前谷歌員工透露，谷歌內(nèi)部也在整個(gè)AI架構(gòu)中使用TPU進(jìn)行推斷，包括Gemini和Veo等模型。谷歌購(gòu)買Nvidia GPU用于GCP，因?yàn)榭蛻粜枰?，因?yàn)樗麄兪煜み@些產(chǎn)品和生態(tài)系統(tǒng)，但在內(nèi)部，谷歌則全力投入TPU。

隨著每一代ASIC的復(fù)雜度提升，類似于Nvidia的復(fù)雜度和速度，我預(yù)測(cè)并非所有ASIC項(xiàng)目都能成功。我認(rèn)為除了TPU之外，目前唯一真正的超大規(guī)模市場(chǎng)機(jī)會(huì)是AWS Trainium，但即便如此，它也面臨比TPU更大的不確定性。考慮到這一點(diǎn)，谷歌及其云業(yè)務(wù)有望成為AI時(shí)代的主要受益者和市場(chǎng)份額增長(zhǎng)者。

最近，我們甚至收到了SemiAnalysis團(tuán)隊(duì)對(duì)TPU的贊揚(yáng)：

“谷歌在超大規(guī)模開發(fā)者中的硅芯片優(yōu)勢(shì)無人能及，他們的第七代TPU可以說與英偉達(dá)Blackwell不相上下。TPU驅(qū)動(dòng)了Gemini系列模型，這些模型的能力正在提升，在某些任務(wù)中接近每智能價(jià)值的帕累托邊界”——來源：SemiAnalysis

谷歌目前生產(chǎn)多少TPU，規(guī)模會(huì)更大？