新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 協(xié)處理器新時(shí)代：異構(gòu)計(jì)算架構(gòu)如何跟上AI浪潮

協(xié)處理器新時(shí)代：異構(gòu)計(jì)算架構(gòu)如何跟上AI浪潮

作者：時(shí)間：2026-04-10 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

核心要點(diǎn)

沒(méi)有任何一種處理器能高效執(zhí)行所有任務(wù)，必須采用多處理器協(xié)同架構(gòu)。
最大化效率的關(guān)鍵是最小化數(shù)據(jù)移動(dòng)。
架構(gòu)師必須在滿(mǎn)足當(dāng)前負(fù)載效率的同時(shí)，預(yù)留足夠靈活性以適配未來(lái)需求。

得益于 AI 帶來(lái)的負(fù)載變革，新一代處理器架構(gòu)正快速演進(jìn)，但沒(méi)有任何一款處理器能 “包打天下”。協(xié)同在紙面上很簡(jiǎn)單，實(shí)際實(shí)現(xiàn)卻困難重重。

歷史上從未出現(xiàn)過(guò)能通吃所有場(chǎng)景的處理器架構(gòu)。過(guò)去 50 年，CPU 一直是主力計(jì)算單元，但即便在 PC 早期，人們就已意識(shí)到部分負(fù)載需要更專(zhuān)用的處理能力 ——8086 就搭配了 8087 浮點(diǎn)協(xié)處理器。

音頻處理與手機(jī)的普及，讓數(shù)字信號(hào)處理器（DSP）成為必備第二處理器。這類(lèi)架構(gòu)意識(shí)到數(shù)據(jù)傳輸是性能瓶頸，將數(shù)據(jù)與指令流分離，并加入專(zhuān)用乘累加單元，以快速完成傅里葉變換。后續(xù)又逐步擴(kuò)展支持編解碼、壓縮、調(diào)制、解調(diào)與糾錯(cuò)等功能。

CAD 等應(yīng)用對(duì)圖形處理速度提出更高要求，推動(dòng)了商用游戲市場(chǎng)崛起與 GPU 架構(gòu)快速迭代。正是這些處理器讓 AI 從規(guī)則驅(qū)動(dòng)走向模型驅(qū)動(dòng)，一路發(fā)展至今。

遷移到新架構(gòu)并非易事。Quadric 首席營(yíng)銷(xiāo)官 Steve Roddy 表示：“SoC 三十年演進(jìn)呈現(xiàn)出一致規(guī)律：功耗 - 性能驅(qū)動(dòng)新處理器品類(lèi)誕生，但可編程性決定其能否成功。如果 CPU 能在功耗與性能范圍內(nèi)跑完負(fù)載，就會(huì)一直用 CPU；只有當(dāng) CPU 效率不足時(shí)，架構(gòu)師才會(huì)引入專(zhuān)用化設(shè)計(jì)。”

AI 的快速迭代同樣引發(fā)硬件架構(gòu)革新，其演進(jìn)速度甚至超過(guò)硬件設(shè)計(jì)、驗(yàn)證、量產(chǎn)與部署的速度。ChipAgents 首席執(zhí)行官 William Wang 指出：“協(xié)處理器的核心問(wèn)題歸根結(jié)底是負(fù)載。隨著 AI 系統(tǒng)演進(jìn)，負(fù)載正從簡(jiǎn)短的內(nèi)核型推理任務(wù)，轉(zhuǎn)向長(zhǎng)時(shí)運(yùn)行的智能體任務(wù)，涉及推理循環(huán)、工具調(diào)用、內(nèi)存訪問(wèn)與多組件交互。在這種場(chǎng)景下，挑戰(zhàn)不再是打造更快的計(jì)算模塊，而是在通用可編程性與 ASIC 級(jí)效率之間取得平衡?！?/p>

許多公司曾嘗試推出新處理器架構(gòu)，紙面參數(shù)亮眼卻最終失敗。南安普頓大學(xué) AI 與 EDA 研究員 Simon Davidmann 認(rèn)為：“成功的協(xié)處理器，通常能同時(shí)最小化數(shù)據(jù)移動(dòng)、軟件摩擦與驗(yàn)證風(fēng)險(xiǎn)。在 AI 領(lǐng)域，最好的協(xié)處理器不是峰值 TOPS 最高的那個(gè)，而是數(shù)據(jù)移動(dòng)浪費(fèi)能量最少的那個(gè)?！?/p>

架構(gòu)演進(jìn)

在包含多個(gè)異構(gòu)處理單元的協(xié)同環(huán)境中，通常由一個(gè)處理器擔(dān)任協(xié)調(diào)角色。新思科技（Synopsys）首席產(chǎn)品經(jīng)理 Gordon Cooper 解釋?zhuān)骸盁o(wú)論何種場(chǎng)景，都有一個(gè)高層主機(jī)，通常是 CPU，其他所有單元都可視為協(xié)處理器。我們擁有神經(jīng)網(wǎng)絡(luò)處理器（NPU）IP，它雖是完整處理器，但仍聽(tīng)命于主機(jī)。面對(duì)大語(yǔ)言模型時(shí)，主機(jī)雖可承擔(dān)部分工作，但會(huì)將絕大多數(shù)任務(wù)卸載給 NPU—— 在大語(yǔ)言模型或視覺(jué)語(yǔ)言模型中，由 NPU 做矩陣運(yùn)算效率高得多。而這一切都始于主處理器的控制。我們的 NPU 內(nèi)部包含多個(gè)標(biāo)量處理器、向量處理器與專(zhuān)用數(shù)學(xué)引擎，是一個(gè)典型的異構(gòu)算力集合體?！?/p>

NPU 已快速迭代?？请娮樱–adence）AI IP 與軟件產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Amol Borkar 表示：“NPU 用于運(yùn)行 AI 模型，但過(guò)去通常是高度專(zhuān)用的固定功能硬件。如今 AI 模型愈發(fā)復(fù)雜，不再只有 MAC 運(yùn)算，還需要硬件輔助非 MAC 操作與激活函數(shù)。這讓 NPU 具備一定靈活性。但我們發(fā)現(xiàn)，只要出現(xiàn)新層、新算子、新版 Llama 或 Claude 模型，就會(huì)面臨挑戰(zhàn)：如果額外硬件無(wú)法支持這些新算子，網(wǎng)絡(luò)可能無(wú)法運(yùn)行?！?/p>

Arm 則通過(guò)全新 AGI CPU 走出截然不同的路線，大幅提升 CPU 每瓦性能。Arm 首席執(zhí)行官 Rene Haas 稱(chēng)：“隨著智能體 AI 主流化，相關(guān)工作負(fù)載高度依賴(lài) CPU 性能。數(shù)據(jù)中心正面臨瓶頸：昂貴的加速器生成 Token 后，需要通過(guò)云端回傳，形成巨大瓶頸。這意味著需要越來(lái)越多的 CPU?！?/p>

這也讓處理器與協(xié)處理器的邊界愈發(fā)模糊。Arteris 產(chǎn)品管理與營(yíng)銷(xiāo)副總裁 Andy Nightingale 指出：“如今協(xié)處理器架構(gòu)覆蓋緊耦合單元、松耦合加速器、基于互連的分布式系統(tǒng)。緊耦合設(shè)計(jì)延遲低、內(nèi)存共享、編程簡(jiǎn)單，適合小規(guī)模或低延遲敏感場(chǎng)景，但因資源競(jìng)爭(zhēng)與一致性開(kāi)銷(xiāo)難以擴(kuò)展；松耦合方案多采用小芯片實(shí)現(xiàn)，支持模塊化擴(kuò)展與訓(xùn)練、推理、網(wǎng)絡(luò)等功能專(zhuān)用化，但延遲更高，軟硬件協(xié)同復(fù)雜；基于互連的架構(gòu)兼顧可擴(kuò)展性與動(dòng)態(tài)資源共享，但對(duì)互連要求極高，系統(tǒng)級(jí)復(fù)雜度顯著提升?！?/p>

RISC-V 生態(tài)正嘗試開(kāi)創(chuàng)全新可能：實(shí)現(xiàn)處理器與協(xié)處理器的融合。Breker Verification Systems 首席執(zhí)行官 Dave Kelf 表示：“對(duì)于加速器與高度專(zhuān)用處理器架構(gòu)，RISC-V 指令集具備獨(dú)特優(yōu)勢(shì)。我們看到基于 RISC-V 的加速器開(kāi)始出現(xiàn)，處理單元直接集成在加速器內(nèi)部，消除了獨(dú)立單元間的控制與數(shù)據(jù)傳輸開(kāi)銷(xiāo)。在低功耗場(chǎng)景中，僅保留必需處理器單元與加速器的組合可顯著省電，尤其適用于 AI 設(shè)備，標(biāo)準(zhǔn)化軟件?？芍苯硬渴鹪诩铀倨魃?。這是 RISC-V 開(kāi)啟的全新范式，也可能是開(kāi)放指令集的未來(lái)?！?/p>

這種思路既可用于為 CPU 增加功能，也可用于為 NPU 加入通用處理能力?？请娮?AI IP 產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Jason Lawley 稱(chēng)：“處理器間切換存在時(shí)間與距離開(kāi)銷(xiāo)。我們需要權(quán)衡為向量與標(biāo)量處理分配多少面積，同時(shí)清楚無(wú)法完全替代 CPU。因此可以看到小型 RISC-V 核更靠近 MAC 陣列，它們無(wú)法完成大型 CPU 的所有任務(wù)，軟件開(kāi)發(fā)者需要合理劃分負(fù)載以實(shí)現(xiàn)效率最大化。”

放眼純電子領(lǐng)域之外，還存在更多可能。是德科技（Keysight）高速數(shù)字產(chǎn)品組合經(jīng)理 Jan van Hese 提到：“還有光子 AI 加速器等新型處理器，優(yōu)勢(shì)顯著，雖設(shè)計(jì)難度大，但一旦實(shí)現(xiàn)，速度極快且功耗極低?！?/p>

綁定各類(lèi)處理器的架構(gòu)也在持續(xù)變化。楷登電子的 Lawley 表示：“談及協(xié)處理器，計(jì)算位置始終在動(dòng)態(tài)變化，并影響數(shù)據(jù)移動(dòng)與存儲(chǔ)方式。大量計(jì)算目前由 GPU 與 NPU 完成，但隨著 AI 成熟，尤其是智能體出現(xiàn)，CPU 工作量開(kāi)始回升。過(guò)去是一個(gè) CPU 加大型 MAC 陣列，如今變?yōu)槊恳欢〝?shù)量 MAC 就需要搭配一個(gè) CPU。站在 NPU 角度，NPU 是世界中心，其他都是協(xié)處理器；站在 CPU 角度則相反?？倳?huì)有專(zhuān)用功能無(wú)法被單一處理器覆蓋，這就是協(xié)處理器存在的意義?！?/p>

歷史或許預(yù)示著未來(lái)的收斂方向。Quadric 的 Roddy 指出：“專(zhuān)用處理器通過(guò)將原生數(shù)據(jù)類(lèi)型與計(jì)算原語(yǔ)適配負(fù)載提升效率，但僅靠專(zhuān)用化遠(yuǎn)遠(yuǎn)不夠。緊耦合的‘輔助’加速器無(wú)法真正解放 CPU，分區(qū)執(zhí)行會(huì)增加互連流量、延遲與功耗。系統(tǒng)級(jí)效率取決于獨(dú)立性。早期圖形引擎是附加式加速器，只有當(dāng)全可編程 GPU 出現(xiàn)并與 CPU 解耦后，才實(shí)現(xiàn)真正規(guī)?；?，DSP 領(lǐng)域也是如此。AI 正跨越同樣的界限：從固定功能加速器走向全可編程、獨(dú)立的 AI 處理器。除功耗與性能提升外，獨(dú)立性還能簡(jiǎn)化集成、驗(yàn)證、建模與小芯片擴(kuò)展?！?/p>

各類(lèi)方案均存在取舍。南安普頓大學(xué)的 Davidmann 認(rèn)為：“CPU 鄰近式加速器易于編程與集成，但難以在持續(xù)每瓦性能上取勝；GPU 類(lèi)引擎靈活強(qiáng)大，但軟件棧沉重，數(shù)據(jù)移動(dòng)開(kāi)銷(xiāo)大；專(zhuān)用加速器通常效率最高，但前提是編譯器、運(yùn)行時(shí)與模型覆蓋足夠成熟，避免硬件淪為‘信息孤島’。異構(gòu)子系統(tǒng)介于其間，往往是系統(tǒng)層面的最優(yōu)解，但也是架構(gòu)設(shè)計(jì)難度最高的方案。”

Arm 的思路與此基本一致。Arm 云 AI 執(zhí)行副總裁 Mohamed Awad 稱(chēng)：“這些智能體將 7×24 小時(shí)運(yùn)行，如果性能不足，依賴(lài)它的整個(gè)基礎(chǔ)設(shè)施都會(huì)陷入停滯。”

面臨的挑戰(zhàn)

只關(guān)注處理架構(gòu)可能會(huì)忽略全局。新思科技的 Cooper 表示：“人們喜歡把它當(dāng)成數(shù)學(xué)問(wèn)題，但真正關(guān)鍵的是數(shù)據(jù)移動(dòng)，尤其對(duì)于參數(shù)量巨大的大語(yǔ)言模型。核心是如何高效將數(shù)據(jù)匯聚到一處處理，避免不必要的遷移。必須在算力與數(shù)據(jù)帶寬間找到平衡：如果沒(méi)有足夠數(shù)據(jù)流支撐，再多 MAC 單元也會(huì)因饑餓而閑置?！?/p>

這需要從系統(tǒng)級(jí)規(guī)劃開(kāi)始。是德科技的 van Hese 強(qiáng)調(diào)：“需要在設(shè)計(jì)周期中左移，理想情況下同步開(kāi)展 IC 級(jí)、封裝級(jí)、系統(tǒng)級(jí)設(shè)計(jì)，所有模塊協(xié)同設(shè)計(jì)以保障系統(tǒng)整體運(yùn)行。例如系統(tǒng)包含 IC 與封裝，或兩顆裸片通過(guò)中介層與 UCIe 通信，在設(shè)計(jì)時(shí)就需要完成系統(tǒng)級(jí)仿真。”

分布式計(jì)算雖簡(jiǎn)化了部分環(huán)節(jié)，卻在其他方面增加復(fù)雜度。Arteris 的 Nightingale 指出：“盡管小芯片與異構(gòu)協(xié)處理器承諾打造更開(kāi)放靈活的生態(tài)，但除基本互操作性外，還帶來(lái)巨大的集成挑戰(zhàn)。UCIe 與 CXL 等標(biāo)準(zhǔn)解決了物理層與協(xié)議兼容性，但無(wú)法解決系統(tǒng)級(jí)行為集成問(wèn)題。不同廠商在流量管理、內(nèi)存排序、服務(wù)質(zhì)量預(yù)期、延遲容忍度上的差異，可能導(dǎo)致組件組合后性能不可預(yù)測(cè)。統(tǒng)一的互連層至關(guān)重要，不僅用于連接組件，更要保障系統(tǒng)行為可預(yù)測(cè)。否則，生態(tài)可能在技術(shù)上兼容，卻在真實(shí)負(fù)載下運(yùn)行不可靠?！?/p>

可擴(kuò)展性：如何面向未來(lái)

在 AI 模型與任務(wù)持續(xù)快速迭代的背景下，硬件永遠(yuǎn)落后于軟件需求。新思科技的 Cooper 表示：“芯片設(shè)計(jì)需要一年，集成到產(chǎn)品又需要一年，還需要在市場(chǎng)上存活數(shù)年。設(shè)計(jì) SoC 時(shí)，如何實(shí)現(xiàn)面向未來(lái)是極具挑戰(zhàn)性的問(wèn)題。”

為未來(lái)預(yù)留能力往往需要當(dāng)下付出代價(jià)。楷登電子的 Borkar 稱(chēng)：“如果打造完全貼合當(dāng)前負(fù)載的專(zhuān)用硬件，效率可能高得多，但一旦客戶(hù)需求變更、采用新網(wǎng)絡(luò)或新模型，就會(huì)陷入極為被動(dòng)的境地?！?/p>

所有硬件開(kāi)發(fā)者都需要找到平衡。ChipAgents 的 Wang 認(rèn)為：“架構(gòu)師需要足夠的專(zhuān)用化實(shí)現(xiàn)功耗與性能目標(biāo)，同時(shí)需要足夠的靈活性支持快速演進(jìn)的 AI 負(fù)載。這使得系統(tǒng)級(jí)調(diào)度、數(shù)據(jù)移動(dòng)與軟件集成，與原始算力吞吐量同等重要，而這正是智能體 AI 能幫助工程師權(quán)衡取舍、管理日益復(fù)雜的異構(gòu)協(xié)處理系統(tǒng)的關(guān)鍵?！?/p>

面向未來(lái)不能只考慮運(yùn)算操作。新思科技的 Cooper 解釋?zhuān)骸霸缙?NPU 專(zhuān)為 CNN 負(fù)載設(shè)計(jì)，矩陣乘法相對(duì)簡(jiǎn)單；Transformer 出現(xiàn)后復(fù)雜度提升，TOPS 指標(biāo)不再關(guān)鍵，因?yàn)椴辉僦挥谐死奂硬僮鳎€需要處理張量網(wǎng)絡(luò)；演進(jìn)到 LLM 后，變?yōu)楦叨?strong>內(nèi)存受限；再到混合模式與多模態(tài)，又需要處理視覺(jué)處理。每類(lèi)場(chǎng)景都有不同參數(shù)組合，卻都可被稱(chēng)為 NPU。”

算子優(yōu)化或許是相對(duì)簡(jiǎn)單的部分?？请娮拥?Borkar 表示：“將網(wǎng)絡(luò)拆解為算子序列，大部分算子在不同客戶(hù)間是通用的，我們可以為這些通用算子提供高性能與高效率。真正的挑戰(zhàn)在于未預(yù)料到的算子，需要找到運(yùn)行方式，而這往往是效率問(wèn)題的高發(fā)區(qū)?！?/p>

數(shù)據(jù)類(lèi)型同樣如此。新思科技的 Cooper 稱(chēng)：“可以支持任意數(shù)量的現(xiàn)有數(shù)據(jù)類(lèi)型，但隨著新類(lèi)型不斷出現(xiàn)，需要引擎具備適配能力。必須通過(guò)靈活性設(shè)計(jì)產(chǎn)品以實(shí)現(xiàn)面向未來(lái)，這需要在面積上做出取舍；而 NPU 需要在保持可編程性的同時(shí)，盡可能追求高效率?！?/p>