狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 協(xié)處理器新時(shí)代:異構(gòu)計(jì)算架構(gòu)如何跟上AI浪潮

協(xié)處理器新時(shí)代:異構(gòu)計(jì)算架構(gòu)如何跟上AI浪潮

作者: 時(shí)間:2026-04-10 來(lái)源: 收藏

核心要點(diǎn)

  • 沒(méi)有任何一種處理器能高效執(zhí)行所有任務(wù),必須采用多處理器協(xié)同架構(gòu)。

  • 最大化效率的關(guān)鍵是最小化數(shù)據(jù)移動(dòng)。

  • 架構(gòu)師必須在滿(mǎn)足當(dāng)前負(fù)載效率的同時(shí),預(yù)留足夠靈活性以適配未來(lái)需求。

得益于 帶來(lái)的負(fù)載變革,新一代處理器架構(gòu)正快速演進(jìn),但沒(méi)有任何一款處理器能 “包打天下”。協(xié)同在紙面上很簡(jiǎn)單,實(shí)際實(shí)現(xiàn)卻困難重重。

歷史上從未出現(xiàn)過(guò)能通吃所有場(chǎng)景的處理器架構(gòu)。過(guò)去 50 年,CPU 一直是主力計(jì)算單元,但即便在 PC 早期,人們就已意識(shí)到部分負(fù)載需要更專(zhuān)用的處理能力 ——8086 就搭配了 8087 浮點(diǎn)

音頻處理與手機(jī)的普及,讓數(shù)字信號(hào)處理器()成為必備第二處理器。這類(lèi)架構(gòu)意識(shí)到數(shù)據(jù)傳輸是性能瓶頸,將數(shù)據(jù)與指令流分離,并加入專(zhuān)用乘累加單元,以快速完成傅里葉變換。后續(xù)又逐步擴(kuò)展支持編解碼、壓縮、調(diào)制、解調(diào)與糾錯(cuò)等功能。

CAD 等應(yīng)用對(duì)圖形處理速度提出更高要求,推動(dòng)了商用游戲市場(chǎng)崛起與 GPU 架構(gòu)快速迭代。正是這些處理器讓 從規(guī)則驅(qū)動(dòng)走向模型驅(qū)動(dòng),一路發(fā)展至今。

遷移到新架構(gòu)并非易事。Quadric 首席營(yíng)銷(xiāo)官 Steve Roddy 表示:“SoC 三十年演進(jìn)呈現(xiàn)出一致規(guī)律:功耗 - 性能驅(qū)動(dòng)新處理器品類(lèi)誕生,但可編程性決定其能否成功。如果 CPU 能在功耗與性能范圍內(nèi)跑完負(fù)載,就會(huì)一直用 CPU;只有當(dāng) CPU 效率不足時(shí),架構(gòu)師才會(huì)引入專(zhuān)用化設(shè)計(jì)。”

的快速迭代同樣引發(fā)硬件架構(gòu)革新,其演進(jìn)速度甚至超過(guò)硬件設(shè)計(jì)、驗(yàn)證、量產(chǎn)與部署的速度。ChipAgents 首席執(zhí)行官 William Wang 指出:“的核心問(wèn)題歸根結(jié)底是負(fù)載。隨著 AI 系統(tǒng)演進(jìn),負(fù)載正從簡(jiǎn)短的內(nèi)核型推理任務(wù),轉(zhuǎn)向長(zhǎng)時(shí)運(yùn)行的智能體任務(wù),涉及推理循環(huán)、工具調(diào)用、內(nèi)存訪問(wèn)與多組件交互。在這種場(chǎng)景下,挑戰(zhàn)不再是打造更快的計(jì)算模塊,而是在通用可編程性與 ASIC 級(jí)效率之間取得平衡?!?/p>

許多公司曾嘗試推出新處理器架構(gòu),紙面參數(shù)亮眼卻最終失敗。南安普頓大學(xué) AI 與 EDA 研究員 Simon Davidmann 認(rèn)為:“成功的,通常能同時(shí)最小化數(shù)據(jù)移動(dòng)、軟件摩擦與驗(yàn)證風(fēng)險(xiǎn)。在 AI 領(lǐng)域,最好的協(xié)處理器不是峰值 TOPS 最高的那個(gè),而是數(shù)據(jù)移動(dòng)浪費(fèi)能量最少的那個(gè)?!?/p>

架構(gòu)演進(jìn)

在包含多個(gè)異構(gòu)處理單元的協(xié)同環(huán)境中,通常由一個(gè)處理器擔(dān)任協(xié)調(diào)角色。新思科技(Synopsys)首席產(chǎn)品經(jīng)理 Gordon Cooper 解釋?zhuān)骸盁o(wú)論何種場(chǎng)景,都有一個(gè)高層主機(jī),通常是 CPU,其他所有單元都可視為協(xié)處理器。我們擁有神經(jīng)網(wǎng)絡(luò)處理器(NPU)IP,它雖是完整處理器,但仍聽(tīng)命于主機(jī)。面對(duì)大語(yǔ)言模型時(shí),主機(jī)雖可承擔(dān)部分工作,但會(huì)將絕大多數(shù)任務(wù)卸載給 NPU—— 在大語(yǔ)言模型或視覺(jué)語(yǔ)言模型中,由 NPU 做矩陣運(yùn)算效率高得多。而這一切都始于主處理器的控制。我們的 NPU 內(nèi)部包含多個(gè)標(biāo)量處理器、向量處理器與專(zhuān)用數(shù)學(xué)引擎,是一個(gè)典型的異構(gòu)算力集合體?!?/p>

NPU 已快速迭代??请娮樱–adence)AI IP 與軟件產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Amol Borkar 表示:“NPU 用于運(yùn)行 AI 模型,但過(guò)去通常是高度專(zhuān)用的固定功能硬件。如今 AI 模型愈發(fā)復(fù)雜,不再只有 MAC 運(yùn)算,還需要硬件輔助非 MAC 操作與激活函數(shù)。這讓 NPU 具備一定靈活性。但我們發(fā)現(xiàn),只要出現(xiàn)新層、新算子、新版 Llama 或 Claude 模型,就會(huì)面臨挑戰(zhàn):如果額外硬件無(wú)法支持這些新算子,網(wǎng)絡(luò)可能無(wú)法運(yùn)行?!?/p>

則通過(guò)全新 AGI CPU 走出截然不同的路線,大幅提升 CPU 每瓦性能。 首席執(zhí)行官 Rene Haas 稱(chēng):“隨著智能體 AI 主流化,相關(guān)工作負(fù)載高度依賴(lài) CPU 性能。數(shù)據(jù)中心正面臨瓶頸:昂貴的加速器生成 Token 后,需要通過(guò)云端回傳,形成巨大瓶頸。這意味著需要越來(lái)越多的 CPU?!?/p>

這也讓處理器與協(xié)處理器的邊界愈發(fā)模糊。Arteris 產(chǎn)品管理與營(yíng)銷(xiāo)副總裁 Andy Nightingale 指出:“如今協(xié)處理器架構(gòu)覆蓋緊耦合單元、松耦合加速器、基于互連的分布式系統(tǒng)。緊耦合設(shè)計(jì)延遲低、內(nèi)存共享、編程簡(jiǎn)單,適合小規(guī)模或低延遲敏感場(chǎng)景,但因資源競(jìng)爭(zhēng)與一致性開(kāi)銷(xiāo)難以擴(kuò)展;松耦合方案多采用小芯片實(shí)現(xiàn),支持模塊化擴(kuò)展與訓(xùn)練、推理、網(wǎng)絡(luò)等功能專(zhuān)用化,但延遲更高,軟硬件協(xié)同復(fù)雜;基于互連的架構(gòu)兼顧可擴(kuò)展性與動(dòng)態(tài)資源共享,但對(duì)互連要求極高,系統(tǒng)級(jí)復(fù)雜度顯著提升?!?/p>

生態(tài)正嘗試開(kāi)創(chuàng)全新可能:實(shí)現(xiàn)處理器與協(xié)處理器的融合。Breker Verification Systems 首席執(zhí)行官 Dave Kelf 表示:“對(duì)于加速器與高度專(zhuān)用處理器架構(gòu), 指令集具備獨(dú)特優(yōu)勢(shì)。我們看到基于 的加速器開(kāi)始出現(xiàn),處理單元直接集成在加速器內(nèi)部,消除了獨(dú)立單元間的控制與數(shù)據(jù)傳輸開(kāi)銷(xiāo)。在低功耗場(chǎng)景中,僅保留必需處理器單元與加速器的組合可顯著省電,尤其適用于 AI 設(shè)備,標(biāo)準(zhǔn)化軟件??芍苯硬渴鹪诩铀倨魃?。這是 RISC-V 開(kāi)啟的全新范式,也可能是開(kāi)放指令集的未來(lái)?!?/p>

這種思路既可用于為 CPU 增加功能,也可用于為 NPU 加入通用處理能力??请娮?AI IP 產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Jason Lawley 稱(chēng):“處理器間切換存在時(shí)間與距離開(kāi)銷(xiāo)。我們需要權(quán)衡為向量與標(biāo)量處理分配多少面積,同時(shí)清楚無(wú)法完全替代 CPU。因此可以看到小型 RISC-V 核更靠近 MAC 陣列,它們無(wú)法完成大型 CPU 的所有任務(wù),軟件開(kāi)發(fā)者需要合理劃分負(fù)載以實(shí)現(xiàn)效率最大化。”

放眼純電子領(lǐng)域之外,還存在更多可能。是德科技(Keysight)高速數(shù)字產(chǎn)品組合經(jīng)理 Jan van Hese 提到:“還有光子 AI 加速器等新型處理器,優(yōu)勢(shì)顯著,雖設(shè)計(jì)難度大,但一旦實(shí)現(xiàn),速度極快且功耗極低?!?/p>

綁定各類(lèi)處理器的架構(gòu)也在持續(xù)變化。楷登電子的 Lawley 表示:“談及協(xié)處理器,計(jì)算位置始終在動(dòng)態(tài)變化,并影響數(shù)據(jù)移動(dòng)與存儲(chǔ)方式。大量計(jì)算目前由 GPU 與 NPU 完成,但隨著 AI 成熟,尤其是智能體出現(xiàn),CPU 工作量開(kāi)始回升。過(guò)去是一個(gè) CPU 加大型 MAC 陣列,如今變?yōu)槊恳欢〝?shù)量 MAC 就需要搭配一個(gè) CPU。站在 NPU 角度,NPU 是世界中心,其他都是協(xié)處理器;站在 CPU 角度則相反??倳?huì)有專(zhuān)用功能無(wú)法被單一處理器覆蓋,這就是協(xié)處理器存在的意義?!?/p>

歷史或許預(yù)示著未來(lái)的收斂方向。Quadric 的 Roddy 指出:“專(zhuān)用處理器通過(guò)將原生數(shù)據(jù)類(lèi)型與計(jì)算原語(yǔ)適配負(fù)載提升效率,但僅靠專(zhuān)用化遠(yuǎn)遠(yuǎn)不夠。緊耦合的‘輔助’加速器無(wú)法真正解放 CPU,分區(qū)執(zhí)行會(huì)增加互連流量、延遲與功耗。系統(tǒng)級(jí)效率取決于獨(dú)立性。早期圖形引擎是附加式加速器,只有當(dāng)全可編程 GPU 出現(xiàn)并與 CPU 解耦后,才實(shí)現(xiàn)真正規(guī)?;?, 領(lǐng)域也是如此。AI 正跨越同樣的界限:從固定功能加速器走向全可編程、獨(dú)立的 AI 處理器。除功耗與性能提升外,獨(dú)立性還能簡(jiǎn)化集成、驗(yàn)證、建模與小芯片擴(kuò)展?!?/p>

各類(lèi)方案均存在取舍。南安普頓大學(xué)的 Davidmann 認(rèn)為:“CPU 鄰近式加速器易于編程與集成,但難以在持續(xù)每瓦性能上取勝;GPU 類(lèi)引擎靈活強(qiáng)大,但軟件棧沉重,數(shù)據(jù)移動(dòng)開(kāi)銷(xiāo)大;專(zhuān)用加速器通常效率最高,但前提是編譯器、運(yùn)行時(shí)與模型覆蓋足夠成熟,避免硬件淪為‘信息孤島’。異構(gòu)子系統(tǒng)介于其間,往往是系統(tǒng)層面的最優(yōu)解,但也是架構(gòu)設(shè)計(jì)難度最高的方案。”

的思路與此基本一致。Arm 云 AI 執(zhí)行副總裁 Mohamed Awad 稱(chēng):“這些智能體將 7×24 小時(shí)運(yùn)行,如果性能不足,依賴(lài)它的整個(gè)基礎(chǔ)設(shè)施都會(huì)陷入停滯。”

面臨的挑戰(zhàn)

只關(guān)注處理架構(gòu)可能會(huì)忽略全局。新思科技的 Cooper 表示:“人們喜歡把它當(dāng)成數(shù)學(xué)問(wèn)題,但真正關(guān)鍵的是數(shù)據(jù)移動(dòng),尤其對(duì)于參數(shù)量巨大的大語(yǔ)言模型。核心是如何高效將數(shù)據(jù)匯聚到一處處理,避免不必要的遷移。必須在算力與數(shù)據(jù)帶寬間找到平衡:如果沒(méi)有足夠數(shù)據(jù)流支撐,再多 MAC 單元也會(huì)因饑餓而閑置?!?/p>

這需要從系統(tǒng)級(jí)規(guī)劃開(kāi)始。是德科技的 van Hese 強(qiáng)調(diào):“需要在設(shè)計(jì)周期中左移,理想情況下同步開(kāi)展 IC 級(jí)、封裝級(jí)、系統(tǒng)級(jí)設(shè)計(jì),所有模塊協(xié)同設(shè)計(jì)以保障系統(tǒng)整體運(yùn)行。例如系統(tǒng)包含 IC 與封裝,或兩顆裸片通過(guò)中介層與 UCIe 通信,在設(shè)計(jì)時(shí)就需要完成系統(tǒng)級(jí)仿真。”

分布式計(jì)算雖簡(jiǎn)化了部分環(huán)節(jié),卻在其他方面增加復(fù)雜度。Arteris 的 Nightingale 指出:“盡管小芯片與異構(gòu)協(xié)處理器承諾打造更開(kāi)放靈活的生態(tài),但除基本互操作性外,還帶來(lái)巨大的集成挑戰(zhàn)。UCIe 與 CXL 等標(biāo)準(zhǔn)解決了物理層與協(xié)議兼容性,但無(wú)法解決系統(tǒng)級(jí)行為集成問(wèn)題。不同廠商在流量管理、內(nèi)存排序、服務(wù)質(zhì)量預(yù)期、延遲容忍度上的差異,可能導(dǎo)致組件組合后性能不可預(yù)測(cè)。統(tǒng)一的互連層至關(guān)重要,不僅用于連接組件,更要保障系統(tǒng)行為可預(yù)測(cè)。否則,生態(tài)可能在技術(shù)上兼容,卻在真實(shí)負(fù)載下運(yùn)行不可靠?!?/p>

可擴(kuò)展性:如何面向未來(lái)

在 AI 模型與任務(wù)持續(xù)快速迭代的背景下,硬件永遠(yuǎn)落后于軟件需求。新思科技的 Cooper 表示:“芯片設(shè)計(jì)需要一年,集成到產(chǎn)品又需要一年,還需要在市場(chǎng)上存活數(shù)年。設(shè)計(jì) SoC 時(shí),如何實(shí)現(xiàn)面向未來(lái)是極具挑戰(zhàn)性的問(wèn)題。”

為未來(lái)預(yù)留能力往往需要當(dāng)下付出代價(jià)。楷登電子的 Borkar 稱(chēng):“如果打造完全貼合當(dāng)前負(fù)載的專(zhuān)用硬件,效率可能高得多,但一旦客戶(hù)需求變更、采用新網(wǎng)絡(luò)或新模型,就會(huì)陷入極為被動(dòng)的境地?!?/p>

所有硬件開(kāi)發(fā)者都需要找到平衡。ChipAgents 的 Wang 認(rèn)為:“架構(gòu)師需要足夠的專(zhuān)用化實(shí)現(xiàn)功耗與性能目標(biāo),同時(shí)需要足夠的靈活性支持快速演進(jìn)的 AI 負(fù)載。這使得系統(tǒng)級(jí)調(diào)度、數(shù)據(jù)移動(dòng)與軟件集成,與原始算力吞吐量同等重要,而這正是智能體 AI 能幫助工程師權(quán)衡取舍、管理日益復(fù)雜的異構(gòu)協(xié)處理系統(tǒng)的關(guān)鍵?!?/p>

面向未來(lái)不能只考慮運(yùn)算操作。新思科技的 Cooper 解釋?zhuān)骸霸缙?NPU 專(zhuān)為 CNN 負(fù)載設(shè)計(jì),矩陣乘法相對(duì)簡(jiǎn)單;Transformer 出現(xiàn)后復(fù)雜度提升,TOPS 指標(biāo)不再關(guān)鍵,因?yàn)椴辉僦挥谐死奂硬僮鳎€需要處理張量網(wǎng)絡(luò);演進(jìn)到 LLM 后,變?yōu)楦叨?strong>內(nèi)存受限;再到混合模式與多模態(tài),又需要處理視覺(jué)處理。每類(lèi)場(chǎng)景都有不同參數(shù)組合,卻都可被稱(chēng)為 NPU。”

算子優(yōu)化或許是相對(duì)簡(jiǎn)單的部分??请娮拥?Borkar 表示:“將網(wǎng)絡(luò)拆解為算子序列,大部分算子在不同客戶(hù)間是通用的,我們可以為這些通用算子提供高性能與高效率。真正的挑戰(zhàn)在于未預(yù)料到的算子,需要找到運(yùn)行方式,而這往往是效率問(wèn)題的高發(fā)區(qū)?!?/p>

數(shù)據(jù)類(lèi)型同樣如此。新思科技的 Cooper 稱(chēng):“可以支持任意數(shù)量的現(xiàn)有數(shù)據(jù)類(lèi)型,但隨著新類(lèi)型不斷出現(xiàn),需要引擎具備適配能力。必須通過(guò)靈活性設(shè)計(jì)產(chǎn)品以實(shí)現(xiàn)面向未來(lái),這需要在面積上做出取舍;而 NPU 需要在保持可編程性的同時(shí),盡可能追求高效率?!?/p>


評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉
陈巴尔虎旗| 大名县| 舟曲县| 惠东县| 久治县| 威海市| 浑源县| 涿州市| 安国市| 门源| 东乌| 容城县| 马关县| 应用必备| 云阳县| 吴江市| 汉阴县| 屯门区| 阿图什市| 利辛县| 平谷区| 安义县| 柳河县| 象山县| 锡林浩特市| 额尔古纳市| 大兴区| 筠连县| 钟山县| 古丈县| 鄂尔多斯市| 宝山区| 临清市| 奉贤区| 靖远县| 萍乡市| 甘德县| 高邮市| 潜山县| 宁明县| 太和县|