Imec 解決了 3D HBM on GPU 架構(gòu)中的熱極限
Imec在下一代3D HBM-on-GPU架構(gòu)中熱量管理方面取得了重大進(jìn)展,展示了其系統(tǒng)-技術(shù)協(xié)同優(yōu)化(STCO)方法能夠顯著降低AI訓(xùn)練工作負(fù)載下的GPU溫度。該工作本周在2025年IEEE國(guó)際電子器件會(huì)議(IEDM)上發(fā)表并發(fā)布,展示了跨層設(shè)計(jì)策略如何將3D集成計(jì)算平臺(tái)的峰值熱量從140°C以上降至約70°C。
他們中許多人正處于先進(jìn)封裝、半導(dǎo)體設(shè)計(jì)和人工智能加速的交叉領(lǐng)域——這些發(fā)現(xiàn)為高密度3D架構(gòu)的可行性以及塑造下一代計(jì)算系統(tǒng)的關(guān)鍵熱策略提供了寶貴見(jiàn)解。

隨著AI模型不斷突破內(nèi)存帶寬和計(jì)算吞吐量的極限,工程師們正在探索將高帶寬內(nèi)存(HBM)直接集成到GPU之上的架構(gòu)。Imec的研究重點(diǎn)是每個(gè)封裝配備四枚GPU和四個(gè)HBM堆棧——每個(gè)堆棧包含十二個(gè)混合粘接的DRAM芯片——通過(guò)微凸起垂直安裝在GPU上。與當(dāng)今2.5D方法相比,后者HBM堆疊與GPU并置于硅中介體上,Imec指出,這種3D布局有望顯著提升內(nèi)存容量和帶寬。
然而,這些優(yōu)勢(shì)也伴隨著陡峭的熱能挑戰(zhàn)。垂直堆疊增加了局部功率密度和熱阻,初步模擬顯示在真實(shí)AI工作負(fù)載下GPU峰值溫度達(dá)到141.7°C——遠(yuǎn)高于GPU和HBM的可接受極限。相比之下,在相同冷卻條件下,類似的2.5D配置峰值為69.1°C,Imec指出。
技術(shù)與系統(tǒng)級(jí)熱能策略的協(xié)同優(yōu)化
Imec的研究團(tuán)隊(duì)通過(guò)STCO方法來(lái)解決這一問(wèn)題,聯(lián)合評(píng)估技術(shù)層面和系統(tǒng)層面的減緩方案,形成全面的熱模型。該模型應(yīng)用了行業(yè)衍生的功率圖來(lái)定位熱點(diǎn),作為優(yōu)化的基線。
技術(shù)層面的杠桿包括HBM堆疊合并和硅的熱特性優(yōu)化。在系統(tǒng)層面,研究人員評(píng)估了雙面散熱和GPU頻率縮放等指標(biāo)。據(jù)imec稱,結(jié)合這些策略將峰值溫度從難以控制的141.7°C降至70.8°C——使三維架構(gòu)與當(dāng)今實(shí)用的二維解決方案保持一致。
Imec指出:“結(jié)果展示了將跨層優(yōu)化(即在所有不同抽象層共同優(yōu)化旋鈕)與廣泛技術(shù)專長(zhǎng)相結(jié)合的強(qiáng)大優(yōu)勢(shì),這種組合是imec獨(dú)有的?!?/p>
該研究標(biāo)志著首次對(duì)3D HBM與GPU集成進(jìn)行全面的熱STCO分析,強(qiáng)調(diào)了封裝、器件技術(shù)和系統(tǒng)設(shè)計(jì)的協(xié)調(diào)工程對(duì)于推動(dòng)新一代AI加速器至關(guān)重要。














評(píng)論