數(shù)據(jù)中心提高電壓以提高效率
當(dāng)今 HPC 和 AI 數(shù)據(jù)中心中使用的電源架構(gòu)即將發(fā)生重大變化,以提高能效。雖然芯片級的電壓將保持不變,但通向這些芯片的電壓將在更遠的距離內(nèi)保持較高。
這一變化對DC-DC轉(zhuǎn)換器具有廣泛的影響。現(xiàn)有架構(gòu)將交流電帶到每個機架上,將其轉(zhuǎn)換為直流電,然后分兩級將電壓降至必要的芯片電壓。新方法以為電動汽車 (EV) 市場制定的協(xié)議為藍本,將交流轉(zhuǎn)換轉(zhuǎn)移到建筑物的邊緣或一排機架的末端,并為該排中的所有機架提供比目前采用的更高的直流電壓。其結(jié)果是電流更低、損耗更低、銅更少。
這一變化發(fā)生之際,數(shù)據(jù)中心正在努力應(yīng)對不斷增長的能源需求,而且看不到盡頭?!叭斯ぶ悄?、GPU和數(shù)據(jù)中心驅(qū)動的力量正在極大地改變?nèi)藗兲幚硎挛锏姆绞?,”Ansys電子和半導(dǎo)體業(yè)務(wù)部總監(jiān)Rich Goldman說,Ansys(現(xiàn)為新思科技的一部分)?!澳阋呀?jīng)看到人們將數(shù)據(jù)中心放置在靠近能源的地步。”
今天的數(shù)據(jù)中心電源設(shè)置將交流電分配到所有機架。每個機架底部的托盤包含一個電源單元 (PSU),可將交流電轉(zhuǎn)換為標(biāo)稱 48 VDC。如有必要,一些系統(tǒng)在 54 VDC 下實施,以將電池充電至 48 V。
“電源被轉(zhuǎn)換為直流電,經(jīng)過多次轉(zhuǎn)換以降低到高性能芯片的可用電壓,”Amkor Technology 計算產(chǎn)品營銷總監(jiān) John Dinh 說。
該 48 V 為所有上層服務(wù)器以及架頂式 (ToR) 交換機供電。在每塊板上,電壓分兩級下降,驅(qū)動 MOS (DrMOS) 芯片將最終電壓帶到被供電的芯片?!暗谝患売幸粋€電源模塊,它們從 48 V 轉(zhuǎn)換為 12 V,有時轉(zhuǎn)換為 6 V,”Dinh 解釋道。“第二階段,他們將有一個額外的控制器和 DrMOS 芯片,將進一步轉(zhuǎn)換為 1 V、3 V、0.8 V 或芯片所需的任何電壓?!?/p>
由于不同的芯片可能有不同的電源電壓要求,因此第二級需要多次復(fù)制。除了必要的電壓外,DrMOS 芯片還必須提供足夠的電流。每個電源線都有一個電流限制,因此可能需要并聯(lián)多個電源線才能達到指定的電流。

圖 1:當(dāng)前高階數(shù)據(jù)中心電源架構(gòu)。交流電為每個機架底部的電源單元 (PSU) 供電,其中交流電轉(zhuǎn)換為 48 VDC(標(biāo)稱值)。每個服務(wù)器或主板上都會發(fā)生進一步的電壓降。資料來源:Bryon Moyer/Semiconductor Engineering
例如,NVIDIA 在其 Grace/Hopper 和 Grace/Blackwell 板上有許多此類芯片?!暗诙A段使用了大量的 DrMOS 芯片,”Dinh 說?!癎H200 使用 19 個 DrMOS 用于 Grace,56 個 DrMOS 用于 Hopper,而 GB200 使用 19 個 DrMOS 用于 Grace,130 個 DrMOS 用于 Blackwell。”
這說明了現(xiàn)有設(shè)置的挑戰(zhàn)?!八麄儽仨毟淖兗軜?gòu),”他說。“它不再只是在 GPU 周圍填充更多的 DrMOS。這是不可持續(xù)的。
這在精神上類似于最近幾代 DRAM 的變化,其中模塊現(xiàn)在托管自己的 PMIC,這絕非偶然?!斑@個概念就像他們在數(shù)據(jù)中心所做的那樣,”Rambus 內(nèi)存接口芯片產(chǎn)品營銷副總裁 John Eble 說。讓我們向使用點(在本例中為存儲器)提供更高的電壓和更低的電流,然后讓我們有一個電源管理 IC,它可以吸收這些電壓,然后產(chǎn)生所有必要的電壓。
1 不是第一個電壓提升
數(shù)據(jù)中心的電源架構(gòu)只有一個目的——獲取交付的交流電源,并將盡可能多的電力輸送到芯片和其他組件上。這談到了電源效率,但這種效率是相對的。早期,數(shù)據(jù)中心機架使用 12 VDC,但隨著機架功率增長到 15 kW 以上,該行業(yè)轉(zhuǎn)向 48 V。
當(dāng)時的原因與下一組擬議的更改相同。由于功率計算為 VI,因此對于給定的功率量,增加電壓會導(dǎo)致電流成比例地減少。電流量對數(shù)據(jù)中心有幾個影響。
首先,電流決定了連接電源所需的電線尺寸。今天的設(shè)置預(yù)計每個機架需要大約 200 公斤的銅來支持人工智能和其他計算密集型工作負(fù)載所需的巨大功率。通過降低電流,數(shù)據(jù)中心可以使用更少的銅布線,這是一項不小的投資。
第二個影響與給定電線中交流電線與直流電線的載流能力差異有關(guān)。集膚效應(yīng)意味著對于交流電,大部分電流在電線表面附近移動,內(nèi)部流動的電流較少。
“在系統(tǒng)層面,使用相同數(shù)量的交流銅,您可以使用直流電流提供更高的功率,”Dinh 說。僅此一項就可以通過現(xiàn)有電線提供更多電力。
但減少交流電量也可能意味著給定的電流可以在更小的電線中傳播——整根電線,而不僅僅是外邊緣。這也會導(dǎo)致更少的銅。
最后,導(dǎo)通損耗與電流成正比。這意味著減少電流可以減少損耗,從而提高效率。在盡可能多的布線中保持較高的電壓意味著將電壓降至盡可能靠近芯片的位置。這樣可以節(jié)省電力,并保持較高的電源完整性。
2 新的數(shù)據(jù)中心電源配置
現(xiàn)在,擬議的電源架構(gòu)將 PSU 移出到數(shù)據(jù)中心的外圍,或者至少移動到一排機架末端的自己的機架(有時稱為 sidecar 機架)中。
“下一代機架級計算引入了集中式電源架構(gòu),”Dinh 解釋道?!癙ower 正在擁有自己的機架。它不再只是機架底部的托盤。在這種架構(gòu)中,數(shù)千伏的交流電在數(shù)據(jù)中心外圍轉(zhuǎn)換為直流電。輸出的電壓為 800 VDC,將輸送到大廳或一排機架。
這移除了現(xiàn)在為每個機架供電的空調(diào)。相反,機架接收到高直流電壓,然后在負(fù)載附近的板上分多個階段將其降至芯片所需的電壓。

圖2:新的數(shù)據(jù)中心電源架構(gòu)。交流電轉(zhuǎn)換為 800 VDC,要么在建筑物邊緣附近,要么在機架末端。然后,高壓會下降到它供電的芯片附近,從而減少沿途的損耗。資料來源:Bryon Moyer/Semiconductor Engineering
這種設(shè)置稱為高壓直流電 (HVDC),并利用了電動汽車充電器所做的一些工作?!坝捎陔妱悠嚦潆娂夹g(shù),這種設(shè)置更便宜并且可以部署,”Dinh 指出。“數(shù)據(jù)中心向高壓直流輸電的過渡恰好與電動汽車充電基礎(chǔ)設(shè)施的增長相交。”
800 V 并不是神圣不可侵犯的,有些人認(rèn)為 400 V 是一個更容易實現(xiàn)的數(shù)字。但 NVIDIA 已經(jīng)公開表示,其 Kyber 機架架構(gòu)將于 2027 年上市,將采用 800 V 設(shè)置和邊車機架來容納 PSU 和冷卻基礎(chǔ)設(shè)施。
當(dāng)然,這將導(dǎo)致每個建筑物或每行一次交流到直流轉(zhuǎn)換,而不是每個機架一次。在現(xiàn)有設(shè)置中,如果一個 PSU 出現(xiàn)故障,它只會關(guān)閉一個機架。如果新的 PSU 出現(xiàn)故障,它會關(guān)閉更多?!案俚慕M件可能會造成單點故障。為了解決這個問題,他們必須提供冗余,“Dinh 補充道。
3 功率 FET 和電源完整性
今天的安排意味著從 PSU 降低電壓的半導(dǎo)體必須能夠支持超過 50 V 的電壓。這與即將推出的 800 V 電壓相去甚遠,后者將需要高壓半導(dǎo)體。這應(yīng)該會增加對 SiC 晶體管的需求,SiC 晶體管可以比硅和 GaN 更好地處理高電壓。實際上,現(xiàn)在針對電動汽車的一些設(shè)計應(yīng)該具有適應(yīng)性,從而簡化過渡。
“我們看到對功率器件的要求激增,”Ansys產(chǎn)品營銷總監(jiān)Marc Swinnen說。“功率 FET 無處不在。需要切換的功率如此之大,以至于需要一個功率 FET。
對于此類芯片,對電源完整性驗證的需求變得更加強烈,因為設(shè)計參數(shù)的微小變化可能會產(chǎn)生很大的不同。
“有一些專門設(shè)計的特定工具可以非常詳細地分析功率晶體管,”Swinnen 說?!八麄兪褂?2D 網(wǎng)格劃分,因為它們承載的功率太大,以至于電阻 RDSon,是最重要的參數(shù)。The RDSon必須非常準(zhǔn)確地計算,并且您希望準(zhǔn)確確定電壓降的位置,這樣就沒有熱點,過多的電壓下降在拐角或其他地方并導(dǎo)致局部發(fā)熱。這不是僅使用 RC 的傳統(tǒng)電源完整性分析。
溫度在這里起著重要作用,因為它可以激發(fā)正反饋循環(huán)?!肮β释ǔJ菬崮艿拇恚盨winnen 繼續(xù)說道。“當(dāng)人們說,'我擔(dān)心電力'時,他們真正擔(dān)心的是它會變得太熱。還有反饋,因為芯片產(chǎn)生的功率取決于其溫度。因此,較熱的芯片會消耗更多功率。當(dāng)然,更大的功率意味著更熱的芯片。這是先有雞還是先有蛋的事情。
并非每個數(shù)據(jù)中心都出現(xiàn)考慮到目前正在運行的數(shù)據(jù)中心的數(shù)量,將它們?nèi)哭D(zhuǎn)換為這種新架構(gòu)是令人望而卻步的。這既不切實際又沒有必要。很少有工作負(fù)載需要這種架構(gòu)提供的那種能力。相反,由于推斷了未來 AI 工作負(fù)載預(yù)計需要的那種能力,它已成為一個問題。人工智能和高性能計算 (HPC) 以外的應(yīng)用程序可以在當(dāng)前基礎(chǔ)設(shè)施上繼續(xù)使用。
與此同時,供電基礎(chǔ)設(shè)施(電氣和機械)的制造商正在準(zhǔn)備支持這種架構(gòu)。NVIDIA 的承諾消除了一些風(fēng)險,預(yù)計將在幾年內(nèi)安裝。
(本文登于《EEPW》202511期)











評論