去中心化訓練助力解決 AI 能耗難題
整合分散的算力資源,有望實現(xiàn)更節(jié)能的 AI 模型訓練
人工智能能耗需求極高,AI 熱潮背后的數(shù)據(jù)中心碳足跡龐大,前沿 AI 模型訓練的碳排放持續(xù)攀升,這一問題尤為突出。
因此,科技巨頭紛紛布局核能,期待以可靠、零碳能源支撐未來發(fā)展。但核電數(shù)據(jù)中心仍需多年才能落地,目前科研與產(chǎn)業(yè)界已采取行動遏制 AI 能耗增長。他們聚焦模型訓練這一生命周期中能耗最高的環(huán)節(jié),推動去中心化技術(shù)落地。
去中心化將模型訓練分配至網(wǎng)絡(luò)中的獨立節(jié)點,而非依賴單一平臺或供應(yīng)商,讓算力就近匹配能源 —— 無論是實驗室閑置服務(wù)器,還是太陽能供電家庭的電腦。無需新建數(shù)據(jù)中心、擴容電網(wǎng)基礎(chǔ)設(shè)施,去中心化可復(fù)用現(xiàn)有能源,避免額外能耗。
硬件協(xié)同
AI 模型訓練是數(shù)據(jù)中心的核心任務(wù),需在緊密連接的 GPU 集群間同步運算。但硬件升級速度難以跟上大語言模型規(guī)模的快速增長,即便超大型單一數(shù)據(jù)中心也無法滿足需求。
科技企業(yè)開始整合多地數(shù)據(jù)中心算力。例如,英偉達推出 Spectrum-XGS 以太網(wǎng),支持跨地域組網(wǎng),“可滿足跨地理分布數(shù)據(jù)中心的大規(guī)模單任務(wù) AI 訓練與推理性能需求”;思科推出 8223 路由器,專為 “連接地理分散的 AI 集群” 設(shè)計。
另有企業(yè)挖掘服務(wù)器閑置算力,催生 GPU 即服務(wù)商業(yè)模式。例如,Akash Network 是點對點云計算市場,自稱 “數(shù)據(jù)中心版愛彼迎”—— 辦公室與小型數(shù)據(jù)中心的閑置 GPU 持有者注冊為供應(yīng)商,有算力需求的用戶作為租戶,可選擇供應(yīng)商租賃 GPU。
Akash 聯(lián)合創(chuàng)始人兼首席執(zhí)行官格雷格?奧蘇里稱:“當前 AI 訓練高度依賴最新、最高端的 GPU,行業(yè)正從僅依賴大型高密度 GPU,轉(zhuǎn)向兼容小型 GPU。”
軟件同步
除硬件調(diào)度外,去中心化 AI 訓練還需軟件層面的算法優(yōu)化,聯(lián)邦學習(分布式機器學習的一種)應(yīng)運而生。
麻省理工學院計算機科學與人工智能實驗室(CSAIL)去中心化信息團隊負責人、首席研究科學家拉蘭娜?卡加爾解釋:“初始全局 AI 模型部署在可信節(jié)點(如中央服務(wù)器),服務(wù)器將模型分發(fā)給參與機構(gòu),各機構(gòu)基于本地數(shù)據(jù)訓練模型,僅向可信節(jié)點上傳模型權(quán)重;可信節(jié)點對權(quán)重聚合(通常取平均值),整合至全局模型后回傳參與者。該協(xié)作訓練循環(huán)持續(xù)至模型訓練完成?!?/p>
但數(shù)據(jù)與計算分布式部署存在弊端,例如模型權(quán)重頻繁傳輸導(dǎo)致高通信成本,容錯性不足也是問題。
奧蘇里稱:“AI 訓練的核心問題是每一步都不具備容錯性,單個節(jié)點故障,需重新加載整個批次數(shù)據(jù)?!?/p>
為攻克這些難題,谷歌 DeepMind 研究人員開發(fā) DiLoCo 分布式低通信優(yōu)化算法。谷歌 DeepMind 研究科學家阿瑟?杜亞爾稱,DiLoCo 構(gòu)建 “算力孤島”,每個孤島由一組芯片組成,不同孤島芯片類型不同,同一孤島芯片類型一致。孤島相互解耦,僅定期同步信息。這種解耦設(shè)計使孤島可獨立完成訓練步驟、減少通信,單個芯片故障不會影響其他正常芯片。但實驗顯示,孤島數(shù)量超過 8 個后,模型性能會下降。
升級版流式 DiLoCo 進一步降低帶寬需求,杜亞爾稱:“通過多步驟流式同步信息,無需暫停訓練等待通信,原理類似未完全下載即可播放的視頻。流式 DiLoCo 在運算過程中,后臺逐步同步信息?!?/p>
AI 開發(fā)平臺 Prime Intellect 采用 DiLoCo 算法變體,在三大洲五個國家訓練 100 億參數(shù)的 INTELLECT-1 模型;0G Labs(去中心化 AI 操作系統(tǒng)開發(fā)商)適配 DiLoCo 算法,在帶寬有限的隔離集群網(wǎng)絡(luò)中訓練 1070 億參數(shù)基礎(chǔ)模型;主流開源深度學習框架 PyTorch 也將 DiLoCo 納入容錯技術(shù)庫。
杜亞爾稱:“社區(qū)已完成大量工程工作,將我們的 DiLoCo 論文成果集成至消費級互聯(lián)網(wǎng)環(huán)境下的系統(tǒng)學習中,我的研究能落地應(yīng)用,我非常興奮?!?/p>
更節(jié)能的 AI 訓練方式
隨著硬件與軟件優(yōu)化完善,去中心化 AI 訓練有望解決 AI 能耗問題。麻省理工學院 CSAIL 的卡加爾稱,該方法可 “以更低成本、更高效、更節(jié)能的方式訓練模型”。
杜亞爾坦言:“DiLoCo 等訓練方法復(fù)雜度更高,但實現(xiàn)了系統(tǒng)效率的合理平衡?!?例如,可利用地理跨度大的數(shù)據(jù)中心,無需搭建超高速帶寬;且具備內(nèi)置容錯性,“單個芯片故障僅影響所屬算力孤島”。
更重要的是,企業(yè)可復(fù)用現(xiàn)有閑置算力,無需持續(xù)新建高能耗數(shù)據(jù)中心。Akash 大力布局 Starcluster 項目,目標是整合太陽能供電家庭的臺式機、筆記本電腦用于 AI 模型訓練。奧蘇里稱:“我們希望將家庭轉(zhuǎn)變?yōu)楣δ芡暾臄?shù)據(jù)中心?!?/p>
奧蘇里承認,參與 Starcluster 并非易事。除太陽能板與消費級 GPU 設(shè)備外,參與者還需配備備用電源電池與冗余網(wǎng)絡(luò),避免停機。Starcluster 項目正整合這些需求,降低家庭參與門檻,包括與行業(yè)伙伴合作補貼電池成本。
目前團隊已開展后臺開發(fā),支持家庭作為供應(yīng)商接入 Akash Network,計劃 2027 年實現(xiàn)目標。Starcluster 項目還將拓展至學校、社區(qū)中心等太陽能供電場所。
去中心化 AI 訓練為 AI 邁向環(huán)境可持續(xù)發(fā)展提供可行路徑。奧蘇里認為,其核心價值是 “讓 AI 就近使用能源,而非將能源輸送至 AI 所在處”。











評論