新聞中心

EEPW首頁 > 設(shè)計應(yīng)用 > 去中心化訓練助力解決 AI 能耗難題

去中心化訓練助力解決 AI 能耗難題

作者：時間：2026-04-09 來源：EEPW編譯

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

整合分散的算力資源，有望實現(xiàn)更節(jié)能的 AI 模型訓練

人工智能能耗需求極高，AI 熱潮背后的數(shù)據(jù)中心碳足跡龐大，前沿 AI 模型訓練的碳排放持續(xù)攀升，這一問題尤為突出。

因此，科技巨頭紛紛布局核能，期待以可靠、零碳能源支撐未來發(fā)展。但核電數(shù)據(jù)中心仍需多年才能落地，目前科研與產(chǎn)業(yè)界已采取行動遏制 AI 能耗增長。他們聚焦模型訓練這一生命周期中能耗最高的環(huán)節(jié)，推動去中心化技術(shù)落地。

去中心化將模型訓練分配至網(wǎng)絡(luò)中的獨立節(jié)點，而非依賴單一平臺或供應(yīng)商，讓算力就近匹配能源 —— 無論是實驗室閑置服務(wù)器，還是太陽能供電家庭的電腦。無需新建數(shù)據(jù)中心、擴容電網(wǎng)基礎(chǔ)設(shè)施，去中心化可復(fù)用現(xiàn)有能源，避免額外能耗。

硬件協(xié)同

AI 模型訓練是數(shù)據(jù)中心的核心任務(wù)，需在緊密連接的 GPU 集群間同步運算。但硬件升級速度難以跟上大語言模型規(guī)模的快速增長，即便超大型單一數(shù)據(jù)中心也無法滿足需求。

科技企業(yè)開始整合多地數(shù)據(jù)中心算力。例如，英偉達推出 Spectrum-XGS 以太網(wǎng)，支持跨地域組網(wǎng)，“可滿足跨地理分布數(shù)據(jù)中心的大規(guī)模單任務(wù) AI 訓練與推理性能需求”；思科推出 8223 路由器，專為 “連接地理分散的 AI 集群” 設(shè)計。

另有企業(yè)挖掘服務(wù)器閑置算力，催生 GPU 即服務(wù)商業(yè)模式。例如，Akash Network 是點對點云計算市場，自稱 “數(shù)據(jù)中心版愛彼迎”—— 辦公室與小型數(shù)據(jù)中心的閑置 GPU 持有者注冊為供應(yīng)商，有算力需求的用戶作為租戶，可選擇供應(yīng)商租賃 GPU。

Akash 聯(lián)合創(chuàng)始人兼首席執(zhí)行官格雷格?奧蘇里稱：“當前 AI 訓練高度依賴最新、最高端的 GPU，行業(yè)正從僅依賴大型高密度 GPU，轉(zhuǎn)向兼容小型 GPU。”

軟件同步

除硬件調(diào)度外，去中心化 AI 訓練還需軟件層面的算法優(yōu)化，聯(lián)邦學習（分布式機器學習的一種）應(yīng)運而生。

麻省理工學院計算機科學與人工智能實驗室（CSAIL）去中心化信息團隊負責人、首席研究科學家拉蘭娜?卡加爾解釋：“初始全局 AI 模型部署在可信節(jié)點（如中央服務(wù)器），服務(wù)器將模型分發(fā)給參與機構(gòu)，各機構(gòu)基于本地數(shù)據(jù)訓練模型，僅向可信節(jié)點上傳模型權(quán)重；可信節(jié)點對權(quán)重聚合（通常取平均值），整合至全局模型后回傳參與者。該協(xié)作訓練循環(huán)持續(xù)至模型訓練完成?！?/p>

但數(shù)據(jù)與計算分布式部署存在弊端，例如模型權(quán)重頻繁傳輸導(dǎo)致高通信成本，容錯性不足也是問題。

奧蘇里稱：“AI 訓練的核心問題是每一步都不具備容錯性，單個節(jié)點故障，需重新加載整個批次數(shù)據(jù)?！?/p>

為攻克這些難題，谷歌 DeepMind 研究人員開發(fā) DiLoCo 分布式低通信優(yōu)化算法。谷歌 DeepMind 研究科學家阿瑟?杜亞爾稱，DiLoCo 構(gòu)建 “算力孤島”，每個孤島由一組芯片組成，不同孤島芯片類型不同，同一孤島芯片類型一致。孤島相互解耦，僅定期同步信息。這種解耦設(shè)計使孤島可獨立完成訓練步驟、減少通信，單個芯片故障不會影響其他正常芯片。但實驗顯示，孤島數(shù)量超過 8 個后，模型性能會下降。

升級版流式 DiLoCo 進一步降低帶寬需求，杜亞爾稱：“通過多步驟流式同步信息，無需暫停訓練等待通信，原理類似未完全下載即可播放的視頻。流式 DiLoCo 在運算過程中，后臺逐步同步信息?！?/p>

AI 開發(fā)平臺 Prime Intellect 采用 DiLoCo 算法變體，在三大洲五個國家訓練 100 億參數(shù)的 INTELLECT-1 模型；0G Labs（去中心化 AI 操作系統(tǒng)開發(fā)商）適配 DiLoCo 算法，在帶寬有限的隔離集群網(wǎng)絡(luò)中訓練 1070 億參數(shù)基礎(chǔ)模型；主流開源深度學習框架 PyTorch 也將 DiLoCo 納入容錯技術(shù)庫。

杜亞爾稱：“社區(qū)已完成大量工程工作，將我們的 DiLoCo 論文成果集成至消費級互聯(lián)網(wǎng)環(huán)境下的系統(tǒng)學習中，我的研究能落地應(yīng)用，我非常興奮?！?/p>

更節(jié)能的 AI 訓練方式

隨著硬件與軟件優(yōu)化完善，去中心化 AI 訓練有望解決 AI 能耗問題。麻省理工學院 CSAIL 的卡加爾稱，該方法可 “以更低成本、更高效、更節(jié)能的方式訓練模型”。

杜亞爾坦言：“DiLoCo 等訓練方法復(fù)雜度更高，但實現(xiàn)了系統(tǒng)效率的合理平衡?！?例如，可利用地理跨度大的數(shù)據(jù)中心，無需搭建超高速帶寬；且具備內(nèi)置容錯性，“單個芯片故障僅影響所屬算力孤島”。

更重要的是，企業(yè)可復(fù)用現(xiàn)有閑置算力，無需持續(xù)新建高能耗數(shù)據(jù)中心。Akash 大力布局 Starcluster 項目，目標是整合太陽能供電家庭的臺式機、筆記本電腦用于 AI 模型訓練。奧蘇里稱：“我們希望將家庭轉(zhuǎn)變?yōu)楣δ芡暾臄?shù)據(jù)中心?！?/p>

奧蘇里承認，參與 Starcluster 并非易事。除太陽能板與消費級 GPU 設(shè)備外，參與者還需配備備用電源電池與冗余網(wǎng)絡(luò)，避免停機。Starcluster 項目正整合這些需求，降低家庭參與門檻，包括與行業(yè)伙伴合作補貼電池成本。

目前團隊已開展后臺開發(fā)，支持家庭作為供應(yīng)商接入 Akash Network，計劃 2027 年實現(xiàn)目標。Starcluster 項目還將拓展至學校、社區(qū)中心等太陽能供電場所。

去中心化 AI 訓練為 AI 邁向環(huán)境可持續(xù)發(fā)展提供可行路徑。奧蘇里認為，其核心價值是 “讓 AI 就近使用能源，而非將能源輸送至 AI 所在處”。

關(guān)鍵詞： 人工智能 能源

焦點

更多>>

技術(shù)專區(qū)

關(guān)閉

狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

去中心化訓練助力解決 AI 能耗難題

評論

相關(guān)推薦

技術(shù)專區(qū)