新聞中心

EEPW首頁 > 智能計算 > 市場分析 > 英偉達幾乎完成了通過收購Slurm的控制狂潮

英偉達幾乎完成了通過收購Slurm的控制狂潮

作者：時間：2026-01-23 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

我們一直覺得很有趣的是，任何人都可以控制開源項目。但這確實會發(fā)生，因為歸根結底，人們需要靠工資生活，而某個公司必須開除這些支票。

有時，開源項目的支持源于利他主義和開明的自利，比如Linux內(nèi)核需要加固和擴展，成為現(xiàn)代計算中事實上的類Unix作系統(tǒng)。但企業(yè)和其他類型的計算組織通常不愿意為這類開源項目做自我支持，這也是為什么通常有商業(yè)實體在項目背后，將所有內(nèi)容整合成產(chǎn)品并為其提供技術支持。紅帽企業(yè)Linux，以及在一定程度上的SUSE Linux、CoreOS（現(xiàn)為紅帽的一部分，并成為其OpenShift Kubernetes容器控制系統(tǒng)的基礎）、CentOS（被紅帽吸收并促成了Rocky Linux的誕生）和Canonical Ubuntu，都是獲得商業(yè)支持Linux的常見途徑。云端通常有自己的Linux發(fā)行版，甚至Nvidia也有專門針對其AI系統(tǒng)的Ubuntu版本，盡管其他發(fā)行版也支持集成Nvidia驅(qū)動。

近年來，英偉達更關注其系統(tǒng)集群的控制方式，而非任何特定節(jié)點的底層作系統(tǒng)，這也是為什么英偉達在2022年1月支付了未知金額收購了Bright Computing（Bright Cluster Manager的制造商）。當時，Bright Computing通過兩輪融資籌集了1650萬美元，全球有超過700家組織使用其集群管理工具。該工具最初用于管理傳統(tǒng)高性能計算系統(tǒng)，但多年來已被改裝用于控制Hadoop、Spark、OpenStack、Kubernetes和VMware ESX分布式系統(tǒng)，旨在使BCM成為一種通用集群控制器。

收購后，英偉達將該工具更名為Base Command Manager，并將其集成到AI企業(yè)軟件棧中，這意味著其技術支持通過AI企業(yè)許可獲得了Nvidia在其GPU加速系統(tǒng)上捆綁支持的庫、框架及其他工具，每塊GPU每年成本為4500美元。

現(xiàn)在的樣子如下：

英偉達表示，目前全球已有數(shù)千個安裝，這大概還不包括公司免費提供的BCM許可證，這些許可證用于管理每節(jié)點8個或更少GPU的集群，且規(guī)模不等。Nvidia警告稱，這個免費使用的許可證沒有任何技術支持，隨時可能被撤銷。企業(yè)通常不會愿意把這件事押注給公司。

英偉達有一個名為Mission Control的BCM覆蓋層，它自動化部署構成其所謂的AI工廠的框架、工具和模型，AI工廠以咬嚼或制造代幣為生。Mission Control 包含 Run.ai 實現(xiàn)的 Kubernetes 用于容器編排，以及 Docker 用于在容器內(nèi)運行計算，并且還能虛擬化 GPU，提供更細的計算細度。任務控制中心對系統(tǒng)進行健康檢查，并幫助優(yōu)化能耗以適應系統(tǒng)工作負載。

但在裸機工作負載管理方面，無論是高性能計算還是人工智能工作負載，Nvidia仍然需要一個工具。事實證明，BCM是進行這些健康檢查的工具，繞過問題的作是通過Slurm工作負載管理器完成的。在英偉達收購Bright Computing之前的幾年里，BCM支持不同的工作負載管理器，但隨著Slurm成為高性能計算中心和AI精英的事實標準，它被選為Bright Cluster Manager的默認工作負載管理器，并在過去四年里一直作為Nvidia Base Command Manager的默認使用。

這似乎意味著許多高性能計算和人工智能公司不想學習新東西——那是很 Run.ai 不錯的——而更愿意繼續(xù)使用Slurm，謝謝。這對那些最初作為高性能計算中心起步的混合人工智能/高性能計算中心尤其如此。

正如你所料，作為全球最重要的IT供應商，英偉達本身也有點控制狂。2024年10月，英偉達停止將Bright Cluster Manager作為獨立工具銷售，僅將其作為AI企業(yè)堆棧的一部分提供。目前尚不清楚 AI Enterprise 是否比 Bright Cluster Manager 的獨立許可證更貴或更便宜，或者有多少客戶在僅支持CPU的系統(tǒng)或其他類型的加速器上使用該早期工具。

這就引出了Nvidia收購SchedMD，該公司已向全球數(shù)百家高性能計算中心、云構建者、超大規(guī)?；髽I(yè)和企業(yè)銷售了Slurm工作負載管理器的支持。

Slurm項目始于2001年，是勞倫斯利弗莫爾國家實驗室、Linux NetworX（被SGI吞并）、惠普（舊的，不是新的，后者吞并了SGI和Cray）和Groupe Bull（被Atos吞并以制造Eviden）合作完成的項目。2010年，項目的兩位創(chuàng)始人Morris Jette和Danny Auble創(chuàng)立了SchedMD，旨在為Slurm提供技術支持，從而資助工作負載管理器的進一步開發(fā)。

據(jù)說Slurm的靈感來自超級計算機互聯(lián)制造商Quadrics開發(fā)的RMS集群資源管理器。關于Slurm最重要的一點是，過去十年中出現(xiàn)在該排名中的Top500超級計算機中，大約有60%（代表數(shù)千臺機器）使用Slurm作為工作負載管理器，而非IBM/Platform Computing的負載共享設施（LSF）、Altair的便攜批處理系統(tǒng)（PBS）、Adaptive Computing的Maui和Moab，以及Sun/Univa網(wǎng)格引擎。所有這些工作負載管理器/作業(yè)調(diào)度員都會收集一組具有特定計算能力需求的工作負載，逐步調(diào)整，讓它們按計劃運行，以盡可能高效地根據(jù)優(yōu)先級排序完成任務。

Nvidia和SchedMD在過去十年一直合作開發(fā)Slurm，但兩人在聯(lián)合公告中并未多言，不過Nvidia表示將“繼續(xù)開發(fā)和分發(fā)Slurm作為開源、供應商中立的軟件，使其廣泛面向更廣泛的高性能計算和人工智能社區(qū)，涵蓋各種硬件和軟件環(huán)境。”

但僅僅因為 Slurm 將是開源的，并不意味著 Nvidia 會支持該代碼的開源版本，或者將所有未來的 Slurm 功能都開放為開源。（英偉達確實有很多專有驅(qū)動、框架和算法。）英偉達已同意為SchedMD現(xiàn)有客戶提供支持，推測他們會通過聘請SchedMD的員工來實現(xiàn)這一點。

目前尚不清楚的是，Run.ai 和Slurm的功能將如何與Base Control Manager結合，提供一個從上到下的集群和工作負載管理工具，適用于高性能計算（HPC）和人工智能集群——不僅適用于AI集群，還假設許多集群中會有一些純CPU設備以及非Nvidia加速器。希望不僅Slurm代碼能保持開放，支持矩陣也會更廣泛。

如果英偉達試圖以任何方式限制它，有人可以拿取Slurm代碼（該代碼以GNU GPL v2.0許可證提供），分叉后繼續(xù)使用。

那么，下一個問題：英偉達現(xiàn)在是否也需要將自己的商業(yè)Kubernetes編織進AI企業(yè)技術棧？Mirantis拆解了OpenStack云控制器并放入容器，并創(chuàng)建了自己的Kubernetes實現(xiàn)，已經(jīng)在Nvidia方面做了大量失落的工作，包括在BlueField DPU上集成Kubernetes。