英偉達幾乎完成了通過收購Slurm的控制狂潮

我們一直覺得很有趣的是,任何人都可以控制開源項目。但這確實會發(fā)生,因為歸根結底,人們需要靠工資生活,而某個公司必須開除這些支票。
有時,開源項目的支持源于利他主義和開明的自利,比如Linux內(nèi)核需要加固和擴展,成為現(xiàn)代計算中事實上的類Unix作系統(tǒng)。但企業(yè)和其他類型的計算組織通常不愿意為這類開源項目做自我支持,這也是為什么通常有商業(yè)實體在項目背后,將所有內(nèi)容整合成產(chǎn)品并為其提供技術支持。紅帽企業(yè)Linux,以及在一定程度上的SUSE Linux、CoreOS(現(xiàn)為紅帽的一部分,并成為其OpenShift Kubernetes容器控制系統(tǒng)的基礎)、CentOS(被紅帽吸收并促成了Rocky Linux的誕生)和Canonical Ubuntu,都是獲得商業(yè)支持Linux的常見途徑。云端通常有自己的Linux發(fā)行版,甚至Nvidia也有專門針對其AI系統(tǒng)的Ubuntu版本,盡管其他發(fā)行版也支持集成Nvidia驅(qū)動。
近年來,英偉達更關注其系統(tǒng)集群的控制方式,而非任何特定節(jié)點的底層作系統(tǒng),這也是為什么英偉達在2022年1月支付了未知金額收購了Bright Computing(Bright Cluster Manager的制造商)。當時,Bright Computing通過兩輪融資籌集了1650萬美元,全球有超過700家組織使用其集群管理工具。該工具最初用于管理傳統(tǒng)高性能計算系統(tǒng),但多年來已被改裝用于控制Hadoop、Spark、OpenStack、Kubernetes和VMware ESX分布式系統(tǒng),旨在使BCM成為一種通用集群控制器。
收購后,英偉達將該工具更名為Base Command Manager,并將其集成到AI企業(yè)軟件棧中,這意味著其技術支持通過AI企業(yè)許可獲得了Nvidia在其GPU加速系統(tǒng)上捆綁支持的庫、框架及其他工具,每塊GPU每年成本為4500美元。
現(xiàn)在的樣子如下:

英偉達表示,目前全球已有數(shù)千個安裝,這大概還不包括公司免費提供的BCM許可證,這些許可證用于管理每節(jié)點8個或更少GPU的集群,且規(guī)模不等。Nvidia警告稱,這個免費使用的許可證沒有任何技術支持,隨時可能被撤銷。企業(yè)通常不會愿意把這件事押注給公司。
英偉達有一個名為Mission Control的BCM覆蓋層,它自動化部署構成其所謂的AI工廠的框架、工具和模型,AI工廠以咬嚼或制造代幣為生。Mission Control 包含 Run.ai 實現(xiàn)的 Kubernetes 用于容器編排,以及 Docker 用于在容器內(nèi)運行計算,并且還能虛擬化 GPU,提供更細的計算細度。任務控制中心對系統(tǒng)進行健康檢查,并幫助優(yōu)化能耗以適應系統(tǒng)工作負載。
但在裸機工作負載管理方面,無論是高性能計算還是人工智能工作負載,Nvidia仍然需要一個工具。事實證明,BCM是進行這些健康檢查的工具,繞過問題的作是通過Slurm工作負載管理器完成的。在英偉達收購Bright Computing之前的幾年里,BCM支持不同的工作負載管理器,但隨著Slurm成為高性能計算中心和AI精英的事實標準,它被選為Bright Cluster Manager的默認工作負載管理器,并在過去四年里一直作為Nvidia Base Command Manager的默認使用。

這似乎意味著許多高性能計算和人工智能公司不想學習新東西——那是很 Run.ai 不錯的——而更愿意繼續(xù)使用Slurm,謝謝。這對那些最初作為高性能計算中心起步的混合人工智能/高性能計算中心尤其如此。
正如你所料,作為全球最重要的IT供應商,英偉達本身也有點控制狂。2024年10月,英偉達停止將Bright Cluster Manager作為獨立工具銷售,僅將其作為AI企業(yè)堆棧的一部分提供。目前尚不清楚 AI Enterprise 是否比 Bright Cluster Manager 的獨立許可證更貴或更便宜,或者有多少客戶在僅支持CPU的系統(tǒng)或其他類型的加速器上使用該早期工具。
這就引出了Nvidia收購SchedMD,該公司已向全球數(shù)百家高性能計算中心、云構建者、超大規(guī)?;髽I(yè)和企業(yè)銷售了Slurm工作負載管理器的支持。
Slurm項目始于2001年,是勞倫斯利弗莫爾國家實驗室、Linux NetworX(被SGI吞并)、惠普(舊的,不是新的,后者吞并了SGI和Cray)和Groupe Bull(被Atos吞并以制造Eviden)合作完成的項目。2010年,項目的兩位創(chuàng)始人Morris Jette和Danny Auble創(chuàng)立了SchedMD,旨在為Slurm提供技術支持,從而資助工作負載管理器的進一步開發(fā)。
據(jù)說Slurm的靈感來自超級計算機互聯(lián)制造商Quadrics開發(fā)的RMS集群資源管理器。關于Slurm最重要的一點是,過去十年中出現(xiàn)在該排名中的Top500超級計算機中,大約有60%(代表數(shù)千臺機器)使用Slurm作為工作負載管理器,而非IBM/Platform Computing的負載共享設施(LSF)、Altair的便攜批處理系統(tǒng)(PBS)、Adaptive Computing的Maui和Moab, 以及Sun/Univa網(wǎng)格引擎。所有這些工作負載管理器/作業(yè)調(diào)度員都會收集一組具有特定計算能力需求的工作負載,逐步調(diào)整,讓它們按計劃運行,以盡可能高效地根據(jù)優(yōu)先級排序完成任務。
Nvidia和SchedMD在過去十年一直合作開發(fā)Slurm,但兩人在聯(lián)合公告中并未多言,不過Nvidia表示將“繼續(xù)開發(fā)和分發(fā)Slurm作為開源、供應商中立的軟件,使其廣泛面向更廣泛的高性能計算和人工智能社區(qū),涵蓋各種硬件和軟件環(huán)境。”
但僅僅因為 Slurm 將是開源的,并不意味著 Nvidia 會支持該代碼的開源版本,或者將所有未來的 Slurm 功能都開放為開源。(英偉達確實有很多專有驅(qū)動、框架和算法。)英偉達已同意為SchedMD現(xiàn)有客戶提供支持,推測他們會通過聘請SchedMD的員工來實現(xiàn)這一點。
目前尚不清楚的是,Run.ai 和Slurm的功能將如何與Base Control Manager結合,提供一個從上到下的集群和工作負載管理工具,適用于高性能計算(HPC)和人工智能集群——不僅適用于AI集群,還假設許多集群中會有一些純CPU設備以及非Nvidia加速器。希望不僅Slurm代碼能保持開放,支持矩陣也會更廣泛。
如果英偉達試圖以任何方式限制它,有人可以拿取Slurm代碼(該代碼以GNU GPL v2.0許可證提供),分叉后繼續(xù)使用。
那么,下一個問題:英偉達現(xiàn)在是否也需要將自己的商業(yè)Kubernetes編織進AI企業(yè)技術棧?Mirantis拆解了OpenStack云控制器并放入容器,并創(chuàng)建了自己的Kubernetes實現(xiàn),已經(jīng)在Nvidia方面做了大量失落的工作,包括在BlueField DPU上集成Kubernetes。











評論