英偉達(dá)與Ineffable Intelligence合作共建強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施
英偉達(dá)官宣與倫敦AI實(shí)驗(yàn)室Ineffable Intelligence達(dá)成技術(shù)合作,雙方將聯(lián)合研發(fā)強(qiáng)化學(xué)習(xí)專用基礎(chǔ)設(shè)施,為高階人工智能研發(fā)搭建底層技術(shù)框架。這家新晉AI實(shí)驗(yàn)室由AlphaGo核心研發(fā)人員David Silver創(chuàng)辦,近期剛結(jié)束封閉研發(fā)階段、正式對(duì)外公開。
英偉達(dá)CEO黃仁勛提出,AI下一階段的發(fā)展核心是具備持續(xù)經(jīng)驗(yàn)學(xué)習(xí)能力的智能體。本次合作將針對(duì)性優(yōu)化大規(guī)模強(qiáng)化學(xué)習(xí)底層架構(gòu),助力新一代智能系統(tǒng)技術(shù)迭代。作為強(qiáng)化學(xué)習(xí)領(lǐng)域資深研究者,David Silver正推動(dòng)該技術(shù)形成全新AI研發(fā)范式。
David Silver表示,目前AI 已可學(xué)習(xí)并復(fù)用人類現(xiàn)有知識(shí),而行業(yè)下一難點(diǎn),是研發(fā)可自主積累、探索新知識(shí)的智能模型,這類模型依托實(shí)踐經(jīng)驗(yàn)完成自我迭代學(xué)習(xí)。
從技術(shù)層面來看,強(qiáng)化學(xué)習(xí)的運(yùn)行邏輯區(qū)別于傳統(tǒng)模型預(yù)訓(xùn)練。傳統(tǒng)預(yù)訓(xùn)練依托固定數(shù)據(jù)集完成訓(xùn)練,而強(qiáng)化學(xué)習(xí)可實(shí)時(shí)生成訓(xùn)練數(shù)據(jù),持續(xù)循環(huán)完成動(dòng)作執(zhí)行、狀態(tài)監(jiān)測(cè)、效果評(píng)估以及參數(shù)迭代。該工作負(fù)載對(duì)芯片互連傳輸、內(nèi)存帶寬、任務(wù)調(diào)度性能要求更高;且訓(xùn)練數(shù)據(jù)區(qū)別于常規(guī)人類語言數(shù)據(jù),需要定制專屬模型架構(gòu)與訓(xùn)練算法。
兩家企業(yè)工程團(tuán)隊(duì)將共同研發(fā)適配規(guī)?;\(yùn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練鏈路。本次合作將基于英偉達(dá)Grace Blackwell平臺(tái)開展研發(fā)工作,同時(shí)優(yōu)先適配尚未發(fā)布的Vera Rubin平臺(tái)。雙方意在搭建新一代軟硬件體系,降低AI對(duì)現(xiàn)有人類數(shù)據(jù)的依賴,適配仿真訓(xùn)練、經(jīng)驗(yàn)自主迭代的研發(fā)趨勢(shì)。
這套專用基礎(chǔ)設(shè)施落地后,可支撐強(qiáng)化學(xué)習(xí)模型在復(fù)雜場(chǎng)景中規(guī)模化運(yùn)行,推動(dòng)智能體在多領(lǐng)域?qū)崿F(xiàn)技術(shù)創(chuàng)新。


評(píng)論