專欄中心

EEPW首頁 > 專欄 > AMD王宏強(qiáng)：700億參數(shù)大模型單個GPU部署，做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

AMD王宏強(qiáng)：700億參數(shù)大模型單個GPU部署，做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

發(fā)布人：芯東西時間：2023-10-09 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

從云到端五大產(chǎn)品線全面擁抱AI，AI正成為AMD的新大招。

編輯 | GACS9月14日-15日，2023全球AI芯片峰會（GACS 2023）在深圳市南山區(qū)圓滿舉行。在首日主題演講中的AI芯片架構(gòu)創(chuàng)新專場，AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng)分享了主題為《AMD Pervasive Al：從數(shù)據(jù)中心、邊緣、客戶端到終端，Al無所不在》的主題演講。AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng)談道，AMD在單個GPU能做到上千T的浮點(diǎn)算力規(guī)模，通過多節(jié)點(diǎn)橫向擴(kuò)展，更是能達(dá)到每秒百億億次浮點(diǎn)計算能力（EFLOPS），并提供額外的超大內(nèi)存容量及帶寬，可實(shí)現(xiàn)700億參數(shù)級大模型在單個GPU上的部署，并達(dá)到更高的TCO（總擁有成本）。王宏強(qiáng)也特別強(qiáng)調(diào)了AMD AI軟件的易用性以及強(qiáng)大的開放軟件生態(tài)的重要性，它是釋放這些創(chuàng)新硬件性能的關(guān)鍵。AMD通過統(tǒng)一AI軟件實(shí)現(xiàn)跨平臺AI部署，以開放和模塊化的方式構(gòu)建軟件解決方案，從而擁抱更高層次的抽象，并與最重要的生態(tài)系統(tǒng)（PyTorch, ONNX, HuggingFace, Open AI Trito, Open XLA等）合作對接推動開箱即用的用戶體驗(yàn)。以下為王宏強(qiáng)的演講實(shí)錄：尊敬的各位嘉賓，各位同行，下午好！我很榮幸今天有機(jī)會參加芯東西舉辦的AI峰會上，這也是AMD第一次在線下參加芯東西舉辦的AI峰會。今天我將與大家分享AI無所不在，無限可能的人工智能變革時代。人工智能領(lǐng)域正在快速變化。處理如此大量數(shù)據(jù)的計算能力對于人工智能的發(fā)揮至關(guān)重要。
01.從云到端，全產(chǎn)品線看向AI，AMD瞄準(zhǔn)1500億美元AI芯片市場

人工智能（AI）正在快速地變化、快速地發(fā)展，特別是隨著ChatGPT的推出。所以要處理如此大量的AI計算，我們需要有非常強(qiáng)大的AI處理能力硬件平臺和開放的AI軟件生態(tài)系統(tǒng)。AMD是非常專注于異構(gòu)計算的一個公司，我們將很大一部分投入放在研發(fā)處理AI的平臺上，從數(shù)據(jù)中心，邊緣，到端，這種全產(chǎn)品線的AI加速解決平臺。同時，我們也非常致力于專注發(fā)展開放的AI軟件生態(tài)系統(tǒng)。在AMD，非常有幸的是我們有很多產(chǎn)品線，我們可以為不同的市場來服務(wù)。比如說，在數(shù)據(jù)中心的云端，我們有強(qiáng)大的EPYC處理器，用我們平常說的最多的一句話是“它是比強(qiáng)者更強(qiáng)的CPU”，從96核到128核的CPU，都已經(jīng)陸續(xù)推出，它們可以用來做通用AI。

同時，我們也有MI GPU，可以用于數(shù)據(jù)中心的AI推理和訓(xùn)練。我們也有用于工業(yè)、醫(yī)療、科學(xué)、自動駕駛等應(yīng)用的嵌入式平臺。我們的客戶群非常地廣泛，有數(shù)千個嵌入式的客戶使用我們這些產(chǎn)品。我們也推出了消費(fèi)級的帶有AI功能的Ryzen AI PC端加速平臺。AMD也正是看到這些傳統(tǒng)的算法和應(yīng)用正在被人工智能所替代，特別是AIGC，它讓AI變得普遍存在，甚至在各個行業(yè)、各個應(yīng)用中都可以利用它來為我們?nèi)祟愄峁┮恍└颖憷?、更加豐富的生活，帶來更加安全的駕駛，這些都是需要AI技術(shù)和平臺來作為支撐。AI最終將變得非常普遍，無所不在，人工智能技術(shù)將會是在整個產(chǎn)業(yè)界、行業(yè)一個絕對性的大趨勢，引領(lǐng)整個社會的變革。整個AI市場，也是極速地在增長，所以它的機(jī)會是無限可能。預(yù)計到2027年，在整個AI市場中，芯片市場就將達(dá)到1500億美元，所以這也是各家企業(yè)逐鹿的一個戰(zhàn)略重地。
02.AI需求多樣化對芯片架構(gòu)提出挑戰(zhàn)，AMD推出多樣針對性架構(gòu)創(chuàng)新

隨著這些多樣化的人工智能應(yīng)用的發(fā)展，越來越明顯的是沒有一種單一的架構(gòu)或者產(chǎn)品可以去適應(yīng)所有應(yīng)用的需求。因?yàn)楦鞣N需求不一樣，有的是需要很高的計算能力，有的需要很大的內(nèi)存，有的可能需要一個更低的延時或者是更低的功耗。

比如在筆記本中，功耗就成為一個非常關(guān)鍵的因素。而在云中，有超高的算力的需求、內(nèi)存的需求，需要數(shù)千萬億次的計算來滿足計算負(fù)載。比如訓(xùn)練一些大模型，是需要上千個GPU節(jié)點(diǎn)才可能完成，這些都是需要我們提供強(qiáng)大的計算，存儲的支撐來滿足。例如自動駕駛，它對延遲的需求是非常嚴(yán)格的，比如你需要在毫秒級的時間范圍里做出一個響應(yīng)，比如對路況的判斷、有沒有行人、路標(biāo)的檢測、要做一系列決策來達(dá)到自動駕駛的安全性。這些可能需要上百TOPS的算力，同時還要求一個相對比較低的功耗。在端側(cè)，像筆記本電腦這些，對于算力能耗比很關(guān)注，電池的消耗是非常關(guān)鍵的一個因素。比如我們在Teams、Zoom上開會，就會利用筆記本電腦端側(cè)的AI功能，讓會議系統(tǒng)變得更加智能化。在AMD，我們針對這些不同的需求進(jìn)行了架構(gòu)的創(chuàng)新。一方面，我們高性能的旗艦CDNA架構(gòu)，建立在之前多代GPU的基礎(chǔ)上。業(yè)界有說道：AMD其實(shí)是中國GPU的“黃埔軍校”?？梢?，AMD在GPU上還是有很多技術(shù)上的積累和創(chuàng)新的。為行業(yè)提供最高性能的AI計算解決方案，并為最大的超級計算機(jī)提供支持，以在單個計算上適應(yīng)最大的人工智能推理工作負(fù)載。GPU它提供了一個靈活的編程模型來運(yùn)行通用workloads，單個計算節(jié)點(diǎn)或者GPU來算，我們甚至可以做到數(shù)千TOPS的能力。我們也可以橫向的擴(kuò)展，使用多個節(jié)點(diǎn)，達(dá)到千萬億次浮點(diǎn)運(yùn)算的能力。另外一方面，我們有XDNA架構(gòu)，它是基于AI引擎的處理架構(gòu)，它也是一個并行的陣列數(shù)據(jù)流處理架構(gòu)，我們有可以提供一個非常高速的、低延時的實(shí)時處理，因?yàn)樗捎玫氖菙?shù)據(jù)流的架構(gòu)來優(yōu)化。上午有同行分享到Chiplet，XDNA就是AMD產(chǎn)品線里非常重要的一個Chiplet，也是重要的一個計算單元，因?yàn)樗梢詳U(kuò)展到不同的平臺里面。比如在終端，邊緣測嵌入式器件里面，可以集成AI引擎的Chiplet。

這些平臺是基于Chiplet的架構(gòu)，所以可以根據(jù)算力需求去集成相應(yīng)數(shù)量的AI Engine，達(dá)到提供這種可擴(kuò)展計算的能力。同時，我們可以與CPU、與傳統(tǒng)FPGA還有存儲器集成在一起，做一個異構(gòu)計算平臺，來滿足各種計算的需求。甚至可以在器件里面去集成RDNA架構(gòu)的獨(dú)立的顯卡iGPU，在一個APU里面。
03.五大產(chǎn)品線多點(diǎn)出擊，700億參數(shù)大模型單個GPU部署

我們接下來就看一下基于這些架構(gòu)的產(chǎn)品示例。AMD的戰(zhàn)略，是要為業(yè)界、為同行提供最廣泛的計算產(chǎn)品的組合，以滿足人工智能這種普遍性的、多樣性的需求。在這方面，我們也取得了非常大的進(jìn)展，我們有陸續(xù)的推出這些產(chǎn)品。這些（見PPT），都是我們已經(jīng)推出來的產(chǎn)品。在數(shù)據(jù)中心，我們有基于CDNA架構(gòu)的Instinct數(shù)據(jù)中心GPU，它可以滿足AIGC，這些生成式AI的workload的訓(xùn)練或推理。EPYC處理器，有遠(yuǎn)超于同行的CPU核心數(shù)，目前我們可以達(dá)到128個核心數(shù)，這些都為通用AI提供了強(qiáng)大計算平臺。基于Radeon架構(gòu)的GPU，它可以通過AI技術(shù)增強(qiáng)游戲體驗(yàn)變得更好。Versal AI Edge產(chǎn)品系列，主要目標(biāo)市場是為嵌入式或者邊緣側(cè)的應(yīng)用。對端側(cè)的應(yīng)用，今年5月份，我們推出了Ryzen AI，這個產(chǎn)品是集成了CPU、XDNA AI Engine的IPU，還有RDNA的iGPU集成在一個異構(gòu)計算平臺里，可以用來滿足電腦市場這些AI推理的需求。這個產(chǎn)品已經(jīng)發(fā)貨，已經(jīng)有超過35個PC系列里，集成了Ryzen AI這款產(chǎn)品。接下來我們具體看一下，這些產(chǎn)品如何去滿足這些多樣化的AI市場需求。AMD的Instinct GPU主要是用在數(shù)據(jù)中心，它是專為生成式AI而設(shè)計的GPU。它將CDNA 3與業(yè)界領(lǐng)先的HBM3相結(jié)合，采用業(yè)界領(lǐng)先的2.5D/3D Chiplet結(jié)構(gòu)構(gòu)建，它提供高達(dá)數(shù)千TOPS的計算能力，并提供額外的，超大的內(nèi)存容量，我們對大模型有優(yōu)勢，因?yàn)槲覀兛梢灾苯釉趦?nèi)存中運(yùn)行更大的模型，減少所需的GPU數(shù)量顯著提高性能，尤其是推理性能。

這個產(chǎn)品可以支持700億參數(shù)的模型在單個GPU上做部署，是因?yàn)樗懈蟮膬?nèi)存容量及帶寬。業(yè)界其他的GPU不能做到700億參數(shù)的模型在同一個GPU里部署，可能需要兩個GPU來實(shí)現(xiàn)。請繼續(xù)關(guān)注，我們將在今年晚些時候分享有關(guān)該產(chǎn)品的更多信息。我們剛剛講的是在數(shù)據(jù)中心這一側(cè)。其實(shí)終端AI也在快速發(fā)生變化。今年早些時候，我們推出了Ryzen AI系列，這個產(chǎn)品是基于我們XDNA的核心引擎作為基礎(chǔ)AI推理及運(yùn)算，在一個APU封裝里面集成了CPU、iGPU。投入到市場以來，其受到業(yè)界ISV，OEM的追捧，有35個筆記本電腦已經(jīng)利用到這個產(chǎn)品來提供AI解決方案。

AMD Ryzen AI的專用AI硬件開啟個人電腦新時代，電腦首先會被AI化，Windows12即將發(fā)布，將全面基于AI（ChatGPT）技術(shù)。據(jù)行業(yè)專業(yè)人士分析：“AI將改變電腦的每一個應(yīng)用、每一個體驗(yàn)！今天買電腦，推薦買AI電腦！
04.AI不止于硬件，軟件開發(fā)和生態(tài)系統(tǒng)建設(shè)是重中之重

我們剛剛講了很多硬件相關(guān)的，與支持這些創(chuàng)新硬件的架構(gòu)創(chuàng)新一樣，我們需要強(qiáng)大的AI軟件及生態(tài)來使能發(fā)揮這些創(chuàng)新硬件們的性能。

首先AI軟件開發(fā)穩(wěn)步提高了硬件編程的抽象級別。已經(jīng)從用以前匯編或C編寫的代碼->線性代數(shù)庫或卷積庫等庫->PyTorch/TensorFlow 等框架→轉(zhuǎn)向位于框架之上的更高級別的API，獲得最佳的開箱即用體驗(yàn)。

隨著AI軟件越來越有能力釋放硬件的巨大進(jìn)步，人工智能創(chuàng)新也出現(xiàn)了巨大的加速。自2018年以來，Transformer掀起了一場革命，出現(xiàn)了諸如ChatGPT推出等分水嶺時刻。開放生態(tài)系統(tǒng)中也發(fā)生了大量此類創(chuàng)新：更大的模型、或更小的模型、模型得到微調(diào)、模型是多模式的、模型之間甚至相互交互，模型變得更加高效、模型與人類目標(biāo)保持一致，模型變得值得信賴可靠。

隨著創(chuàng)新的加速，我們既看到了挑戰(zhàn)，也看到了絕佳的機(jī)遇。我們正在以開放和模塊化的方式構(gòu)建我們的軟件解決方案，以擁抱更高層次的抽象并與開放生態(tài)系統(tǒng)緊密協(xié)作。在AMD，我們擁有三個軟件平臺：用于GPU平臺的ROCm、用于XDNA AI引擎平臺的Vitis AI以及用于EPYC CPU平臺的zenDNN。AMD正在進(jìn)行大量投資，以確保我們的客戶在從更高抽象級別進(jìn)行編譯時獲得最佳的開箱即用體驗(yàn) 。AMD也在開發(fā)統(tǒng)一的AI軟件用于AMD所有平臺，從而達(dá)到簡化使用的用戶體驗(yàn)。

我們正在這樣做，我們正在取得的巨大進(jìn)展，而且還通過與最重要的生態(tài)系統(tǒng)參與者合作，像PyTorch這樣的框架和像Hugging Face這樣的模型中心。舉個具體的例子，基于我們與PyTorch的廣泛合作，PyTorch 2.0在第0天就支持ROCm 5。與Hugging Face的合作正在幫助我們在所有AMD平臺上運(yùn)行各種AI模型。

這是我們GPU的軟件開發(fā)棧，它是在GPU上做AI開發(fā)、運(yùn)行和調(diào)整 AI模型和算法所需的一整套庫、編譯器和Runtime工具。AMD ROCm堆棧的很大一部分是開放的。我們的驅(qū)動程序、Runtime、調(diào)試器和分析器等工具以及我們的庫都是開放的。ROCm 5擁有一整套優(yōu)化，可提供具有競爭力的性能……算法和內(nèi)核（例如flashattention）、新的降低精度的數(shù)據(jù)類型，以及新興工具（例如Triton）。我們將ROCm連接到開放生態(tài)系統(tǒng)方面取得了重大進(jìn)展，包括PyTorch等框架和Hugging Face等模型中心。以幫助客戶在AMD GPU平臺上快速移植、優(yōu)化和部署其AI模型。

對用戶來講，他最關(guān)心的是從不同的GPU平臺或者說友商的GPU平臺如何遷移到AMD的GPU上？AMD提供與NVIDIA等效的庫功能，由框架調(diào)用，在框架層面開發(fā)的用戶可以獲得“即插即用”的兼容軟件體驗(yàn)。像基礎(chǔ)模型構(gòu)建者這樣高度復(fù)雜的用戶通常擁有一定數(shù)量的自定義內(nèi)核代碼，需要與AMD AI軟件工程結(jié)合進(jìn)行聯(lián)合優(yōu)化。HipiFY工具可讓您非?？焖俚貙?shí)現(xiàn)功能等效。致力于這些定制內(nèi)核的性能優(yōu)化。AMD已經(jīng)與客戶成功做到了這一點(diǎn)，并展示了在聯(lián)合優(yōu)化后達(dá)到與NVIDIA同等性能的能力。與此同時，AMD不斷優(yōu)化和改進(jìn)我們的庫。

這里是Mosaic實(shí)現(xiàn)無縫遷移至AMD GPU的成功案例，基于PyTorch 2.0和ROCm 5，ROCm直接替代CUDA，RCCL替代NCCL，Infinity Fabric替代節(jié)點(diǎn)內(nèi)的NVSwitch。從而實(shí)現(xiàn)大模型訓(xùn)練在AMD MI250加速器上開箱即用，零代碼更改和高性能。

我們來看一下AMD在的client側(cè)AI軟件解決方案。自從我們今年早些時候宣布該產(chǎn)品以來，ISV和用戶開發(fā)人員都非常希望在我們的AI平臺上開發(fā)應(yīng)用的需求為了滿足這一巨大的興趣，我們在今年早些時候與微軟Build活動中表示，我們在微軟的ONNX Runtime框架下提供我們的工具。這使得開發(fā)人員可以使用ONNX中熟悉的API進(jìn)行模型部署。現(xiàn)在我們眼見為實(shí)，我給大家演示一下在AMD GPU平臺，Ryzen AI平臺上跑各種大模型。

這是在我們MI GPU上實(shí)現(xiàn)一個Stable Diffusion的推理，可以很快地圖文生成，在毫秒級里達(dá)到這個目標(biāo)。

展示我們在Ryzen AI筆記本電腦上實(shí)現(xiàn)多個AI應(yīng)用時，提供有保證的QoS，無抖動性能。同時實(shí)現(xiàn)人臉檢測、深度估計、場景檢測。這與其他需要以分時方式共享AI計算資源的AI架構(gòu)不同。

另外，我們今天也提到，AI已經(jīng)從云到端，甚至是混合式AI。我們的解決方案，不僅可以在云上去做這些大模型，我們也可以在端側(cè)、在我們的筆記本里面去做這些大模型。這個例子就是我們用MI系列GPU，實(shí)現(xiàn)了一個700億參數(shù)的大模型，實(shí)現(xiàn)圖文生成圖文。這個是讓它寫一個有關(guān)舊金山的詩文。在我們端側(cè)，我們是跑的是OPT模型，實(shí)現(xiàn)文字生成。

我們基于Radeon架構(gòu)，不僅可以實(shí)現(xiàn)3D渲染，同時可以做AI的訓(xùn)練或者推理，快速平穩(wěn)地進(jìn)行加速。AMD會繼續(xù)地加大AI的投入，將強(qiáng)大的AI處理能力的產(chǎn)品引入云、邊緣和端，并且我們致力于與廣大AI開發(fā)者，社區(qū)一道提供開放的AI軟件生態(tài)系統(tǒng)，與廣大AI開發(fā)者、用戶，同超越，共成就。這就是我今天與各位分享的所有內(nèi)容，感謝大家寶貴的時間。以上是王宏強(qiáng)演講內(nèi)容的完整整理。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

關(guān)鍵詞： 大模型

更多 培訓(xùn)課堂

更多 焦點(diǎn)

更多視頻

狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

專欄中心

AMD王宏強(qiáng)：700億參數(shù)大模型單個GPU部署，做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

相關(guān)推薦

實(shí)操給桌面AI語音助理（大模型語音開發(fā)板）更換自定義喚醒詞

大模型+AI智能語音交互硬件開發(fā)上手建議路徑和資料匯總

大模型雙雄之爭：AI教父押谷歌會贏得最終勝利

AI大模型時代的邊云協(xié)同之EdgeXFoundry

OpenAI再度回歸“開放”賽道，一場精心布局的陽謀

DeepSeek低調(diào)發(fā)布3.2版本：曾經(jīng)的頂流大模型，如今熱度減退了？

實(shí)操給桌面AI語音助理（大模型語音開發(fā)板）更換自定義喚醒詞

中國加碼AI競賽：阿里最新千問模型逼近美國對手，月之暗面持續(xù)突破

“小顯存，大模型”國數(shù)集聯(lián)解讀如何降低AI普惠門檻

Anthropic完成大模型行業(yè)第二大規(guī)模融資

Day0首發(fā)！海光DCU高效支持智譜GLM-5大模型

實(shí)操給觸摸一體機(jī)接入大模型語音交互

詳解用大模型超擬人語音做桌面AI寵物/機(jī)器人的個性化能力

手把手教你用聆思CSK6大模型開發(fā)板接入火山引擎滿血版 DeepSeek-R1

聆思CSK6大模型語音控制風(fēng)扇（上）

詳解用大模型超擬人語音做桌面AI寵物/機(jī)器人的個性化能力

中國開源AI模型下載量首超美國，DeepSeek再出手

BOE（京東方）藍(lán)鯨顯示大模型上線行業(yè)最強(qiáng)問答系統(tǒng)

手把手教你用聆思CSK6大模型開發(fā)板接入火山引擎滿血版DeepSeek-R1

把大模型刻進(jìn)芯片，可行嗎？

技術(shù)專區(qū)

專欄中心

AMD王宏強(qiáng)：700億參數(shù)大模型單個GPU部署，做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

相關(guān)推薦

技術(shù)專區(qū)

AMD王宏強(qiáng)：700億參數(shù)大模型單個GPU部署，做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023