"); //-->

狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

專欄中心

EEPW首頁 > 專欄 > AMD王宏強(qiáng):700億參數(shù)大模型單個GPU部署,做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

AMD王宏強(qiáng):700億參數(shù)大模型單個GPU部署,做好AI軟件和生態(tài)實(shí)現(xiàn)“開箱即用”丨GACS 2023

發(fā)布人:芯東西 時間:2023-10-09 來源:工程師 發(fā)布文章
從云到端五大產(chǎn)品線全面擁抱AI,AI正成為AMD的新大招。

編輯 |  GACS9月14日-15日,2023全球AI芯片峰會(GACS 2023)在深圳市南山區(qū)圓滿舉行。在首日主題演講中的AI芯片架構(gòu)創(chuàng)新專場,AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng)分享了主題為《AMD Pervasive Al:從數(shù)據(jù)中心、邊緣、客戶端到終端,Al無所不在》的主題演講。AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng)談道,AMD在單個GPU能做到上千T的浮點(diǎn)算力規(guī)模,通過多節(jié)點(diǎn)橫向擴(kuò)展,更是能達(dá)到每秒百億億次浮點(diǎn)計算能力(EFLOPS),并提供額外的超大內(nèi)存容量及帶寬,可實(shí)現(xiàn)700億參數(shù)級大模型在單個GPU上的部署,并達(dá)到更高的TCO(總擁有成本)。王宏強(qiáng)也特別強(qiáng)調(diào)了AMD AI軟件的易用性以及強(qiáng)大的開放軟件生態(tài)的重要性,它是釋放這些創(chuàng)新硬件性能的關(guān)鍵。AMD通過統(tǒng)一AI軟件實(shí)現(xiàn)跨平臺AI部署,以開放和模塊化的方式構(gòu)建軟件解決方案,從而擁抱更高層次的抽象,并與最重要的生態(tài)系統(tǒng)(PyTorch, ONNX, HuggingFace, Open AI Trito, Open XLA等)合作對接推動開箱即用的用戶體驗(yàn)。以下為王宏強(qiáng)的演講實(shí)錄:尊敬的各位嘉賓,各位同行,下午好!我很榮幸今天有機(jī)會參加芯東西舉辦的AI峰會上,這也是AMD第一次在線下參加芯東西舉辦的AI峰會。今天我將與大家分享AI無所不在,無限可能的人工智能變革時代。人工智能領(lǐng)域正在快速變化。處理如此大量數(shù)據(jù)的計算能力對于人工智能的發(fā)揮至關(guān)重要。
01.從云到端,全產(chǎn)品線看向AI,AMD瞄準(zhǔn)1500億美元AI芯片市場


人工智能(AI)正在快速地變化、快速地發(fā)展,特別是隨著ChatGPT的推出。所以要處理如此大量的AI計算,我們需要有非常強(qiáng)大的AI處理能力硬件平臺和開放的AI軟件生態(tài)系統(tǒng)。AMD是非常專注于異構(gòu)計算的一個公司,我們將很大一部分投入放在研發(fā)處理AI的平臺上,從數(shù)據(jù)中心,邊緣,到端,這種全產(chǎn)品線的AI加速解決平臺。同時,我們也非常致力于專注發(fā)展開放的AI軟件生態(tài)系統(tǒng)。在AMD,非常有幸的是我們有很多產(chǎn)品線,我們可以為不同的市場來服務(wù)。比如說,在數(shù)據(jù)中心的云端,我們有強(qiáng)大的EPYC處理器,用我們平常說的最多的一句話是“它是比強(qiáng)者更強(qiáng)的CPU”,從96核到128核的CPU,都已經(jīng)陸續(xù)推出,它們可以用來做通用AI。

同時,我們也有MI GPU,可以用于數(shù)據(jù)中心的AI推理和訓(xùn)練。我們也有用于工業(yè)、醫(yī)療、科學(xué)、自動駕駛等應(yīng)用的嵌入式平臺。我們的客戶群非常地廣泛,有數(shù)千個嵌入式的客戶使用我們這些產(chǎn)品。我們也推出了消費(fèi)級的帶有AI功能的Ryzen AI PC端加速平臺。AMD也正是看到這些傳統(tǒng)的算法和應(yīng)用正在被人工智能所替代,特別是AIGC,它讓AI變得普遍存在,甚至在各個行業(yè)、各個應(yīng)用中都可以利用它來為我們?nèi)祟愄峁┮恍└颖憷?、更加豐富的生活,帶來更加安全的駕駛,這些都是需要AI技術(shù)和平臺來作為支撐。AI最終將變得非常普遍,無所不在,人工智能技術(shù)將會是在整個產(chǎn)業(yè)界、行業(yè)一個絕對性的大趨勢,引領(lǐng)整個社會的變革。整個AI市場,也是極速地在增長,所以它的機(jī)會是無限可能。預(yù)計到2027年,在整個AI市場中,芯片市場就將達(dá)到1500億美元,所以這也是各家企業(yè)逐鹿的一個戰(zhàn)略重地。
02.AI需求多樣化對芯片架構(gòu)提出挑戰(zhàn),AMD推出多樣針對性架構(gòu)創(chuàng)新


隨著這些多樣化的人工智能應(yīng)用的發(fā)展,越來越明顯的是沒有一種單一的架構(gòu)或者產(chǎn)品可以去適應(yīng)所有應(yīng)用的需求。因?yàn)楦鞣N需求不一樣,有的是需要很高的計算能力,有的需要很大的內(nèi)存,有的可能需要一個更低的延時或者是更低的功耗。

比如在筆記本中,功耗就成為一個非常關(guān)鍵的因素。而在云中,有超高的算力的需求、內(nèi)存的需求,需要數(shù)千萬億次的計算來滿足計算負(fù)載。比如訓(xùn)練一些大模型,是需要上千個GPU節(jié)點(diǎn)才可能完成,這些都是需要我們提供強(qiáng)大的計算,存儲的支撐來滿足。例如自動駕駛,它對延遲的需求是非常嚴(yán)格的,比如你需要在毫秒級的時間范圍里做出一個響應(yīng),比如對路況的判斷、有沒有行人、路標(biāo)的檢測、要做一系列決策來達(dá)到自動駕駛的安全性。這些可能需要上百TOPS的算力,同時還要求一個相對比較低的功耗。在端側(cè),像筆記本電腦這些,對于算力能耗比很關(guān)注,電池的消耗是非常關(guān)鍵的一個因素。比如我們在Teams、Zoom上開會,就會利用筆記本電腦端側(cè)的AI功能,讓會議系統(tǒng)變得更加智能化。在AMD,我們針對這些不同的需求進(jìn)行了架構(gòu)的創(chuàng)新。一方面,我們高性能的旗艦CDNA架構(gòu),建立在之前多代GPU的基礎(chǔ)上。業(yè)界有說道:AMD其實(shí)是中國GPU的“黃埔軍校”??梢?,AMD在GPU上還是有很多技術(shù)上的積累和創(chuàng)新的。為行業(yè)提供最高性能的AI計算解決方案,并為最大的超級計算機(jī)提供支持,以在單個計算上適應(yīng)最大的人工智能推理工作負(fù)載。GPU它提供了一個靈活的編程模型來運(yùn)行通用workloads,單個計算節(jié)點(diǎn)或者GPU來算,我們甚至可以做到數(shù)千TOPS的能力。我們也可以橫向的擴(kuò)展,使用多個節(jié)點(diǎn),達(dá)到千萬億次浮點(diǎn)運(yùn)算的能力。另外一方面,我們有XDNA架構(gòu),它是基于AI引擎的處理架構(gòu),它也是一個并行的陣列數(shù)據(jù)流處理架構(gòu),我們有可以提供一個非常高速的、低延時的實(shí)時處理,因?yàn)樗捎玫氖菙?shù)據(jù)流的架構(gòu)來優(yōu)化。上午有同行分享到Chiplet,XDNA就是AMD產(chǎn)品線里非常重要的一個Chiplet,也是重要的一個計算單元,因?yàn)樗梢詳U(kuò)展到不同的平臺里面。比如在終端,邊緣測嵌入式器件里面,可以集成AI引擎的Chiplet。

這些平臺是基于Chiplet的架構(gòu),所以可以根據(jù)算力需求去集成相應(yīng)數(shù)量的AI Engine,達(dá)到提供這種可擴(kuò)展計算的能力。同時,我們可以與CPU、與傳統(tǒng)FPGA還有存儲器集成在一起,做一個異構(gòu)計算平臺,來滿足各種計算的需求。甚至可以在器件里面去集成RDNA架構(gòu)的獨(dú)立的顯卡iGPU,在一個APU里面。
03.五大產(chǎn)品線多點(diǎn)出擊,700億參數(shù)大模型單個GPU部署


我們接下來就看一下基于這些架構(gòu)的產(chǎn)品示例。AMD的戰(zhàn)略,是要為業(yè)界、為同行提供最廣泛的計算產(chǎn)品的組合,以滿足人工智能這種普遍性的、多樣性的需求。在這方面,我們也取得了非常大的進(jìn)展,我們有陸續(xù)的推出這些產(chǎn)品。這些(見PPT),都是我們已經(jīng)推出來的產(chǎn)品。在數(shù)據(jù)中心,我們有基于CDNA架構(gòu)的Instinct數(shù)據(jù)中心GPU,它可以滿足AIGC,這些生成式AI的workload的訓(xùn)練或推理。EPYC處理器,有遠(yuǎn)超于同行的CPU核心數(shù),目前我們可以達(dá)到128個核心數(shù),這些都為通用AI提供了強(qiáng)大計算平臺。基于Radeon架構(gòu)的GPU,它可以通過AI技術(shù)增強(qiáng)游戲體驗(yàn)變得更好。Versal AI Edge產(chǎn)品系列,主要目標(biāo)市場是為嵌入式或者邊緣側(cè)的應(yīng)用。對端側(cè)的應(yīng)用,今年5月份,我們推出了Ryzen AI,這個產(chǎn)品是集成了CPU、XDNA AI Engine的IPU,還有RDNA的iGPU集成在一個異構(gòu)計算平臺里,可以用來滿足電腦市場這些AI推理的需求。這個產(chǎn)品已經(jīng)發(fā)貨,已經(jīng)有超過35個PC系列里,集成了Ryzen AI這款產(chǎn)品。接下來我們具體看一下,這些產(chǎn)品如何去滿足這些多樣化的AI市場需求。AMD的Instinct GPU主要是用在數(shù)據(jù)中心,它是專為生成式AI而設(shè)計的GPU。它將CDNA 3與業(yè)界領(lǐng)先的HBM3相結(jié)合,采用業(yè)界領(lǐng)先的2.5D/3D Chiplet結(jié)構(gòu)構(gòu)建,它提供高達(dá)數(shù)千TOPS的計算能力,并提供額外的,超大的內(nèi)存容量,我們對大模型有優(yōu)勢,因?yàn)槲覀兛梢灾苯釉趦?nèi)存中運(yùn)行更大的模型,減少所需的GPU數(shù)量顯著提高性能,尤其是推理性能。

這個產(chǎn)品可以支持700億參數(shù)的模型在單個GPU上做部署,是因?yàn)樗懈蟮膬?nèi)存容量及帶寬。業(yè)界其他的GPU不能做到700億參數(shù)的模型在同一個GPU里部署,可能需要兩個GPU來實(shí)現(xiàn)。請繼續(xù)關(guān)注,我們將在今年晚些時候分享有關(guān)該產(chǎn)品的更多信息。我們剛剛講的是在數(shù)據(jù)中心這一側(cè)。其實(shí)終端AI也在快速發(fā)生變化。今年早些時候,我們推出了Ryzen AI系列,這個產(chǎn)品是基于我們XDNA的核心引擎作為基礎(chǔ)AI推理及運(yùn)算,在一個APU封裝里面集成了CPU、iGPU。投入到市場以來,其受到業(yè)界ISV,OEM的追捧,有35個筆記本電腦已經(jīng)利用到這個產(chǎn)品來提供AI解決方案。

AMD Ryzen AI的專用AI硬件開啟個人電腦新時代,電腦首先會被AI化,Windows12即將發(fā)布,將全面基于AI(ChatGPT)技術(shù)。據(jù)行業(yè)專業(yè)人士分析:“AI將改變電腦的每一個應(yīng)用、每一個體驗(yàn)!今天買電腦,推薦買AI電腦!
04.AI不止于硬件,軟件開發(fā)和生態(tài)系統(tǒng)建設(shè)是重中之重


我們剛剛講了很多硬件相關(guān)的,與支持這些創(chuàng)新硬件的架構(gòu)創(chuàng)新一樣,我們需要強(qiáng)大的AI軟件及生態(tài)來使能發(fā)揮這些創(chuàng)新硬件們的性能。

首先AI軟件開發(fā)穩(wěn)步提高了硬件編程的抽象級別。已經(jīng)從用以前匯編或C編寫的代碼->線性代數(shù)庫或卷積庫等庫->PyTorch/TensorFlow 等框架→轉(zhuǎn)向位于框架之上的更高級別的API,獲得最佳的開箱即用體驗(yàn)。

隨著AI軟件越來越有能力釋放硬件的巨大進(jìn)步,人工智能創(chuàng)新也出現(xiàn)了巨大的加速。2018年以來,Transformer掀起了一場革命,出現(xiàn)了諸如ChatGPT推出等分水嶺時刻。開放生態(tài)系統(tǒng)中也發(fā)生了大量此類創(chuàng)新:更大的模型、或更小的模型、模型得到微調(diào)、模型是多模式的、模型之間甚至相互交互,模型變得更加高效、模型與人類目標(biāo)保持一致,模型變得值得信賴可靠。

隨著創(chuàng)新的加速,我們既看到了挑戰(zhàn),也看到了絕佳的機(jī)遇。我們正在以開放和模塊化的方式構(gòu)建我們的軟件解決方案,以擁抱更高層次的抽象并與開放生態(tài)系統(tǒng)緊密協(xié)作。在AMD,我們擁有三個軟件平臺:用于GPU平臺的ROCm、用于XDNA AI引擎平臺的Vitis AI以及用于EPYC CPU平臺的zenDNN。AMD正在進(jìn)行大量投資,以確保我們的客戶在從更高抽象級別進(jìn)行編譯時獲得最佳的開箱即用體驗(yàn) 。AMD也在開發(fā)統(tǒng)一的AI軟件用于AMD所有平臺,從而達(dá)到簡化使用的用戶體驗(yàn)。

我們正在這樣做,我們正在取得的巨大進(jìn)展,而且還通過與最重要的生態(tài)系統(tǒng)參與者合作,像PyTorch這樣的框架和像Hugging Face這樣的模型中心。舉個具體的例子,基于我們與PyTorch的廣泛合作,PyTorch 2.0在第0天就支持ROCm 5。與Hugging Face的合作正在幫助我們在所有AMD平臺上運(yùn)行各種AI模型。

這是我們GPU的軟件開發(fā)棧,它是在GPU上做AI開發(fā)、運(yùn)行和調(diào)整 AI模型和算法所需的一整套庫、編譯器和Runtime工具。AMD ROCm堆棧的很大一部分是開放的。我們的驅(qū)動程序、Runtime、調(diào)試器和分析器等工具以及我們的庫都是開放的。ROCm 5擁有一整套優(yōu)化,可提供具有競爭力的性能……算法和內(nèi)核(例如flashattention)、新的降低精度的數(shù)據(jù)類型,以及新興工具(例如Triton)。我們將ROCm連接到開放生態(tài)系統(tǒng)方面取得了重大進(jìn)展,包括PyTorch等框架和Hugging Face等模型中心。以幫助客戶在AMD GPU平臺上快速移植、優(yōu)化和部署其AI模型。

對用戶來講,他最關(guān)心的是從不同的GPU平臺或者說友商的GPU平臺如何遷移到AMD的GPU上?AMD提供與NVIDIA等效的庫功能,由框架調(diào)用,在框架層面開發(fā)的用戶可以獲得“即插即用”的兼容軟件體驗(yàn)。像基礎(chǔ)模型構(gòu)建者這樣高度復(fù)雜的用戶通常擁有一定數(shù)量的自定義內(nèi)核代碼,需要與AMD AI軟件工程結(jié)合進(jìn)行聯(lián)合優(yōu)化。HipiFY工具可讓您非??焖俚貙?shí)現(xiàn)功能等效。致力于這些定制內(nèi)核的性能優(yōu)化。AMD已經(jīng)與客戶成功做到了這一點(diǎn),并展示了在聯(lián)合優(yōu)化后達(dá)到與NVIDIA同等性能的能力。與此同時,AMD不斷優(yōu)化和改進(jìn)我們的庫。

這里是Mosaic實(shí)現(xiàn)無縫遷移至AMD GPU的成功案例,基于PyTorch 2.0和ROCm 5,ROCm直接替代CUDA,RCCL替代NCCL,Infinity Fabric替代節(jié)點(diǎn)內(nèi)的NVSwitch。從而實(shí)現(xiàn)大模型訓(xùn)練在AMD MI250加速器上開箱即用,零代碼更改和高性能。

我們來看一下AMD在的client側(cè)AI軟件解決方案。自從我們今年早些時候宣布該產(chǎn)品以來,ISV和用戶開發(fā)人員都非常希望在我們的AI平臺上開發(fā)應(yīng)用的需求為了滿足這一巨大的興趣,我們在今年早些時候與 微軟Build活動中表示,我們在微軟的ONNX Runtime框架下提供我們的工具。這使得開發(fā)人員可以使用ONNX中熟悉的API進(jìn)行模型部署。現(xiàn)在我們眼見為實(shí),我給大家演示一下在AMD GPU平臺,Ryzen AI平臺上跑各種大模型。

這是在我們MI GPU上實(shí)現(xiàn)一個Stable Diffusion的推理,可以很快地圖文生成,在毫秒級里達(dá)到這個目標(biāo)。

展示我們在Ryzen AI筆記本電腦上實(shí)現(xiàn)多個AI應(yīng)用時,提供有保證的QoS, 無抖動性能。同時實(shí)現(xiàn)人臉檢測、深度估計、場景檢測。這與其他需要以分時方式共享AI計算資源的AI架構(gòu)不同。

另外,我們今天也提到,AI已經(jīng)從云到端,甚至是混合式AI。我們的解決方案,不僅可以在云上去做這些大模型,我們也可以在端側(cè)、在我們的筆記本里面去做這些大模型。這個例子就是我們用MI系列GPU,實(shí)現(xiàn)了一個700億參數(shù)的大模型,實(shí)現(xiàn)圖文生成圖文。這個是讓它寫一個有關(guān)舊金山的詩文。在我們端側(cè),我們是跑的是OPT模型,實(shí)現(xiàn)文字生成。

我們基于Radeon架構(gòu),不僅可以實(shí)現(xiàn)3D渲染,同時可以做AI的訓(xùn)練或者推理,快速平穩(wěn)地進(jìn)行加速。AMD會繼續(xù)地加大AI的投入,將強(qiáng)大的AI處理能力的產(chǎn)品引入云、邊緣和端,并且我們致力于與廣大AI開發(fā)者,社區(qū)一道提供開放的AI軟件生態(tài)系統(tǒng),與廣大AI開發(fā)者、用戶,同超越,共成就。這就是我今天與各位分享的所有內(nèi)容,感謝大家寶貴的時間。以上是王宏強(qiáng)演講內(nèi)容的完整整理。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

關(guān)鍵詞: 大模型

相關(guān)推薦

實(shí)操給桌面AI語音助理(大模型語音開發(fā)板)更換自定義喚醒詞

大模型+AI智能語音交互硬件開發(fā)上手建議路徑和資料匯總

大模型雙雄之爭:AI教父押谷歌會贏得最終勝利

2025-12-09

OpenAI再度回歸“開放”賽道,一場精心布局的陽謀

DeepSeek低調(diào)發(fā)布3.2版本:曾經(jīng)的頂流大模型,如今熱度減退了?

中國加碼AI競賽:阿里最新千問模型逼近美國對手,月之暗面持續(xù)突破

智能計算 2026-02-02

“小顯存,大模型”國數(shù)集聯(lián)解讀如何降低AI普惠門檻

Anthropic完成大模型行業(yè)第二大規(guī)模融資

2025-09-04

Day0首發(fā)!海光DCU高效支持智譜GLM-5大模型

智能計算 2026-02-12

手把手教你用聆思CSK6大模型開發(fā)板接入火山引擎 滿血版 DeepSeek-R1

聆思CSK6大模型語音控制風(fēng)扇(上)

詳解用大模型超擬人語音做桌面AI寵物/機(jī)器人的個性化能力

中國開源AI模型下載量首超美國,DeepSeek再出手

智能計算 2025-12-02

BOE(京東方)藍(lán)鯨顯示大模型上線行業(yè)最強(qiáng)問答系統(tǒng)

把大模型刻進(jìn)芯片,可行嗎?

智能計算 2026-03-02
更多 培訓(xùn)課堂
更多 焦點(diǎn)
更多 視頻

技術(shù)專區(qū)

乐安县| 长海县| 西乌| 平顶山市| 抚远县| 顺平县| 娄底市| 安远县| 睢宁县| 绥阳县| 肇州县| 鄂托克前旗| 颍上县| 富宁县| 海兴县| 绥中县| 屯门区| 灵武市| 泾阳县| 四平市| 搜索| 古蔺县| 天镇县| 周口市| 澄城县| 南靖县| 青冈县| 上犹县| 乌什县| 关岭| 本溪市| 中西区| 安远县| 全南县| 平遥县| 扎鲁特旗| 抚远县| 班玛县| 镇坪县| 竹溪县| 兴城市|