新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 用于ChatGPT的FPGA加速大型語言模型

用于ChatGPT的FPGA加速大型語言模型

作者：時(shí)間：2025-12-04 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

探索FPGA加速的語言模型如何重塑生成式人工智能，帶來更快的推理、更低的延遲和更優(yōu)的語言理解。

引言：大型語言模型

近年來，大型語言模型（LLMs）徹底改變了自然語言處理領(lǐng)域，使機(jī)器能夠生成類人文本并進(jìn)行有意義的對(duì)話。這些模型，如OpenAI的GPT，擁有驚人的語言理解和生成能力。它們可用于多種自然語言處理任務(wù)，包括文本生成、翻譯、摘要、情感分析等。

大型語言模型通常通過深度學(xué)習(xí)技術(shù)構(gòu)建，特別是使用變換器架構(gòu)。Transformer是神經(jīng)網(wǎng)絡(luò)模型，擅長(zhǎng)捕捉序列中的長(zhǎng)距離依賴關(guān)系，非常適合語言理解和生成任務(wù)。訓(xùn)練大型語言模型涉及將模型暴露于大量文本數(shù)據(jù)，通常來自書籍、網(wǎng)站及其他文本資源。模型學(xué)習(xí)預(yù)測(cè)句子中的下一個(gè)詞或根據(jù)所見上下文填補(bǔ)缺詞。通過這一過程，它獲得了語法、句法甚至一定程度的世界知識(shí)。

大型語言模型面臨的主要挑戰(zhàn)之一是其龐大的計(jì)算和內(nèi)存需求。這些模型包含數(shù)十億參數(shù)，需要強(qiáng)大的硬件和大量計(jì)算資源才能有效訓(xùn)練和部署，正如Nishant Thakur 2023年3月在LinkedIn文章《ChatGPT背后的令人震驚的處理能力與成本：打造終極AI聊天機(jī)器人所需？》中所討論的。資源有限的組織和研究人員常常面臨利用這些模型潛力的障礙，因?yàn)樵朴?jì)算所需的處理量龐大或資金龐大。此外，生成響應(yīng)時(shí)需要存儲(chǔ)的上下文長(zhǎng)度大幅增加，以創(chuàng)建相應(yīng)的詞元、詞語或詞的子部分，這對(duì)內(nèi)存和計(jì)算資源的要求更加巨大。

這些計(jì)算挑戰(zhàn)導(dǎo)致更高的延遲，使得LLM的采用更加困難，且不實(shí)時(shí)，因此不那么自然。在本博客中，我們將深入探討大型語言模型所面臨的困難，并探討可能為其提升可用性和可靠性鋪平道路的解決方案。

大型語言模型的加速

LLM通常需要一個(gè)大規(guī)模系統(tǒng)來執(zhí)行模型，隨著規(guī)模不斷擴(kuò)大，僅在CPU上運(yùn)行已不再是成本、功耗或延遲的效率。加速器，如GPU或FPGA，可以顯著提升計(jì)算功耗比，大幅降低系統(tǒng)延遲，并在更小規(guī)模內(nèi)實(shí)現(xiàn)更高的計(jì)算水平。雖然GPU正逐漸成為加速的標(biāo)準(zhǔn)，主要因?yàn)樗鼈円子谧髑乙子诰幊?，?a class="contentlabel" href="http://www.chinabohe.com/news/listbylabel/label/FPGA">FPGA架構(gòu)實(shí)際上在比GPU更低的延遲下，能帶來卓越的性能。

由于GPU本質(zhì)上是曲速鎖定架構(gòu)，需在多個(gè)核心上并行運(yùn)行超過32,000個(gè)SIMT線程，因此通常需要批量處理大量數(shù)據(jù)，以抵消曲速鎖定架構(gòu)并保持管道滿載。這會(huì)導(dǎo)致更高的延遲和對(duì)系統(tǒng)內(nèi)存的更大需求。與此同時(shí)，F(xiàn)PGA構(gòu)建自定義數(shù)據(jù)路徑，同時(shí)執(zhí)行多個(gè)不同指令在多個(gè)數(shù)據(jù)塊上，這意味著它可以高效地在批處理大小為1的情況下運(yùn)行，這既是實(shí)時(shí)的，也大幅降低延遲，同時(shí)最大限度地減少了外部?jī)?nèi)存需求。因此，F(xiàn)PGA能夠顯著高于其他競(jìng)爭(zhēng)架構(gòu)的TOP利用率——隨著系統(tǒng)規(guī)模擴(kuò)大到ChatGPT規(guī)模，這一性能差距會(huì)進(jìn)一步擴(kuò)大。

將LLM映射到Achronix FPGA加速器

Achronix Speedster7t FPGA 擁有獨(dú)特的架構(gòu)，非常適合這類模型。首先，它配備了硬件二維NoC，能夠解決數(shù)據(jù)的進(jìn)出和通過設(shè)備。此外，它使用了帶有緊耦合塊內(nèi)存的機(jī)器學(xué)習(xí)處理器（MLP），以便高效地在計(jì)算間重用結(jié)果。最后，Achronix Speedster7t FPGA 與 GPU 類似但不同，擁有八組高效 GDDR6 內(nèi)存，帶寬大幅提升，可加載參數(shù)速度為 4 Tbps。

由于這些系統(tǒng)需要擴(kuò)展性，F(xiàn)PGA可以實(shí)現(xiàn)多種標(biāo)準(zhǔn)接口，實(shí)現(xiàn)卡片之間的互聯(lián)并無縫傳輸數(shù)據(jù)。Achronix Speedster7t AC7t1500 設(shè)備擁有 32,100 Gbps SerDes 通道，無需像 NVLink 這樣專有且昂貴的解決方案。

大型語言模型的未來：擴(kuò)展以增強(qiáng)語言理解和專業(yè)領(lǐng)域

由于這些大型語言模型需要大規(guī)模的訓(xùn)練和推理，且延遲影響極小，模型的復(fù)雜度將持續(xù)增長(zhǎng)，從而實(shí)現(xiàn)語言理解、生成甚至預(yù)測(cè)能力的提升，精度極高。雖然目前許多GPT風(fēng)格模型是通用型的，但未來很可能是專門訓(xùn)練給醫(yī)學(xué)、法律、工程或金融等特定領(lǐng)域的專業(yè)模型。這些系統(tǒng)將長(zhǎng)期用于協(xié)助人類專家處理AI系統(tǒng)處理的日常任務(wù)，并提供解決方案建議或創(chuàng)造性任務(wù)的幫助。