新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > AI PC新突破端側(cè)首次支持128K上下文窗口實現(xiàn)2.2倍推理優(yōu)化

AI PC新突破端側(cè)首次支持128K上下文窗口實現(xiàn)2.2倍推理優(yōu)化

—— 90秒讀完300頁哈利波特，AI PC運行面壁大模型效率翻倍

作者：時間：2025-06-09 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：端側(cè)AI里程碑：面壁大模型+英特爾酷睿Ultra首日協(xié)同優(yōu)化效率提升220%；面壁智能端側(cè)大模型首日上線，英特爾工程師聯(lián)合優(yōu)化實現(xiàn)2.2倍推理效率躍升；AI PC時代加速：面壁智能端側(cè)大模型適配酷睿Ultra，效率提升220%；推理速率提升2.2倍！面壁推出MiniCPM 4.0系列LLM模型，英特爾助力帶來端側(cè)性能體驗；英特爾銳炫B60聯(lián)合面壁MiniCPM 4.0，端側(cè)首次支持高達128K上下文窗口

從協(xié)同設(shè)計到首日落地：面壁智能大模型如何在酷睿Ultra上實現(xiàn)2.2倍推理優(yōu)化

近日，面壁智能正式發(fā)布并開源了「面壁小鋼炮」端側(cè)系列最新力作——MiniCPM 4.0模型，實現(xiàn)了端側(cè)可落地的系統(tǒng)級軟硬件稀疏化的高效創(chuàng)新。英特爾與面壁智能從模型開發(fā)階段就緊密合作，實現(xiàn)了長短文本多重推理效率的提升，端側(cè)AI PC 在Day 0全面適配，128K長上下文窗口等多方面突破。

雙方開展了深度技術(shù)協(xié)同，基于英特爾硬件架構(gòu)定制投機解碼配置。通過硬件感知的草稿模型優(yōu)化策略，結(jié)合英特爾加速套件與KV Cache內(nèi)存增強技術(shù)，實現(xiàn)端到端推理效率的2.2倍提升¹，攜手為業(yè)界帶來了全新的模型創(chuàng)新和端側(cè)性能體驗。

此次，面壁推出的MiniCPM 4.0系列LLM模型擁有 8B、0.5B 兩種參數(shù)規(guī)模，針對單一架構(gòu)難以兼顧長、短文本不同場景的技術(shù)難題，MiniCPM 4.0-8B 采用「高效雙頻換擋」機制，能夠根據(jù)任務(wù)特征自動切換注意力模式：在處理高難度的長文本、深度思考任務(wù)時，啟用稀疏注意力以降低計算復雜度，在短文本場景下切換至稠密注意力以確保精度，實現(xiàn)了長、短文本切換的高效響應(yīng)。

目前，具有CPU、GPU、NPU三個AI運算引擎的英特爾酷睿Ultra處理器已迅速對此適配，并借助OpenVINO? 工具套件為MiniCPM 4.0系列模型提供優(yōu)化的卓越性能表現(xiàn)。英特爾再次在NPU上對模型發(fā)布提供第零日（Day 0）支持，為不同參數(shù)量模型和應(yīng)用場景提供更多樣化的、更有針對性的平臺支持。

CPU及AI處理引擎	? 模型	精度	1st Token延遲(毫秒)	2nd Token(每秒)
Intel^? Core? Ultra 7 258V(iGPU)	MiniCPM4-0.5B	FP16	59.94	87.62
Intel^? Core? Ultra 7 258V(NPU)	MiniCPM4-0.5B	FP16	141.99	67.46
Intel^? Core? Ultra 7 258V(iGPU)	MiniCPM4-8B	INT4-MIXED-ASYM	694.60	21.3
Intel^? Core? Ultra 7 258V(NPU)	MiniCPM4-8B	INT4-MIXED-CW-SYM	1315.89	17.65
Intel^? Core? Ultra 9 285H(iGPU)	MiniCPM4-0.5B	FP16	65.32	83.67
Intel^? Core? Ultra 9 285H(iGPU)	MiniCPM4-8B	INT4-MIXED-ASYM	645.63	21.39

* 上述測試評估了在int4混合精度和fp16精度設(shè)置下1K輸入的首詞元延遲和平均吞吐量。每項測試在預(yù)熱階段后執(zhí)行三次，選取平均值作為報告數(shù)據(jù)。性能結(jié)果基于以下SKU1或SKU2配置²

在長上下文窗口的技術(shù)創(chuàng)新方面，英特爾也有了新的突破。依托分塊稀疏注意力機制，結(jié)合深度算子融合與硬件驅(qū)動的算法優(yōu)化，實現(xiàn)了長文本緩存的大幅銳減，和推理效率的進一步提升。在保證輸出質(zhì)量的前提下，我們首次在基于英特爾銳炫? Pro B60上將長上下文窗口擴展至128K。相較于稠密模型，首Token延遲降低了38%3，Token速率提升多達3.8倍3。經(jīng)過這樣的提升，一整部300多頁的哈利波特小說，可以在90秒內(nèi)完成閱讀、分析和總結(jié)。這不僅極大地提升了AI PC的用戶體驗，也為解鎖更多端側(cè)AI新應(yīng)用建立了強大的基礎(chǔ)。未來，英特爾將持續(xù)保持與面壁的深度合作和協(xié)同研發(fā)，進一步提升長上下文窗口應(yīng)用的性能。對128K的文本輸入進行處理的效果請參考視頻演示。

在當今數(shù)字化時代，人工智能技術(shù)正以前所未有的速度發(fā)展，英特爾作為全球領(lǐng)先的科技企業(yè)和AI PC的發(fā)起和倡導者，始終致力于推動端側(cè)AI模型的創(chuàng)新發(fā)展。

此次合作不僅彰顯了英特爾在AI領(lǐng)域的強大技術(shù)實力，也體現(xiàn)了其對創(chuàng)新生態(tài)系統(tǒng)的堅定承諾。通過整合雙方的技術(shù)優(yōu)勢和資源，英特爾平臺和MiniCPM 4.0系列模型聯(lián)合解決方案的廣泛應(yīng)用和落地部署已經(jīng)奠定了堅實的基礎(chǔ)，有望在智能生活、生產(chǎn)力提升等多個場景中發(fā)揮關(guān)鍵作用。

展望未來，英特爾將繼續(xù)與面壁智能保持緊密合作，同時積極拓展合作關(guān)系，不斷探索AI技術(shù)的新邊界。英特爾致力于通過持續(xù)創(chuàng)新，推動人工智能技術(shù)的普及與發(fā)展，構(gòu)建更加智能、高效的未來社會。