新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 如何設(shè)計(jì)一套指令集（ISA）：從契約到實(shí)現(xiàn)的工程方法

如何設(shè)計(jì)一套指令集（ISA）：從契約到實(shí)現(xiàn)的工程方法

作者：時(shí)間：2025-11-10 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

0. 引子：為何此時(shí)談 ISA 設(shè)計(jì)？

過去十年，RISC?V 的興起把“自定義指令集”的門檻大幅拉低，新的 ISA/擴(kuò)展設(shè)計(jì)者暴增。然而，“一套好 ISA 的要義是什么？”幾乎沒有系統(tǒng)的教材可循。作者結(jié)合多次 ISA/擴(kuò)展實(shí)踐，試圖給出一個(gè)面向工程的回答。

1. 三個(gè)層級：ABI、架構(gòu)與微架構(gòu)

編程者看到的平臺(tái)細(xì)節(jié)分三層：

ABI（應(yīng)用二進(jìn)制接口）：約定編譯器如何使用可見的硬件特性?？蔀閱我痪幾g器私有，也可作為多編譯器互通的行業(yè)約定。
架構(gòu)（Architecture）：硬件對軟件的全部保證——包括設(shè)備枚舉、終端中斷配置等機(jī)制。ISA 是架構(gòu)的核心，定義了指令的編碼、語義以及操作數(shù)。
微架構(gòu)（Microarchitecture）：架構(gòu)的具體實(shí)現(xiàn)。理想狀態(tài)下，程序員不需關(guān)心微架構(gòu)細(xì)節(jié)，但現(xiàn)實(shí)常?！靶孤?，例如 cache line 大小會(huì)影響偽共享和性能；側(cè)信道問題時(shí)，微架構(gòu)尤為關(guān)鍵。

放置規(guī)則（經(jīng)驗(yàn)法則）：

若不同語言的做法可能各不相同，放到 ABI；
若軟件需做某種特定動(dòng)作以利用微架構(gòu)特性，那應(yīng)放進(jìn) ISA 而不是 ABI。

過渡：明確了“契約”的層次，我們再來看 ISA 本身的邊界與定位。

2. 沒有“通用”ISA：語言與實(shí)現(xiàn)的雙向適配

作者的核心觀點(diǎn)之一：不存在“通用”ISA。一套 ISA 必須：

讓編譯器能高效地把一組源語言映射過來；
讓目標(biāo)微架構(gòu)能高效實(shí)現(xiàn)。

2.1 源語言的差異

C：大量可變狀態(tài)，弱并發(fā)模型（共享內(nèi)存、鎖、小量線程）。良好的時(shí)間/空間局部性，但存在隨機(jī)訪存。
Erlang：共享?無并發(fā)模型，易擴(kuò)展到海量輕量進(jìn)程。
CUDA：并行模型與共享模型緊耦合，數(shù)據(jù)并行極強(qiáng)。

結(jié)論：你可以把任意語言編譯到任意圖靈完備目標(biāo)，但體驗(yàn)可能很差——不同語言族有各自的隱含假設(shè)，它們會(huì)反過來影響“什么樣的 ISA/實(shí)現(xiàn)更高效”。

2.2 微架構(gòu)規(guī)模的差異

一個(gè)適合微控制器的小 ISA，可能非常不適合大規(guī)模亂序或海量并行加速器。例如：32 位 Arm 難以在高性能市場對抗 x86，而 x86 難以替代 Arm 在低功耗市場的地位。Arm 把 32/64 位 ISA 分設(shè)（M/A profile），各自針對“可實(shí)現(xiàn)的子集”調(diào)優(yōu)；RISC?V 試圖從極小到極大全覆蓋——這在學(xué)術(shù)與工程上仍是開放問題。

過渡：既然“通用”不可得，現(xiàn)實(shí)問題就變成——為目標(biāo)生態(tài)設(shè)計(jì)“穩(wěn)態(tài)契約”。

3. 商業(yè)并非可分離變量：穩(wěn)定 ISA 的代價(jià)

穩(wěn)定的 ISA能進(jìn)入正反饋：有軟件→有人買；有人買→更多軟件。但代價(jià)是：歷史包袱將長期固化到未來產(chǎn)品里。經(jīng)典案例：486 的標(biāo)志位 bug 被游戲利用以節(jié)省一條指令，Intel 在 Pentium 上不得不“把 bug 變成特性”，否則用戶會(huì)怪新 CPU 兼容性差。

對比：NVIDIA 的 GPU 指令集不公開，開發(fā)者產(chǎn)出 PTX 這樣的中間語言，驅(qū)動(dòng)在后臺(tái)完成到“真實(shí) ISA”的映射。因此每代 GPU 可以激進(jìn)變更 ISA，而不破壞應(yīng)用層兼容性。反觀 x86，必須能運(yùn)行 1978 年以來的 PC 軟件。

影響：

穩(wěn)定 ISA 必然限制你“過擬合微架構(gòu)”的自由度；
可反復(fù)重構(gòu) ISA 的專用加速器（如 GPU/AI）可以“大膽嘗試、迅速回滾”。

4. 架構(gòu)并非無關(guān)緊要：它約束了實(shí)現(xiàn)空間

“微架構(gòu)比架構(gòu)更影響性能”并不等于“架構(gòu)不重要”。一套好 ISA帶來的性能差異，也許只有 10–20%；但它極大約束了可實(shí)現(xiàn)的微架構(gòu)優(yōu)化空間，且設(shè)計(jì)成本遠(yuǎn)低于高性能微架構(gòu)本身。

4.1 一個(gè)向量擴(kuò)展的思考實(shí)驗(yàn)

如果向量指令在內(nèi)存?內(nèi)存上工作（源/目的都在內(nèi)存），當(dāng) a + b*c 正在流水執(zhí)行時(shí)若要中斷，如何恢復(fù)一致性？要么強(qiáng)約束“目標(biāo)不得與源別名”，要么暴露部分進(jìn)度寄存器，但這又破壞流水。GPU 內(nèi)核里這問題較?。ㄍǔ２辉趦?nèi)核中處理中斷），通用 CPU 則代價(jià)很大。

4.2 微碼的取舍

微碼要求“在微碼指令前/后都能立刻中斷”。簡單流水線可以接受，但會(huì)阻斷高端核心的投機(jī)執(zhí)行，帶來顯著性能損失。若仍想要微碼與高性能并存，就必須采用更復(fù)雜的微碼引擎；既然投了硅資源，ISA 設(shè)計(jì)也會(huì)傾向加入更多“微碼化”指令——這就是架構(gòu)選擇反向作用于微架構(gòu)的例子。

過渡：下一步，分別看看“小核”和“大核”在 ISA 上“想要什么”。

5. 小核想要什么？——簡單譯碼與緊湊編碼

對單發(fā)射、順序執(zhí)行的小核，若干基本面尤為關(guān)鍵：

譯碼復(fù)雜度：原始 RISC 追求簡單譯碼，因?yàn)閺?fù)雜譯碼在此規(guī)模上占了大頭面積/功耗。
代碼密度：小 MCU 可能只有 10KB SRAM，指令編碼若膨脹 20%，代碼區(qū)的面積成本可能超過內(nèi)核本身。因此像 Thumb?2、RISC?V C 擴(kuò)展這類“可變長但易譯碼”的路線，能在不顯著增加譯碼復(fù)雜度的前提下提升代碼密度。
語言相關(guān)優(yōu)化：例如 Arm 的 Jazelle DBX 直接解碼 Java 字節(jié)碼，在低內(nèi)存設(shè)備（<~4MB RAM）上優(yōu)于解釋器，但遜于 JIT。它只在特定語言/微架構(gòu)組合下劃算，提醒我們：一種規(guī)模的優(yōu)化可能是另一種規(guī)模的陷阱。

6. 大核想要什么？——降低“固定成本”，馴服分支

當(dāng)核心變大，新的主導(dǎo)因素出現(xiàn)：

暗硅與加速器：摩爾還在，但 Dennard 失效。SoC 傾向加入可按需上電的專用加速器，常開組件（如寄存器重命名）反而成功耗瓶頸。
寄存器重命名的代價(jià)：Rename 邏輯經(jīng)常是高端核的最大用電單元。臨時(shí)值跨基本塊存活、分支錯(cuò)誤回滾，都讓 rename 寄存器占用時(shí)間拉長。
復(fù)雜尋址模式的價(jià)值：把地址計(jì)算折疊進(jìn)訪存管線（如 x86?64、AArch64 的模式）可減輕 rename 壓力、避免跨迭代活躍值；即便預(yù)/后自增仍需 rename，前遞比經(jīng)由重命名更省。
“少指令勝于短指令”：大核每條指令有較大固定開銷，減少指令條數(shù)常常比最短編碼更劃算。這解釋了SIMD 指令為何常見：用更長編碼換來一次做四條工作的總賬劃算。
并行譯碼與分支懲罰：固定寬度 ISA（如 AArch64 on Apple M 系列）便于并行取指/譯碼；相反，x86 的“解析器式”譯碼需要復(fù)雜的 uop cache。大核強(qiáng)烈偏好降低分支錯(cuò)誤代價(jià)：AArch32 的“全謂詞化”對小/中核好用，但對大核過于復(fù)雜，AArch64 僅保留少數(shù)收益巨大的條件指令（如 conditional move/ select）。

7. “源語言”未必只是語言：生態(tài)啟動(dòng)與仿真友好

新 ISA 的生態(tài)培育期很長。**做一個(gè)“好仿真目標(biāo)”**是現(xiàn)實(shí)策略：AArch64/PowerPC 在設(shè)計(jì)時(shí)就把高效仿真 x86 放入目標(biāo)；今日的 Rosetta 2 往往能把一條 x86?64 指令翻譯成 1–2 條 AArch64 指令。

AArch64 為何更“好翻”？

寄存器更多：能把 x86?64 的狀態(tài)完整放在寄存器里。
可選 TSO 內(nèi)存模型：使其與 x86 的一致性模型對齊（Apple 支持運(yùn)行時(shí)切換；RISC?V 也有 TSO 選項(xiàng)，但缺少動(dòng)態(tài)切換擴(kuò)展）。
標(biāo)志位（flags）處理：大量 x86 指令會(huì)設(shè)標(biāo)志位，給仿真帶來負(fù)擔(dān)。AArch64 通過 CondM 擴(kuò)展改進(jìn)了標(biāo)志設(shè)置方式，Apple 甚至擴(kuò)展了額外標(biāo)志位的映射，降低翻譯成本。

RISC?V 的取舍：不設(shè)條件碼（condition codes），轉(zhuǎn)而使用“比較+分支”或把比較結(jié)果寫入寄存器再配合分支。其好處是簡化微架構(gòu)，但帶來編碼密度與謂詞化擴(kuò)展上的難題。

8. 純粹并不加分：把 ABI 與 ISA 的邊界放在“收益最大處”

跳轉(zhuǎn)?并?鏈接（jal）設(shè)計(jì)：RISC?V 允許任意寄存器做返回地址（link register），因此需 5 位編碼位來指明，單條 32 位指令占用了約 1% 的編碼空間。相較之下，Arm/MIPS/PowerPC 指定了固定 link register，節(jié)省了空間，也讓微架構(gòu)更易針對返回預(yù)測做優(yōu)化。RISC?V 試圖避免把 ABI 固化在 ISA 中，結(jié)果卻在預(yù)測行為上仍被 ABI 牽制，等于“吃了壞處沒拿到好處”。
棧指針（SP）特殊化：AArch64/x86 都有圍繞 SP 的專門指令，便于編碼優(yōu)化，也方便微架構(gòu)把 push/pop 的偏移累積到 rename 寄存器，再在尾部一次性更新 SP。這類優(yōu)化即便 SP 只是 ABI 約定也能做，但既然 ABI 與微架構(gòu)都已特殊對待它，為何不在 ISA 編碼上也利用起來？
條件移動(dòng)（CMOV）：Alpha 早年的論文反對 CMOV（需寄存器額外讀端口），影響了 RISC?V 的取舍。但該論斷只在很窄的微架構(gòu)區(qū)間成立：夠小的核直接“只寫不回”即可，做了重命名的大核能把 CMOV 折疊進(jìn) rename 邏輯，幾乎免費(fèi)。作者在教學(xué)實(shí)踐中也看到：在簡單順序核上加入 CMOV，若干基準(zhǔn)可達(dá) ~20% 提升，且面積開銷極小。

9. 底線：量化與驗(yàn)證優(yōu)先

ISA 取舍極易被“特定規(guī)模/時(shí)代的直覺”誤導(dǎo)。正確方式是：

明確優(yōu)化對象（語言/生態(tài)/硬件規(guī)模）；
在多種微架構(gòu)模型上測量；
用數(shù)據(jù)而非“純粹性”裁決方案。新技術(shù)（如同包指令前遞）隨時(shí)可能改變過往權(quán)衡。

10. 結(jié)語：把契約寫好，把自由留給實(shí)現(xiàn)

ISA 是契約：決定了軟件與硬件如何握手，也限定了實(shí)現(xiàn)者的自由度。
沒有“通用”方案：小核、大核、加速器、不同語言族——都在拉扯同一塊“編碼/語義/微架構(gòu)”毯子。
工程的答案：在 ABI/ISA 的分界處精打細(xì)算；在編碼空間里為“高價(jià)值常見路徑”讓路；在微架構(gòu)上用真實(shí)工作負(fù)載度量回報(bào)。少一點(diǎn)純粹，多一點(diǎn)數(shù)據(jù)，才是一套可持續(xù)演進(jìn)的 ISA。