過去幾年生成式人工智能(GAI)的快速發(fā)展,,讓所有主流指令集架構(gòu)迎來了一次重要更新潮。
從 x86,、Arm 到 RISC-V,,都在制定面向矩陣(Matrix)指令集方向的擴展,因為 GAI 應(yīng)用的大部分典型負載的核心運算都需要使用矩陣計算,。
2021 年,,Arm 宣布在 ARMv9-A 架構(gòu)中引入 Scalable Matrix Extension(SME)指令集擴展;2023 年初,,英特爾正式推出了第 4 代英特爾至強可擴展處理器,,集成了 Advanced Matrix Extensions(AMX)指令集。
2023 年底,,RISC-V 國際基金會同時成立了 2 個矩陣指令集擴展技術(shù)組(Attached Matrix Extension TG 和 Integrated Matrix Extension TG),,計劃用一至兩年的時間完成新指令集的制定,其目的就是要加速矩陣運算,,從而提高機器學(xué)習(xí)和 AI 應(yīng)用的性能,。
就在最近,希姆計算在 RISC-V 美國峰會上發(fā)布了其 RISC-V 矩陣擴展開源項目的最新 0.5 版本 , 行業(yè)內(nèi)率先支持了向量 + 矩陣的實現(xiàn),。
這家年輕的中國創(chuàng)企也成為首家向全球社區(qū)提交完整 RISC-V 矩陣指令集及其支持工具的公司,。這一舉措無疑會推動 RISC-V 矩陣指令集國際標準的快速形成,提高 AI 應(yīng)用的兼容性,、降低軟件開發(fā)適配成本,,推動整個 RISC-V 生態(tài)系統(tǒng)的發(fā)展。
對此,,RISC-V 國際基金會首席執(zhí)行官 Calista Redmond 給予了高度評價,,她說到:" 看到像希姆計算這樣的創(chuàng)新項目積極采用和支持了 RISC-V 的新特性,真是令人鼓舞,。矩陣指令集擴展代表了 RISC-V 生態(tài)系統(tǒng)向前邁出了重要一步,,能夠在特定應(yīng)用場景中顯著提升性能。我們對希姆計算團隊的努力表示感謝,,這對整個社區(qū)來說是一個巨大的勝利,。"
中國電子工業(yè)標準化技術(shù)協(xié)會 RISC-V 工作委員會技術(shù)委員會主任、國家工業(yè)信息安全發(fā)展研究中心總工程師周平說到:" 非常高興看到作為 RISC-V 工委會副理事長單位的希姆計算,,在推動 Matrix 國際標準方面所做的貢獻,,特別是在開源 SCOOP 項目上的努力令人印象深刻。希姆計算不僅展示了卓越的技術(shù)能力,,還體現(xiàn)了開放合作的精神,,這對于促進 RISC-V 在 AI 領(lǐng)域指令集擴展的發(fā)展具有重要意義。我們期待希姆計算繼續(xù)在工委會,、在國際社區(qū)積極發(fā)揮作用和協(xié)作精神,,為行業(yè)帶來更多的創(chuàng)新與進步,。
AI 新時代,中國芯片企業(yè)正集體一步一步走到制定國際標準的行業(yè)領(lǐng)導(dǎo)者行列中,。
01.
生成式 AI 掀起矩陣計算革命,,
RISC-V 或成做 AI 最佳選擇,標準統(tǒng)一是關(guān)鍵
進入生成式 AI 時代,,RISC-V 很可能會成為做 AI 的最佳指令集架構(gòu),。
首先,正如前文所提到的,,RISC-V 可以憑借開源的模塊化設(shè)計去賦能開發(fā)者,,讓 AI 芯片可以針對不同負載做加速,同時兼顧良好的可編程性和通用性,。
面對生成式 AI 帶來的需求,、場景爆發(fā),這樣的特性顯然是非常關(guān)鍵的,。
此外,,在 AI 新時代,基于 RISC-V 的開源方案可以最大程度保證國家層面對數(shù)據(jù)安全的掌控,,還一定程度上打破既有的行業(yè)壟斷態(tài)勢,,同時還能兼顧產(chǎn)業(yè)生態(tài)的融合,可以說是商業(yè)模式潛力最大化的解決方案,。
明確了 RISC-V 的方向,,如何讓 RISC-V 可以更好地支持 AI 應(yīng)用,?標準的統(tǒng)一就成為了接下來的重中之重,。
一旦矩陣擴展指令標準確定下來,全球 RISC-V 生態(tài)中的開發(fā)者都可以用一樣的矩陣指令來做自己的芯片,,這樣軟件應(yīng)用層面就會有更多的融合機會,,應(yīng)用也能實現(xiàn)真正的通用性,就如同基于安卓系統(tǒng)的應(yīng)用生態(tài),。
基于這一統(tǒng)一標準,,各類產(chǎn)品都將快速生長,工具連,、基礎(chǔ)軟件也將逐漸完善,,這對于 RISC-V 在應(yīng)用層面與 x86 和 Arm 生態(tài)競爭十分關(guān)鍵。
從生態(tài)角度上來說,,制定好這樣一套全球范圍內(nèi)都可以接受的,、基于 AI 方向的矩陣擴展指令集標準,意義非常重大,。
RISC-V 的優(yōu)勢在于開源,,但劣勢也在于此:如果指令集不統(tǒng)一,、" 各自為戰(zhàn) "、就會有碎片化的問題,。
目前包括谷歌,、高通,、Meta等全球頭部科技巨頭都在往 RISC-V 矩陣指令集擴展及相關(guān)標準統(tǒng)一的方向上努力,,這進一步證明了這一方向的正確性。
而國內(nèi) AI 芯片創(chuàng)企希姆計算,,正成為其中跑的最快的一個,,成為這一領(lǐng)域中中國芯片企業(yè)的代表,,在國際行業(yè)標準的制定方面將話語權(quán)掌握在了自己手里。
02.
從芯片指令集創(chuàng)新到產(chǎn)業(yè)化落地,,
希姆計算打通 RISC-V AI 應(yīng)用全鏈條
正如前文所說,,新標準的統(tǒng)一成為 RISC-V 生態(tài)在 AI 新時代最需要解決的問題,也成為全球科技巨頭競爭的焦點,。希姆計算這次在標準制定過程中的亮眼表現(xiàn),,贏得了國際基金會和業(yè)界的廣泛認可。
根據(jù)官方信息,,目前希姆計算的 RISC-V 矩陣擴展開源項目已升級至 0.5 版本,,支持了向量 + 矩陣的實現(xiàn)。
具體來看,,最新的 RISC-V 矩陣指令集采用了 Tile-based 的矩陣乘法架構(gòu)設(shè)計,,在原有基礎(chǔ)上進一步完善了編程模型和類型支持,同時提供了基本版 32 位指令編碼,。
此外,,通過參數(shù)化寄存器架構(gòu)和模塊化類型系統(tǒng),新的 RISC-V 矩陣指令集能夠適應(yīng)從邊緣到云端的各種應(yīng)用場景,。
值得一提的是,,為了進一步推動標準化和商業(yè)實施,希姆計算還更新了一系列工具,,包括基于 LLVM 的編譯器,、基于 Spike 的模擬器、基于 GDB 的調(diào)試器,,以及基于 SCOOP(Stream Computing Out-of-Order Processor)平臺的開源核心實現(xiàn),,其包含對 RVV 和 RV Matrix 的支持。
站在今天的 0.5 版本回顧過去三年,,希姆計算可以說實現(xiàn)了 " 從量變到質(zhì)變 " 的積累,。
從 2022 年 9 月 RISC-V 矩陣 ISA 規(guī)范 0.1 版本完成、首次向 RISC-V 國際基金會提交開源提案和支持工具,,到 2023 年與達摩院建立了協(xié)商機制,、共同探索 RISC-V 矩陣指令集,。
用希姆計算執(zhí)行副總裁陳煒博士的話來說,指令集的設(shè)計,、功能的完善補充,,是一個不斷的學(xué)習(xí)和演進的過程,逐漸從非標到標準化,,與國際上達成的共識相一致,。
此外,指令集從設(shè)計到應(yīng)用落地也充滿挑戰(zhàn),,比如仿真驗證,、DEBUG 等方面相關(guān)軟件的完善,以及面對 AI 應(yīng)用在算子庫層面的更廣泛支持,。
由于目前矩陣指令集的國際標準還沒有定下來,,相關(guān)配套的軟件工作量是非常大的,希姆計算團隊投入了大量資源來完善相關(guān)工作,。
值得一提的是,,希姆計算的獨到優(yōu)勢之處在于,其不光完成了指令集的開發(fā)工作,,還進一步實現(xiàn)了產(chǎn)業(yè)化,,也就是對大模型的適配以及應(yīng)用的落地。
就在本月早些時候,,RISC-V 國際基金會正式刊發(fā)的《希姆計算基于 RISC-V 計算能力和大型語言模型(LLMs)提供智能社區(qū)服務(wù)》一文,,基于自主研發(fā)的 RISC-V 芯片和推理加速卡 STCP920,希姆計算給 LLM 應(yīng)用創(chuàng)建了一個集成 RISC-V 硬件和軟件的生態(tài)系統(tǒng),。
這個生態(tài)系統(tǒng)包括一個智能計算云平臺,、行業(yè) LLMs、數(shù)據(jù)治理平臺和一個智能代理開發(fā)平臺,?;谶@套系統(tǒng),希姆計算為廣州某社區(qū)定制開發(fā)了一個便捷的社區(qū)服務(wù)助手,。據(jù)稱該助手可以提供 37 類、超 2000 項服務(wù),,社區(qū)服務(wù)咨詢的準確性從原來的 30% 提高到了現(xiàn)在的 95% 以上,。
在 AI 推理性能方面,STCP920 AI 加速卡已經(jīng)經(jīng)過國內(nèi)頭部互聯(lián)網(wǎng)廠商 50 多個模型測試,,平均下來,,希姆計算的 12nm 板卡推理性能是英偉達 7nm A10 的 108%,可以說是兼顧通用性和高性能的解決方案,,也是全球第一個量產(chǎn)的基于 RISC-V 的 AI 推理卡,。
尤為重要的是,,希姆計算采用的 12nm 工藝節(jié)點可以很好地規(guī)避制程受限的問題,無論是 TSMC 南京工廠還是中芯國際都可以支持這一工藝節(jié)點,。
03.
將底層技術(shù)標準制定握在自己手里,,
中國科技產(chǎn)業(yè)或?qū)崿F(xiàn)歷史性突破
在完成自身技術(shù)和產(chǎn)品體系化、產(chǎn)業(yè)化的基礎(chǔ)上,,希姆計算進一步積極推動 RISC-V 行業(yè)新標準制定的舉措,,給全球芯片產(chǎn)業(yè)各方帶來了重要價值,對中國科技產(chǎn)業(yè)發(fā)展也有著歷史性意義,。
對 CPU 廠商來說,,有了完整指令集以及各種擴展支持,CPU 增加 AI 相關(guān)的特性功能就會更加便利,;SoC 芯片公司也可以針對不同方向做更多的組合,,根據(jù)應(yīng)用場景來做更好的芯片設(shè)計。
此外,,對于在 " 大算力 " 領(lǐng)域做 AI 加速器的公司來說,,指令集標準的完善對軟件生態(tài)和應(yīng)用的建設(shè)都非常有幫助。
今天,,從數(shù)據(jù)中心到車載,、機器人、AI PC,、AI 手機,、AIoT,不同場景都有不同的公司在聚焦,,如果能夠在芯片指令集架構(gòu)層面形成統(tǒng)一,,各家的軟件生態(tài)就可以更好的融合。
千變?nèi)f化的應(yīng)用都可以追溯到同一個基礎(chǔ)指令集,,將非常有助于整個產(chǎn)業(yè)的蓬勃發(fā)展,。
除了對全球芯片產(chǎn)業(yè)的重要推動作用,0.5 版本的發(fā)布對中國科技產(chǎn)業(yè)在全球市場掌握更多話語權(quán)也有著重要意義,。
0.5 版本的發(fā)布,,意味著中國公司為國際社區(qū)作出了重要貢獻,并且在關(guān)鍵的標準制定層面跑在了前面,。
正如希姆計算 CEO 梅迪所說,,如果中國企業(yè)能先行一步,成為標準的主要制定者和推動者之一,,就可以讓國內(nèi)的軟件和應(yīng)用生態(tài)能夠更多的被國際接受,、一起融合發(fā)展。
這也是為什么要有更多中國公司來做這件事,去為標準的統(tǒng)一做貢獻,,去盡可能多的爭奪話語權(quán),。
今天,放眼芯片,、AI 乃至整個科技產(chǎn)業(yè),,受到地緣政治的影響,隸屬于一個國家的一套技術(shù)路線往往都難以推廣至全球范圍內(nèi)被積極采用,。
但同時產(chǎn)業(yè)又呼吁生態(tài)的融合發(fā)展,,因此唯一的解決方式就是采用一套不隸屬于任何國家的開源技術(shù)路線,這也是 RISC-V 方案的突出優(yōu)勢之一,。
在當今國家數(shù)據(jù)資產(chǎn)治理和轉(zhuǎn)型的關(guān)鍵發(fā)展階段,,一個開放、穩(wěn)定,、安全,、融和、去中心化以及保持和國外接軌的算力底層技術(shù)路線顯得尤為重要,。
縱觀信息時代全球科技產(chǎn)業(yè)的發(fā)展,,中國在絕大部分重要的底層技術(shù)路線上,都沒能將標準化工作掌握在自己手里,,要做到底層技術(shù)話語權(quán)的掌控,,是非常難的一件事。
而今天希姆計算推動 RISC-V 在 AI 方向上的一系列標準制定工作,,顯然是有重大意義的,,也必然會在未來展現(xiàn)出巨大價值。
04.
結(jié)語:在芯片產(chǎn)業(yè) " 種樹 ",,
希姆計算瞄準的是 AI 更大的未來
從 2019 年選擇差異化市場競爭,、布局 RISC-V 相關(guān)技術(shù),到 2022 年自研 AI 加速卡踩中大模型風(fēng)口,,再到如今全球 RISC-V 矩陣擴展指令集標準的建設(shè)成為必須要做的事情,。
從摸著石頭過河到如今產(chǎn)業(yè)化落地,希姆計算無疑是在全球 RISC-V 生態(tài)建設(shè)中走的最早的一批中國企業(yè),。他們從幕后走到臺前,,從摸索追趕到推動矩陣指令集標準的完善,領(lǐng)跑細分賽道,。
用梅迪的話來說,,希姆計算希望把自己的技術(shù)路線、方案等沉淀下來,,爭取讓行業(yè)中其他公司可以跟隨,從而實現(xiàn)對行業(yè)的引領(lǐng),。
從底層做起,、扎扎實實,,雖然初期挑戰(zhàn)重重,但完成后卻能夠迸發(fā)出巨大商業(yè)化潛力,。
希姆計算所做的事情就好比在芯片產(chǎn)業(yè)中 " 種樹 ",,而種一棵樹,最好的時間就是今天,。