把GPT時代引擎拉滿，國產(chǎn)AI大算力芯片換道狂飆-AET-電子技術(shù)應用

把GPT時代引擎拉滿，國產(chǎn)AI大算力芯片換道狂飆

日期： 2023-04-10

作者：ZeR0

來源：芯東西

關(guān)鍵詞： GPT AI 大算力芯片

從2022年11月開始，美國人工智能（AI）公司OpenAI連續(xù)祭出ChatGPT家族的3、3.5、4以及插件還有商業(yè)落地模式的連環(huán)大招，引爆了全球關(guān)注和期待AI應用發(fā)展的新一輪熱潮。而在此之前，AI發(fā)展歷程中已出現(xiàn)過兩次“圣杯時刻”。

　　2012年10月，在國際頂級賽事ImageNet計算機視覺挑戰(zhàn)賽上，杰弗里·辛頓與其團隊用卷積神經(jīng)網(wǎng)絡（CNN）算法一舉奪魁，憑借比人眼識別還低的錯誤率，掀開了計算機視覺盛世的序章。

　　2016年3月，DeepMind研發(fā)的AI程序AlphaGo戰(zhàn)勝世界圍棋冠軍李世石，在全世界擲下一枚重磅炸彈。“人工智能”從此出圈，創(chuàng)業(yè)狂瀾席卷全球，2016年也被稱作“人工智能元年”。

　　兩次“圣杯時刻”背后的算力功臣，分別是英偉達GPGPU（通用圖形處理單元）芯片與谷歌TPU（張量處理單元）芯片。他們也成為業(yè)界AI大算力芯片企業(yè)競相模仿和追趕的對象。

　　如今，ChatGPT的橫空出世宣告著AI行業(yè)迎來第三次“圣杯時刻”，業(yè)界也將其盛贊為AI時代的“iPhone時刻”。盡管ChatGPT及一眾主流大模型背后的芯片主力仍是GPGPU，但嚴峻的挑戰(zhàn)已經(jīng)擺到眼前：一邊是計算量爆棚的生成式AI與大模型發(fā)展熱情高漲，另一邊是即將觸頂?shù)乃懔υ鲩L空間與算力消耗所帶來的驚人碳排放量。

　　正如馬斯克所述，大多數(shù)人會用舉一反三的類比推理來思考問題，即模仿別人做的事情再加以小幅更改，可如果想做出新的東西，必須敢于打破常規(guī)、積極質(zhì)疑舊的經(jīng)驗知識，探究問題本質(zhì)，層層推演，進而創(chuàng)造出新的解決方案。

　　中國AI大算力芯片的創(chuàng)新之路，大抵亦是如此。

　　當ASIC、GPGPU發(fā)展道路面臨底層技術(shù)與產(chǎn)業(yè)需求的雙向夾擊，“換道”也許能開辟新的可能。誰能率先填補大模型算力需求的缺口，誰就有機會搶占新一輪AI芯片搶位賽的前排。

　　01.

　　國產(chǎn)AI大算力芯片的

　　三波創(chuàng)業(yè)浪潮與三大技術(shù)流派

　　ChatGPT引起的算力焦慮，已經(jīng)將提高能效比與算力利用率的迫切性推到臺前。

　　在產(chǎn)業(yè)前景、戰(zhàn)略重要性、自主可控等多重因素驅(qū)動下，一批批中國AI芯片企業(yè)立足于不同的技術(shù)路徑，前赴后繼地進入AI大算力芯片領(lǐng)域，并形成群雄逐鹿的三大技術(shù)流派。

　　第一波浪潮是基于ASIC架構(gòu)，也可以劃定為中國AI大算力芯片落地的技術(shù)1.0。

　　這可追溯至2015年-2016年，并稱“天寒地鑒”的AI芯片四小龍云天勵飛、寒武紀、地平線、深鑒科技，都是在此期間啟動AI芯片研發(fā)。其中唯一的FPGA代表玩家深鑒科技于2018年被美國FPGA龍頭賽靈思收購。寒武紀和地平線分別是領(lǐng)跑云端和自動駕駛國產(chǎn)大算力芯片落地的企業(yè)，都選擇做ASIC（專用芯片）。

　　2016年5月，谷歌揭曉AlphaGo背后的功臣TPU，吹響了產(chǎn)業(yè)沿襲ASIC路線的號角。此后多家創(chuàng)企以及華為、亞馬遜等云計算大廠均選擇在ASIC芯片賽道安營扎寨。上海交通大學計算機科學與工程系教授梁曉峣告訴智東西，在算法較固定的情況下，專用芯片的性能和功耗優(yōu)勢明顯，能夠滿足企業(yè)對極致算力和能效的追求。

微信截圖_20230410135153.png

　　然而，下游AI算法的演進速度遠超想象。根據(jù)頂級AI研究企業(yè)OpenAI在2018年發(fā)布的一份分析報告，自2012年到2017年，訓練最大AI模型所使用的算力每3.4個月翻1倍。相比之下，按照芯片行業(yè)的“圭臬”摩爾定律，芯片上容納的晶體管數(shù)量每18~24個月才會翻1倍，兩者之間僅從翻倍的時間上，就產(chǎn)生了16-20個月的差距。

　　專用芯片在特定場景能實現(xiàn)更高算力和能效，但難以適應算法種類快速的增加以及迭代速度，因此通用性更強的GPGPU一直是AI芯片的主角。在2018年中美科技競爭大幕拉開后，國產(chǎn)替代的呼聲越來越高，創(chuàng)業(yè)熱點隨之切換到英偉達雄踞多年的GPGPU（通用GPU）賽道。

　　這成為第二波浪潮中主流技術(shù)路徑，也可以劃定為中國AI大算力芯片落地的技術(shù)2.0。天數(shù)智芯、登臨科技、壁仞科技、摩爾線程、沐曦集成電路等一批初創(chuàng)公司，大致都是2017年-2020年期間創(chuàng)業(yè)或啟動自研GPGPU芯片的研發(fā)。

　　資本也蜂擁而至，邏輯很簡單，GPGPU市場有英偉達珠玉在前，已經(jīng)驗證了成功的可能性。以英偉達上百億美元年收入與躋身全球前十的市值來看，假若能切走英偉達在中國的市場份額，足以帶給國產(chǎn)AI大算力芯片企業(yè)優(yōu)渥的回報。

　　但無論是ASIC還是GPGPU，在應對生成式AI及大模型正對算力基礎(chǔ)設施提出的新要求，都顯得多少有些捉襟見肘。

　　微信截圖_20230410135235.png

　　眼見著摩爾定律身陷邊際效用遞減的困境，ASIC芯片的弱通用性難以應對下游算法的快速演化，GPGPU又難解高功耗與低算力利用率問題，業(yè)界正翹首以盼新架構(gòu)、新工藝、新材料、新封裝，以進一步突破算力天花板。

　　與此同時，博弈氣息日漸濃厚的地緣關(guān)系，又給對先進制程工藝高度依賴的AI大算力芯片創(chuàng)企們提出了技術(shù)之外的新難題。

　　在這些大背景下，第三波創(chuàng)業(yè)浪潮正滾滾向前。從2017年到2021年期間集中成立的一批創(chuàng)企，選擇探路存算一體等新興技術(shù)，這可以被劃定為中國AI大算力芯片落地的技術(shù)3.0。

　　不同于ASIC與GPGPU，這些新興技術(shù)路線跳出了馮·諾依曼架構(gòu)體系，理論上擁有得天獨厚的高能效比優(yōu)勢，又能繞過先進制程封鎖，兼顧更強通用性與更高性價比，算力發(fā)展空間巨大。隨著新型存儲器件走向量產(chǎn)，存算一體AI芯片已經(jīng)挺進AI大算力芯片落地競賽。

　　微信截圖_20230410135311.png

　　而無論是傳統(tǒng)計算芯片還是存算一體芯片，在實際加速AI計算時往往還需處理大量的邏輯計算、視頻編解碼等非AI加速計算領(lǐng)域的計算任務。隨著多模態(tài)成為大模型時代的大勢所趨，AI芯片未來需處理文本、語音、圖像、視頻等多類數(shù)據(jù)。

　　這個問題如何解決？億鑄科技，一家做存算一體AI大算力芯片的創(chuàng)企提出了自己的解法——存算一體超異構(gòu)AI大算力技術(shù)路徑。這也是業(yè)內(nèi)首次提出將存算一體和超異構(gòu)做結(jié)合，提供在大模型時代AI大算力芯片換道發(fā)展的一個全新思路。

　　02.

　　兼顧通用性&高性能

　　未來必然走向超異構(gòu)

　　生成式AI和大模型時代向算力基礎(chǔ)設施提出的核心要求，可以簡單概括為幾個詞：提高單芯片算力，突破算力利用率，實現(xiàn)更高能效比。

　　上海交通大學計算機科學與工程系教授、博導梁曉峣及其團隊是開源GPGPU平臺“青花瓷”的發(fā)起者。他談道，當下需從系統(tǒng)的角度來思考問題。首先在單芯片算力方面，他非常看好存算一體，認為通過引入新型存儲器件工藝，存算一體AI芯片有望將單芯片算力提高1~2個數(shù)量級。

　微信截圖_20230410135405.png

　　但單顆芯片很難為大模型提供充足的計算資源與存儲資源，這就需要將很多計算芯片連在一起，形成系統(tǒng)。據(jù)韓媒報道，受ChatGPT熱潮驅(qū)動，韓國兩大存儲芯片巨頭三星電子、SK海力士的高帶寬內(nèi)存（HBM）接單量大增。

　　芯片與芯片之間的數(shù)據(jù)傳輸過程，往往會造成大量不必要的資源浪費，導致計算系統(tǒng)受限于傳輸帶寬瓶頸，在實際應用中發(fā)揮的算力遠小于理論峰值算力。要進一步提升計算資源利用率，必須研究更先進的互連技術(shù)，以實現(xiàn)成千上萬個AI芯片之間的高效協(xié)同。

　　最后，軟件的迭代升級亦不可或缺。要降低芯片開發(fā)門檻并實現(xiàn)所有芯片的高效協(xié)同，需要設計分布式的AI編程軟件平臺，來解決線程調(diào)度、同步、任務平衡等復雜問題。

　　“沒有一個單芯片能夠獨立解決大模型問題，所以一定是走向一個超異構(gòu)。”梁曉峣說，盡管他很看好存算一體路線，但僅靠存算一體還不夠，還需與其他架構(gòu)配合，形成一個完整的系統(tǒng)。

　　億鑄科技首次提出的“存算一體超異構(gòu)”概念，就有可能是一個未來的理想組合。

　　超異構(gòu)計算將CPU、GPGPU、CIM（存內(nèi)計算）等不同類型的芯片用先進封裝技術(shù)組合，讓不同架構(gòu)各司其職，既有靈活、可編程的部分來適應算法的快速變化，又有定制化部分來提供超高性能和超低功耗，通過統(tǒng)籌調(diào)度，綜合發(fā)揮出多類芯片架構(gòu)的優(yōu)勢，將整體效率做到最優(yōu)。

　　由于器件優(yōu)勢，存算一體在同等功耗下能承擔更大算力。在超異構(gòu)計算的基礎(chǔ)上，以存算一體架構(gòu)為核心，以其他架構(gòu)作輔助，理論上能夠兼顧對高算力與通用性的需求。億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士相信，存算一體超異構(gòu)將來會成為AI算力芯片的主流技術(shù)路線之一。

　　在今年2月份舉行的國際芯片設計領(lǐng)域最高級別會議ISSCC 2023大會上，AMD董事長兼CEO蘇姿豐也提出了相似的“系統(tǒng)級創(chuàng)新”概念，即綜合考慮跨計算、跨通信、跨內(nèi)存等各項元素，從整體上推動系統(tǒng)級性能和能效的提升。

　　而存算一體超異構(gòu)理念的前瞻性和落地可行性在于，它不像基于傳統(tǒng)計算架構(gòu)的大算力芯片那樣依賴先進制造技術(shù)。這一思路需結(jié)合的新架構(gòu)、新存儲、新封裝等前沿技術(shù)，國內(nèi)均已有儲備。

　　03.

　　減輕先進制程依賴癥，億鑄科技的

　　存算一體超異構(gòu)如何換道超車？

　　據(jù)悉，存算一體超異構(gòu)主要運用到新型憶阻器（RRAM）、存算一體架構(gòu)、Chiplet（芯粒）、3D封裝等技術(shù)，而國內(nèi)企業(yè)在這些技術(shù)路線上已經(jīng)有越來越多的起色。

　　Chiplet及先進封裝方案能夠彌補先進制程落后的劣勢，通過將來自不同生產(chǎn)廠商、不同制程工藝的芯片組件“混搭”，降低實現(xiàn)目標性能所需的成本。這為國內(nèi)芯片企業(yè)提供彎道超車的機會。

　　目前，國內(nèi)封測巨頭相關(guān)技術(shù)積累已初顯成效。例如長電科技的XDFOI Chiplet高密度多維異構(gòu)集成系列工藝已進入穩(wěn)定量產(chǎn)階段；通富微電與AMD密切合作，已大規(guī)模生產(chǎn)7nm Chiplet產(chǎn)品；華天科技的Chiplet系列工藝也實現(xiàn)量產(chǎn)。

　微信截圖_20230410135621.png

　　從單芯片來看，熊大鵬告訴智東西，存算一體芯片屬于是“換道超車”，對工藝的要求較低，比如在28nm工藝上實現(xiàn)的算力和能效，就能比肩甚至超過傳統(tǒng)架構(gòu)芯片在7nm工藝上的表現(xiàn)。

　　梁曉峣說，億鑄科技是第一家嘗試設計并量產(chǎn)基于ReRAM全數(shù)字存算一體AI大算力芯片的企業(yè)。據(jù)熊大鵬透露，億鑄科技自研的存算一體AI大算力芯片，或?qū)⒃?5W-100W功耗范圍內(nèi)實現(xiàn)接近1P的算力，能效比優(yōu)勢非常顯著，將于今年回片。同時，億鑄科技基于存算一體超異構(gòu)概念的下一代芯片設計工作已經(jīng)開始推進。

　　從器件來看，相比傳統(tǒng)存儲器存在易失性、微縮性差等痼疾，億鑄科技選擇采用的非易失性新型存儲器RRAM更適合應用于AI大算力場景。

　　此前，臺積電、聯(lián)電、中芯國際、昕原半導體等代工廠均建立了商業(yè)化RRAM產(chǎn)線。去年2月，昕原半導體主導建設的RRAM 12寸中試生產(chǎn)線已順利完成自主研發(fā)裝備的裝機驗收工作，實現(xiàn)中試線工藝流程的通線，并成功流片。

　　熊大鵬認為，隨著工藝不斷迭代，國內(nèi)“超車”速度會越來越快，優(yōu)勢會越來越明顯。

　　從超異構(gòu)來看，對于國內(nèi)企業(yè)來說，CPU有廣受歡迎的開源RISC-V架構(gòu)，GPGPU有新興的開源架構(gòu)“青花瓷”平臺，存算一體也有億鑄科技等廠商在大力投入研發(fā)。

　　開源GPGPU“青花瓷”平臺由上海交通大學先進計算機體系結(jié)構(gòu)實驗室開發(fā)，定位相當于GPGPU領(lǐng)域的RISC-V架構(gòu)。它提供了一個免費開放的先進GPGPU指令集和架構(gòu)參考設計，能夠接入現(xiàn)有GPGPU生態(tài)，從而助力降低設計門檻，加速相應產(chǎn)品的落地。

　　微信截圖_20230410135703.png

　　“青花瓷”平臺直通門：gpgpuarch.org

　　開源地址：github.com/SJTU-ACA-Lab/blue-porcelain

　　在梁曉峣看來，超異構(gòu)需要不同類型的芯片架構(gòu)互相配合、取長補短，這恰好與“青花瓷”平臺的設計思路完美契合。

　　存算一體架構(gòu)適用于計算和數(shù)據(jù)量大但算法相對簡單的應用，在性能和功耗的優(yōu)勢超過其他類型架構(gòu)；而GPGPU架構(gòu)可以適配現(xiàn)有的主流AI框架和平臺，并能處理比較復雜的算法。兩者結(jié)合，將會實現(xiàn)更大有效算力、放置更多參數(shù)、實現(xiàn)更高能效比、更好的軟件兼容性。

　　因此，面向未來大模型時代，存算一體超異構(gòu)的技術(shù)路徑打開了國內(nèi)AI大算力芯片技術(shù)發(fā)展的新思路，而億鑄科技的存算一體超異構(gòu)芯片是該路徑在國內(nèi)切實落地的關(guān)鍵一步。

　　04.

　　結(jié)語：大模型落地勢不可擋

　　AI算力困境亟待換道突破

　　正如蘇姿豐所言，AI已是未來十年最重要的事。

　　在生成式AI風暴的催化下，大模型正發(fā)展成AI基礎(chǔ)研究和產(chǎn)業(yè)化落地的一大趨勢。這對三波創(chuàng)業(yè)浪潮中的一眾AI大算力芯片創(chuàng)業(yè)公司提出了摩爾定律瀕臨極限之外更大的技術(shù)挑戰(zhàn)：如何以更低的系統(tǒng)成本、更少的能源消耗，支撐起龐大且持續(xù)增加的參數(shù)量所帶動的更高算力需求？

　　在美國對華屢屢架設芯片藩籬的背景之下，國內(nèi)短期內(nèi)難以實現(xiàn)先進制程的自主可控。回望中國AI大算力芯片發(fā)展歷程，業(yè)界一直用“彎道超車”來寄予對其發(fā)展路徑的期待，但彎道超車隱喻著產(chǎn)品和技術(shù)的發(fā)展和行業(yè)頭部企業(yè)在同一賽道上做跟隨和追及，這勢必對后來者在速度上和超車節(jié)點的把握上提出了更高的要求。

　　骨感的現(xiàn)實告訴我們，中國AI大算力芯片在“彎道超車”路徑下，也許還有很長的路要追趕。而“換道”可能加速縮短與國際先進水平的差距。同時，換道發(fā)展也不是無本之木，其芯片設計和量產(chǎn)有著嚴謹?shù)牡讓舆壿嫼统墒斓漠a(chǎn)業(yè)鏈配套作為支撐。億鑄科技的存算一體超異構(gòu)AI大算力芯片技術(shù)，便提供了一種能夠適應未來算法快速變化、滿足算力可持續(xù)發(fā)展需求的可行思路。

　　中國AI大算力芯片企業(yè)面臨的挑戰(zhàn)依然險峻，但不管是落地技術(shù)的1.0、2.0還是3.0，不管是同道追及還是換道前行，所有的努力都是為了支撐中國AI產(chǎn)業(yè)的高速發(fā)展，只要能切實解決問題，提供有價值的產(chǎn)品，都值得關(guān)注和期待。沉舟側(cè)畔千帆過，病樹前頭萬木春，希望看到更多像億鑄科技這樣的機構(gòu)，大步流星地走到換道前行的賽道上，為破解國內(nèi)AI大算力困局探尋屬于中國AI芯片產(chǎn)業(yè)自己的發(fā)展道路。

　　作者 | ZeR0

　　編輯 | 漠影

　更多精彩內(nèi)容歡迎點擊==>>電子技術(shù)應用-AET<<

微信圖片_20210517164139.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

把GPT時代引擎拉滿，國產(chǎn)AI大算力芯片換道狂飆

日期： 2023-04-10

作者：ZeR0

來源：芯東西

相關(guān)內(nèi)容