近日,,英偉達(dá)GTC大會(huì)上亮相了新一代GPU H100,,800億個(gè)晶體管,使用臺(tái)積電4nm工藝,,采用HBM3,,可實(shí)現(xiàn)3TB/s的顯存帶寬,算力達(dá)到了2000TOPs,,但功耗也創(chuàng)造了新紀(jì)錄,,達(dá)到了驚人的700W??梢哉f,,英偉達(dá)已經(jīng)在現(xiàn)有技術(shù)路線上把芯片性能和帶寬做到了極致,業(yè)界將鮮少有企業(yè)能夠用同樣的方式取得更高的突破,,要想在關(guān)鍵指標(biāo)上突破,,必須要發(fā)展新路徑。
在人工智能應(yīng)用推動(dòng)下,,存內(nèi)計(jì)算這個(gè)新型計(jì)算架構(gòu)逐漸被商業(yè)界看重,,也成為未來造就計(jì)算芯片的熱門技術(shù)之一。在這樣的背景下,,后摩智能異軍突起,,試圖用存算一體來解鎖大算力AI芯片,據(jù)悉,,其首款基于SRAM的存算一體大算力AI芯片近日已被成功點(diǎn)亮,。國內(nèi)發(fā)展大算力AI芯片再多一條創(chuàng)新路徑。
用存算一體顛覆大算力AI芯片
在人工智能,、5G,、大數(shù)據(jù)和自動(dòng)駕駛交織而成的數(shù)字經(jīng)濟(jì)文明時(shí)代,計(jì)算能力將決定生產(chǎn)力,。OpenAI發(fā)現(xiàn),,自2012年以來,人工智能所需的計(jì)算能力大約每3,、4個(gè)月翻一番,。所以現(xiàn)在,越來越多的芯片企業(yè)開始投入重金,,不斷的在AI大算力芯片上攻堅(jiān),。
那么,,目前市面上都有哪些主流的大算力AI芯片方案:
第一種是當(dāng)下英偉達(dá)采用的的這種馮·諾依曼架構(gòu)策略,用HBM來解決內(nèi)存墻的問題,,采用3D封裝,,工藝要先進(jìn),最新一代的英偉達(dá)GPU Hopper架構(gòu)已經(jīng)到了4nm,。這種方案的優(yōu)點(diǎn)是相對(duì)成熟,,英偉達(dá)已經(jīng)趟過。缺點(diǎn)是無法打造足夠的差異化,,能做到英偉達(dá)70-80分就差不多是極限,再者,,其HBM成本占比較大,,總體昂貴。
第二種是DSA,,也就是算法和芯片高度綁定在一起的方案,。其優(yōu)點(diǎn)是,不僅可以提高計(jì)算效率,,還能達(dá)到降低功耗的目的,;該方案類似Turn-key的方式,比較方便省事,。但這種方式的缺點(diǎn)是,,算法和硬件是緊耦合的,部分算法硬化到電路里,,以犧牲靈活性換取效率提升,。因?yàn)椴煌蛻羲枰乃惴ǜ鳟悾宜惴ㄔ诳焖俚?,完全黑盒的方式可能并不那么受歡迎,。
在后摩智能看來,對(duì)于初創(chuàng)公司,,如果沒有技術(shù)創(chuàng)新而采用巨頭大廠的技術(shù)路線,,是很難在競爭中脫穎而出的。而且1-2倍的產(chǎn)品性能提升并不具有絕對(duì)競爭力,,必須要有5倍,、10倍以上的提升才能真正刺激到生態(tài)的轉(zhuǎn)變。所以要想在大算力芯片上取得更高的突破和更長遠(yuǎn)的發(fā)展,,宏觀上必須要有差異化,,不能以英偉達(dá)的方式去打敗英偉達(dá),就如同當(dāng)年英偉達(dá)沒用英特爾的方式來打英特爾一般,。
存算一體這種打破傳統(tǒng)存儲(chǔ)墻和功耗墻的新架構(gòu),,成為后摩智能顛覆大算力AI芯片的策略,。目前在架構(gòu)創(chuàng)新可稱之為是第三種大算力AI芯片的方式。這是一條有風(fēng)險(xiǎn)的路徑,,但也是一條技術(shù)進(jìn)階比較大的路徑,。其實(shí)國外已有不少企業(yè)開始在創(chuàng)新架構(gòu)上進(jìn)行大膽的探索和創(chuàng)新,如英國公司Graphcore的IPU,,就是采用基于SRAM的近存計(jì)算,,其產(chǎn)品也頗具競爭力,只是云端訓(xùn)練市場生態(tài)太重,。后摩智能則更進(jìn)一步,,基于SRAM做到了存內(nèi)計(jì)算。
在各種存儲(chǔ)介質(zhì)中,,SRAM是一項(xiàng)成熟度較高且能夠滿足理想存內(nèi)計(jì)算并行性需求的存儲(chǔ)介質(zhì)之一,,是未來3-5年產(chǎn)業(yè)化的必選路徑之一。作為存內(nèi)計(jì)算的計(jì)算部件,,SRAM讀寫性能優(yōu)勢較大,,存儲(chǔ)邏輯簡單清晰,不易受外界干擾,,外圍電路可操作性大,,且能夠和現(xiàn)在的數(shù)字處理器技術(shù)天然融合。
“采取存算一體這種新架構(gòu)的方式,,其技術(shù)演進(jìn)的天花板會(huì)更高,,而且在成本上更可控,未來也更容易做到大規(guī)模普及,?!焙竽χ悄苈?lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭表示,。 成立僅1年多,,后摩智能的首款基于SRAM的存算一體大算力AI芯片就成功點(diǎn)亮,這也是業(yè)內(nèi)首款大算力存算一體AI芯片,。據(jù)后摩智能聯(lián)合創(chuàng)始人,、戰(zhàn)略副總裁項(xiàng)之初透露,該款芯片采用22nm工藝制程,,樣片算力達(dá)20TOPS,,可擴(kuò)展至200TOPS,計(jì)算單元能效比高達(dá)20TOPS/W,。相比國際廠商1~2TOPS/W的平均水準(zhǔn)來說,,后摩智能在能效比上優(yōu)勢明顯。而且這是在不犧牲芯片靈活性的基礎(chǔ)上做到的,,后摩的芯片不但支持市面上的主流算法,,還可以支持不同客戶定制自己的算子,。
后摩智能芯片開發(fā)板
當(dāng)下信創(chuàng)等國產(chǎn)替代的剛需,給芯片創(chuàng)業(yè)公司帶來了很大的市場機(jī)會(huì),,在這樣的需求下,,國產(chǎn)芯片無需各項(xiàng)指標(biāo)都達(dá)到100分級(jí)別,可能及格就行,,但在后摩智能看來,,國產(chǎn)替代只是其中一個(gè)撬動(dòng)的點(diǎn),芯片是一個(gè)長跑賽道,,要想真正經(jīng)得住市場的長期考量,,最終還是能夠持續(xù)的用領(lǐng)先技術(shù)做出有競爭力的產(chǎn)品,真正給客戶帶來價(jià)值,。
后摩智能信心何在,?
當(dāng)下AI創(chuàng)企眾多,各種技術(shù)路徑不同,,做大算力芯片的不少,,做存算一體芯片的企業(yè)也有一些,,但用存算一體來做AI大算力芯片的卻寥寥無幾,。后摩智能為何敢勇闖無人區(qū)?
信曉旭坦言道,,存算一體大算力芯片確實(shí)沒有企業(yè)工程實(shí)現(xiàn)過,,主要系其存在一些技術(shù)難點(diǎn),譬如存儲(chǔ)單元陣列,、AI core,、工具鏈等各個(gè)方面都需要有經(jīng)驗(yàn)、并且具備極強(qiáng)功力的團(tuán)隊(duì),,將其整合起來,,還需要進(jìn)行整體的協(xié)同優(yōu)化設(shè)計(jì),才能最終實(shí)現(xiàn)一款高效的基于存算一體的大算力AI芯片,。當(dāng)然如果這些難點(diǎn)被成功攻克之后,,將成為企業(yè)最堅(jiān)固的護(hù)城河。
后摩智能聯(lián)合創(chuàng)始人,、戰(zhàn)略副總裁項(xiàng)之初補(bǔ)充道,,“要做存算一體的AI大芯片,需要有兩撥人:一撥是在存算一體學(xué)術(shù)領(lǐng)域達(dá)到國際頂尖水準(zhǔn)的學(xué)者,;另一撥是做過大芯片的工程派系,。”后摩智能兼具這兩大派系,,創(chuàng)始團(tuán)隊(duì)的成員來自普林斯頓大學(xué),、美國Penn State大學(xué)等海內(nèi)外知名高校,,及AMD、Nvidia,、華為海思,、地平線等一線芯片企業(yè),在先進(jìn)存儲(chǔ)器件及存算一體技術(shù)方向擁有近15年的研究積累,,具有豐富的存算電路設(shè)計(jì)與流片,、先進(jìn)制造工藝從理論到實(shí)踐、以及大芯片設(shè)計(jì)與實(shí)戰(zhàn)經(jīng)驗(yàn),,主導(dǎo)過多顆世界級(jí)芯片的研發(fā)量產(chǎn),,包括GPU、CPU,、及高性能車規(guī)級(jí)AI芯片,。
這兩大派系的團(tuán)隊(duì)成員各司所長,又互相爭議,,對(duì)AI芯片的核心痛點(diǎn)——能效比進(jìn)行深層次的碰撞,。最終做出的產(chǎn)品有兩大優(yōu)勢:一個(gè)是芯片的處理能效比大大提升,另外,,存算融合的方式也提升了芯片的計(jì)算密度,,為成百上千Tops的大算力提供更好的擴(kuò)展性。
那么問題來了,,既然后摩智能可以做,,其他廠商是不是也可以集齊這兩撥人進(jìn)行復(fù)制?關(guān)于這方面,,項(xiàng)之初告訴筆者,,首先,對(duì)創(chuàng)業(yè)公司來說,,有存算一體經(jīng)驗(yàn)的工程師在工業(yè)界并不多見,,新入者需要從零開始做起,而后摩智能已具有2-3年的先發(fā)優(yōu)勢,,可以通過快速迭代產(chǎn)品提前拿下一定的市場,。再者,像英偉達(dá)這樣有足夠資源的巨頭,,如果也反過來做存算一體的大芯片,,對(duì)他們而言,最痛苦的是顛覆原來強(qiáng)大的生態(tài),,所以不到萬不得已,,他們不會(huì)自廢武功。
在當(dāng)下半導(dǎo)體創(chuàng)業(yè)熱度空前,、人心浮躁的大背景下,,后摩智能聚攏了在存算一體和AI大芯片領(lǐng)域富有經(jīng)驗(yàn)的團(tuán)隊(duì),,探索真正顛覆AI芯片的新技術(shù),實(shí)現(xiàn)國產(chǎn)芯片換道超車,,在前沿化和工程化上與國際大廠進(jìn)行PK,。一位最近新加入后摩智能,在某國際大廠工作了20多年的資深工程師表示,,加入后摩智能不僅僅是金錢的意義,,更重要的是公司的目標(biāo)讓他又有了為實(shí)現(xiàn)夢(mèng)想而奮斗的感覺。
應(yīng)用場景的無限可能
產(chǎn)品研發(fā)出來只是萬里長征的第一步,,能夠真正找到落地場景才是更重要的,。AI大芯片的第一個(gè)市場需求較大的場景是數(shù)據(jù)中心,早期的創(chuàng)業(yè)者們也大都聚焦在這個(gè)領(lǐng)域,,目前這些企業(yè)也交出了一些性能不錯(cuò)的產(chǎn)品,,現(xiàn)在對(duì)AI大芯片的需求已經(jīng)逐漸來到邊緣端,譬如智能駕駛領(lǐng)域,,而且其需求快速增長,,大有超越數(shù)據(jù)中心之勢。因此,,后摩智能首要主打的市場是智能駕駛,、泛機(jī)器人等大邊緣端。
后摩智能的市場邏輯是,,絕對(duì)不會(huì)和英偉達(dá)進(jìn)行水平競爭,,而是要從垂直細(xì)分領(lǐng)域,、且大廠生態(tài)壁壘最薄弱的地方切入,。后摩智能指出,當(dāng)下AI生態(tài)中最主要的就是算法,,早期的CV類算法生態(tài)沒有那么牢不可破,,可作為一個(gè)發(fā)力突破點(diǎn)。在這方面也有成功的案例,,CV類算法目前主要應(yīng)用在安防和智能駕駛領(lǐng)域,,早期安防領(lǐng)域是英偉達(dá)主宰的市場,但后來華為海思的3559A很快占領(lǐng)了安防市場,;智能駕駛也是CV類的場景,,其主要是解決眼睛看的問題,相對(duì)來說也是英偉達(dá)比較薄弱的地方,。
后摩智能基于自研的存算一體大算力AI芯片,,
成功跑通智能駕駛算法模型
所以在早期的AI落地場景中,后摩智能會(huì)優(yōu)先選擇CV類的場景,,智能駕駛是后摩智能首選的方向,。智能駕駛作為一個(gè)大的市場,,作為技術(shù)棧,如果能夠攻克,,將來技術(shù)能力自然會(huì)外溢到機(jī)器人,、數(shù)據(jù)中心等更多場景。
“如果市場下游比較固定,,那供應(yīng)鏈也是相對(duì)較穩(wěn)定的,,這對(duì)創(chuàng)業(yè)型公司來說是不友好的。而汽車當(dāng)下是處于高速變化的場景,,新能源車,、智能駕駛各個(gè)新需求的誕生,車企需要找到更適配的供應(yīng)鏈,。這給創(chuàng)業(yè)公司帶來了很大的機(jī)遇,。”項(xiàng)之初指出,。
后摩智能的團(tuán)隊(duì)在車規(guī)AI芯片上有豐富的經(jīng)驗(yàn)?,F(xiàn)在公司正在著手引入車規(guī)級(jí)認(rèn)證。信曉旭談到,,像智能駕駛這樣的大邊緣推理機(jī)會(huì)很適合用SRAM做存算一體,。當(dāng)然后摩智能并沒有止步于此,公司還在對(duì)新的存儲(chǔ)介質(zhì)RRAM和MRAM進(jìn)行探索,。他補(bǔ)充道,,現(xiàn)在在SRAM上的AI核心的設(shè)計(jì)、編譯器和解決方案等的配套,,在RRAM上是可以直接繼承過去的,,經(jīng)過幾年的客戶打磨,再隨著RRAM等存儲(chǔ)介質(zhì)的成熟,,繼而進(jìn)行更進(jìn)一步的提升,,徹底顛覆AI計(jì)算的格局。值得一提的是,,后摩智能已經(jīng)拿到了臺(tái)積電RRAM的PDK,。
結(jié)語
圖靈獎(jiǎng)得主、計(jì)算機(jī)體系結(jié)構(gòu)宗師David Patterson與John Hennessy認(rèn)為,,未來將是計(jì)算機(jī)體系結(jié)構(gòu)的黃金十年,,新的架構(gòu)設(shè)計(jì)將會(huì)帶來更低的成本,更優(yōu)的能耗,、安全和性能,。存算一體這種新架構(gòu)作為延續(xù)摩爾定律的一條有利的道路,備受資本界和商業(yè)界關(guān)注。我們也已看到,,國外已經(jīng)有多家AI初創(chuàng)公司采用架構(gòu)創(chuàng)新的路徑發(fā)力AI芯片,,并且還交付了非常有競爭力的產(chǎn)品,如Graphcore,,SambaNova等,。
在國產(chǎn)大算力AI芯片的攀登之路上,后摩智能作為國內(nèi)唯一一家選擇以架構(gòu)創(chuàng)新的方式來設(shè)計(jì)大算力AI芯片,,并且躋身為數(shù)不多的國際前沿技術(shù)研究企業(yè)的行列,,必將為國產(chǎn)AI芯片彎道超車、趕超巨頭帶來更大的機(jī)會(huì),。