在之前舉辦的RISC-V峰會上,,Esperanto Technologies的首席執(zhí)行官Art Swift宣布了一款基于RISC-V的新型芯片,,旨在進行機器學習,包含基于開源RISC-V架構的近1100個低功耗內核,。
這個產品在發(fā)布之后引來了廣泛討論,。今日,EEjournal采訪了該公司的創(chuàng)始人,,談及這款芯片的設計背后的一些想法,。
據介紹,該芯片被定名為ET-SoC-1,。從設計上看,,它包括了處理器核心,內存塊和網狀網絡,。
報道指出,,Esperanto公司在ET-SoC-1 的設計上已經花費了很多年的時間,且直到現在,,該公司尚未收到第一批芯片,,但是該項目已經公諸于世。該公司創(chuàng)始人Dave Ditzel和首席執(zhí)行官Art Swift(首席執(zhí)行官)就像快樂的父母一樣為他們的“新寶寶”感到興奮,。
據報道,,Ditzel在微處理器領域擁有輝煌的履歷,他曾擔任Intel副總裁,,是x86克隆制造商Transmeta的創(chuàng)始人,,Sun SPARC業(yè)務的首席技術官,以及擁有David Patterson博士的UC Berkeley研究生的碩士學位,。Swift則畢業(yè)于賓夕法尼亞州立大學的EE專業(yè),。,曾領導過RISC-V基金會的市場部PPR Foundation,,在加入Esperanto之前,,他還擔任過Wave Computing的首席執(zhí)行官,。這些家伙就是在培育新的處理器。
這家擁有100名員工的公司認為我們在AI問題上全都錯了,。
首先,,他們指出,將一個供應商的AI芯片與另一個供應商的AI芯片進行比較是沒有意義的,。正確的方法是查看每瓦而不是每個芯片的AI功能,。瓦特很重要。芯片只是封裝選擇,。
其次,,可編程性是關鍵。
“如果您向硬件人員提出AI問題,,他們將需要定制設計一些東西以優(yōu)化內部循環(huán),。但這將很難編程?!?Ditzel說,。“通用ISA [指令集體系結構]擅長外部循環(huán),,幾乎沒有額外的開銷,。”
Esperanto將特殊和通用的習慣與開源相結合,。它的AI加速硬件是定制的,,但已嫁接到通用RISC-V架構上。Ditzel說,,RISC-V的“底盤系統(tǒng)”使ET-SoC-1芯片易于編程,,而定制加速器使其值得這樣做。
他們指出,,整個芯片在設計時就考慮到了低功耗,,因此與“現有解決方案”相比,其性能要高出30倍至50倍,,同時還具有100倍的高能效,。這個數據是根據Esperanto的模擬得出的,而我們離真正看到芯片還有幾個月的時間,。
在這些比較中,,“現有解決方案”是Intel和AMD的x86芯片。Esperanto從未明確表示公司是否與其他供應商的AI芯片進行比較,,例如Groq,,Mythic或Swift的前任雇主——幾乎已經破產的Wave Computing。
用Ditzel的話說,,因為這么多機器學習任務“令人難以置信地是并行的”,,所以針對ET-SoC-1的大規(guī)模并行設計似乎是正確的方法,。當然是這樣。該芯片上有1093個處理器,,全部基于RISC-V,。其中絕大多數(1088)是所謂的ET-Minion處理器,由四個ET-Maxion處理器和一個服務處理器(也基于RISC-V)提供服務,。
Minion被分成八組,,稱為“鄰居”。四個鄰域構成一個“郡”,,而6×6的郡陣列組成一個ET-SoC-1芯片,。(一個郡裝有四個ET-Maxion內核,一個郡裝有PCIe邏輯,,這就是為什么總數不是1152的原因,。)整個晶體管的總重量為238億個。
但它一直在繼續(xù),。每個ST-SoC-1芯片都設計為與相似的芯片群集在一起,,在標準插入卡上最多包含六個芯片,以及存儲器和支持邏輯,。這些卡可以組合成“底座”,底座分成“小方塊”,,八個小方塊可放入標準的19英寸機架中,,當然,成千上萬個機架排列在典型數據中心的“大廳”中,。您幾乎可以期望世界語為擴展數據中心建筑物制定分區(qū)委員會計劃,。
對于這些人來說,可伸縮性很重要,。
追溯到開始,,每個ET-Minion內核都以一個相當簡單的RISC-V pipeline實施以及一個大型AI加速器開始。它旨在以盡可能低的電壓實現適中的時鐘速度(在1 GHz附近),。Esperanto的初始硅片是采用臺積電的7nm工藝制造的,,其設計工作在電壓范圍的低端,幾乎所有東西都在同一電壓平面上,,甚至包括高速緩存,。
“在低電壓下,晶體管的效率提高了5倍至10倍,,但沒有接近閾值電壓,。作為架構師,我們知道如何彌補降低的速度,?!?Ditzel辯護說,,他的芯片的頻率相對較高。七納米與其他節(jié)點不同,。導線是電阻性的,,高頻操作需要大量緩沖器。
每個ET-Minion的CPU都是單標量,,雙線程的有序實現,。與之結合的是具有256位浮點一半和512位整數一半的自定義矢量/張量單元。FP半部每個周期可以執(zhí)行單個256位操作,,或者(更有可能)執(zhí)行16個單精度(32位)操作或32個半精度(16位)操作,。整數端可以類似地在每個周期執(zhí)行一次512位操作或128字節(jié)寬的操作。
Ditzel和Swift沒有詳細說明這些操作的內容,,只是暗示它們可能很長很復雜,。“張量指令可以運行數百個周期”,,并且RISC-V pipeline將休眠直到完成為止,,從而節(jié)省了功耗?!俺绦騿T認為這是RISC-V,,但是99.9%的時間花在了張量指令上?!?/p>
從理論上講,,每個ET-Minion都可以提供128 GOPS / GHz。換句話說,,每個周期128次操作,。那只是ET-Minion內核之一,每個芯片上有1088個,。
堆砌很多專業(yè)核心是一回事,。讓他們以有意義的方式交流是另一回事。Diztel說道,。他指出:“這里的大部分工作和智慧都在存儲系統(tǒng)中,。” “相加不是硬的部分,。該芯片具有一個真正的內存系統(tǒng),,具有三級高速緩存等。軟件人員看著它說:”我知道該怎么編程,!“
緩存出現在每個ET-Minion核心,,每個鄰域和每個郡中。如果可以的話,每個高速緩存可以可選地配置為暫存RAM,。整個事物由Esperanto自身的網狀網絡綁定在一起,,并且硬件實現了幾個同步原語,包括原子,,屏障和IPI(智能外圍互連)支持,。與外界的接口是通過PCI4 Gen 4和LPDDR4x實現的。
相比之下,,四個ET-Maxion處理器是高性能的亂序實現,,意在充當獨立系統(tǒng)中的”主機“處理器。數據中心客戶可能更喜歡Intel或AMD的x86處理器,,在這種情況下,,Maxions可以擱置(或被忽略)。
Esperanto說,,該芯片的”典型工作點“低于20瓦,,對于如此大規(guī)模配置的設備而言,這似乎是非凡的,。要么”典型“條件是非典型的,,要么Ditzel的設計團隊在提供最佳每瓦AI性能的目標方面取得了驚人的成功。
為了進行比較,,像英特爾的酷睿i7-1068(第10代Sunny Cove / Ice Lake-U微體系結構)這樣的新型筆記本電腦處理器的TDP為28W,。這僅適用于四個x86內核和一個GPU。英特爾的一些低功耗處理器的TDP低于15W或20W,,但與Esperanto競爭的該公司的臺式機和服務器處理器卻占據了100-200W的領域,。
即使考慮到性能的(假定)提升,這對Esperanto的支持也是一個數量級的差異,。
與對傳統(tǒng)CPU進行基準測試(足夠難)相比,對機器學習工作負荷進行基準測試是完全不同的游戲,。很難知道任何AI處理器的速度和效率如何,,更不用說它在推理/瓦特,GOPS / GHz或Furlongs / fortnight上的比較了,。
不過,,基于其經驗豐富的的全明星陣容,我們對其還有很大的期望,。
延伸閱讀:Esperanto推出具有接近1100個RISC-V內核的AI芯片
在今年的RISC-V峰會上,,Esperanto Technologies的首席執(zhí)行官Art Swift宣布了一款基于RISC-V的新型芯片,旨在進行機器學習,,包含基于開源RISC-V架構的近1100個低功耗內核,。
總部位于加州山景城(Mountain View)的Eseranto Technologies是在2014年創(chuàng)建的,該公司的其他網站遍布美國和歐洲,,”其目標是讓RISC-V成為計算機密集型應用程序(如人工智能和機器學習)的首選架構,?!癝wift追溯到2017年新芯片的歷史,當時Esperanto的創(chuàng)始人兼董事長Dave Ditzel在第七屆RISC-V研討會上提出了Esperanto的愿景,。
在那個研討會上,,Ditzel設定了一個目標:”在單個設備上放置4,000個或更多的內核“。Ditzel要求通過RISC-V提供簡單的指令集,,并要求在定制微體系結構和專有的低功耗設計技術領域進行創(chuàng)新,。”在隨后的三年中,,我們已經籌集了7700萬美元的風險投資,,現在已經完成了我們的第一個設計,這是基于RISC-V的一系列AI處理器中的第一個,,“ Swift說,。
名為et - soc1的新芯片包含兩種通用64位RISC-V內核:首先是ET-Maxion,一個超標量無序內核(每個芯片4個),;其次是ET-Minion,,一種”更精簡、節(jié)能“的有序多線程內核,,它包含一個用于機器學習應用的大型協處理器(每個芯片1089個,,包括一個服務處理器)。
Esperanto公司ET-SoC-1 die圖,。圖片由Art Swift提供,。
芯片擁有238億個晶體管,采用了TSMC公司的7nm技術,,直接針對超大規(guī)模的數據應用(”特別是推斷,,“Swift說)。Swift說,,該芯片使用了通用架構,,以保護客戶免受ML模型隨著時間的推移可能帶來的不兼容。
正如Swift所解釋的那樣,,在數據中心應用程序中,,ET-Maxion內核可能會被隨附的Intel或AMD主機CPU所取代-但是在邊緣應用程序中,Maxions對于保持低成本至關重要,。
這些芯片支持pcie4.0和DDR4x RAM(最高32GB),,Swift表示,一張PCIe卡上最多可以容納6個芯片,。舉個例子,,Swift展示了一個開源的Glacier Point 卡,它可以容納6個ET-SoC-1芯片。(”這是我們的全部策略,,盡可能地利用開源社區(qū),。“)
Glacier Point v2卡,,最多可容納六個ET-SoC-1芯片,。圖片由Art Swift提供。
在軟件方面,,”我們支持所有常見的機器學習框架,,“Swift說,并解釋Esperanto利用Facebook的開源GLOW編譯器作為中心,。
雖然他們還沒有使用物理硅,,但Swift基于芯片仿真共享數據?!碑斘覀儗⑽覀兊男阅芘c現有解決方案在數據中心的實際測量性能進行比較時,,“他說,”我們發(fā)現,,我們預計在關鍵工作負載(如推薦網絡)上的性能將提高50倍,,在圖像分類方面,我們的性能將比現有解決方案高出30倍,?!?/p>
”但可能更令人興奮和更重要的是,“他繼續(xù)說,,”我們能夠獲得的能源效率,。就每瓦特功率的推斷而言,我們希望看到比現有的解決方案高出100倍的能源效率,?!?/p>
Esperanto將ET-SoC-1的性能效率歸因于幾個因素,包括RISC-V的簡單性,、ET Minion核心上的機器學習協處理器,、”唯一優(yōu)化“的內存層次結構和定制的低壓電路。
Swift反復強調,,ET-SoC-1只是Esperanto新產品系列的第一位成員,并解釋說,,該芯片的基于圖塊的設計使其易于”擴展至數千個內核或縮減至數百個內核“,,以滿足需求?!睆某笠?guī)模數據中心到邊緣AI以及兩者之間的一切,。“
Esperanto的聲明緊隨英偉達收購Arm之后,這讓很多人懷疑,,收購后大家對RISC-V的興趣和接受度是否會激增,。Esperanto還進入了一個越來越擁擠的推理芯片市場,競爭對手包括Xilinx,、Mythic,、Groq和英特爾的Habana Labs