近幾年,,邊緣計算市場在快速增長,速度超過了數(shù)據(jù)中心,。有統(tǒng)計顯示,,到2025年,邊緣AI芯片的市場機遇是數(shù)據(jù)中心的3倍,,規(guī)模將達到650億美元,。這樣具有巨大發(fā)展?jié)摿Φ氖袌觯撬心軌騾⑴c到其中的芯片廠商特別關注的,,無論是CPU,、GPU,還是FPGA,。作為FPGA行業(yè)龍頭,,賽靈思也已經(jīng)準備好推出相應的器件,該公司已經(jīng)推出了多款用于邊緣端的產(chǎn)品,,近期又發(fā)布了最新的可微型化的小尺寸方案Versal AI Edge,。
據(jù)賽靈思Versal AI Edge系列高級產(chǎn)品線經(jīng)理Rehan Tahir先生介紹,該公司在2018年引入了Versal ACAP,,首先推出的是Versal Core和Prime系列,,用于云端和網(wǎng)絡,之后又推出了Versal Premium,,用于高端的云和網(wǎng)絡,。在這基礎上,又把這個架構(gòu)帶到了邊緣端,。
新一代的Versal AI Edge系列產(chǎn)品,,是一種微型ACAP,能夠在邊緣端工作,,實現(xiàn)優(yōu)化的單位功耗性能,,這很重要,因為在邊緣應用中,,有非常嚴格的熱和功耗的限制,,同時還要實現(xiàn)高性能。
同時,,在邊緣端應用,,如智能視覺、無人機,、協(xié)作機器人,、ADAS與自動駕駛,,還有醫(yī)學成像,包括內(nèi)窺鏡和超聲,。這些對產(chǎn)品的微型化要求很高,,這與FPGA在傳統(tǒng)的數(shù)據(jù)中心和云計算應用場景有很大不同。
此外,,越來越多的應用都得到了AI的支持,而且,,有很多形式的AI可能都是我們之前沒有想到的,,比如無人機的導航和目標追蹤,機器人和工人在工廠進行協(xié)作,,還有半自動到全自動駕駛,,AI在醫(yī)學的應用,包括參與醫(yī)學的診斷和分析,。當下,,AI應用隨處可見。
AI Edge就可以滿足以上應用需求,,今年4月份,,Versal AI的Core和Prime已經(jīng)實現(xiàn)了7nm制程的量產(chǎn)。
優(yōu)勢
那么,,Versal AI Edge ACAP的具體特點和優(yōu)勢有哪些呢,?可以概括為以下三點:
1、借助AI引擎和存儲器層級創(chuàng)新,,AI單位功耗性能是GPU的四倍,,而且這樣的存儲器層級創(chuàng)新是在業(yè)界首次推出的;2,、與之前的SoC產(chǎn)品相比,,他能夠?qū)崿F(xiàn)十倍的計算密度,并且提供最高水平的安全與保密性,;3,、能夠為邊緣和終端提供可擴展性且靈活應變的平臺,實現(xiàn)很高的性能,,這主要是在各個性能層級上有更多的器件,,另外,ACAP的可編程性能提供更多的靈活性,。
對比GPU,,Versal AI Edge實現(xiàn)了四倍的AI單位功耗性能。據(jù)Rehan Tahir介紹,,這主要是賽靈思推出了新的AI引擎,,專門為機器學習做了優(yōu)化,,簡稱為AIEML。AI引擎是一個新生事物,,也是一個非常好的技術突破,。
Rehan Tahir表示:“AI引擎有一個陣列,這個陣列里面有一個計算核心,,與現(xiàn)有的產(chǎn)品不同,,我們把乘法器翻倍,使得INT8的性能翻倍,,另外,,還提供了原生支持INT4和BFLOAT 16。除此之外,,我們還使數(shù)據(jù)內(nèi)存翻倍,,每一塊內(nèi)存從32kB提升到了64kB,實現(xiàn)了數(shù)據(jù)和存儲的本地化,。所有的本地化存儲都能夠和AI陣列和塊進行分享,,還增加了全新的存儲器塊,整個AI引擎的陣列最大是38MB,,可順利分享網(wǎng)絡,,在數(shù)據(jù)流通的過程當中不會出現(xiàn)內(nèi)存的瓶頸?;诖?,我們能夠?qū)崿F(xiàn)軟件的可編程、硬件的靈活應變,,還有非常低的時延和功耗,。”
由于支持INT4和BFLOAT 16,,還對乘法器進行了加倍處理,,所以,這個產(chǎn)品在機器學習推斷方面有非常出色的表現(xiàn),,能夠支持CNN,、RNN還有語言處理網(wǎng)絡等。
另外一個創(chuàng)新是加速器RAM,,他能夠為大規(guī)模的帶寬提供一個4MB的片上RAM,,用于Versal AI Edge最小尺寸的器件。在機器學習推斷過程中,,有很多路徑,,比如可以使用DDR,但是DDR速度非常慢,,有了加速器RAM之后,,能夠更快速地進行機器學習的處理,。
Versal AI Edge全系列都能夠推出車規(guī)級的產(chǎn)品,也能夠遵守嚴格的ISO 26262標準要求,。
賽靈思將在2021下半年提供Versal AI Edge工具,,2022上半年提供早期試樣和量產(chǎn)芯片,在2022下半年提供Versal AI Edge ACAP的評估套件,。
靈活的軟件支持
下面看一下支持應用的軟件堆棧,,據(jù)Rehan Tahir介紹,在汽車領域,,Versal AI Edge支持Caffe,、TensorFlow、PyTorch等平臺,,在機器人和工業(yè)領域也有很多,包括ROS,、ROS2,,還有發(fā)展勢頭很猛的GAZEBO。
另外,,也可以用Versal AI對系統(tǒng)框架進行擴展,,包括XRT,這是賽靈思的一個運行環(huán)境,,包括很多底層庫,,如DSP和視覺庫。
靈活性方面,,主要體現(xiàn)在域架構(gòu),,也就是DSA,還有動態(tài)的功能交換,,叫做DFX,。DSA就是對引擎進行區(qū)隔,來實施相應算法,,在這樣區(qū)隔的過程中能夠確保不斷適應未來一些技術的變化,,能夠?qū)崟r更新,例如,,激光雷達的更新?lián)Q代非常迅速,,有了DSA的支持,能夠確保跟上最新的算法,。
這個機制是通過算法實現(xiàn)的,,無論是硬件還是軟件,都可以通過在線下載的方式更新,,不僅更新軟件,,還可以對芯片進行重新配置來優(yōu)化性能,,有點像特斯拉,可以對車輛里程和速度直接做軟件的在線升級,,如果可以對硬件做這樣的在線升級,,則可以迅速適應未來的需求,這是一個非常大的提升,。
DFX方面,,假設有很多邏輯器件在同時使用,通過DFX能夠?qū)鉀Q方案進行優(yōu)化,,節(jié)約大量的成本和功耗,,這點,ASSP,、GPU和CPU都是做不到的,。
競品對比
與英偉達的Jetson對比,Versal AI Edge的優(yōu)勢體現(xiàn)在:前者只有低端和中端,,沒有高端產(chǎn)品,,T4是一個數(shù)據(jù)中心的加速器卡,他僅僅關注高端,,也沒有低端產(chǎn)品,。另外Orin是僅有高端和低端,而忽視了中間這一塊的性能需求,,也就是性能很高,,但可以進行被動散熱的這樣一款產(chǎn)品,30瓦時,,英偉達產(chǎn)品是需要主動散熱的,。
Rehan Tahir表示,英偉達給出的解決方案是同時使用兩個器件來滿足相應的標準,,這當然是可以的,,但是這樣做會增加成本、功耗和系統(tǒng)設計的復雜性,,如果用Versal AI Edge,,只需要一個器件,在同樣的軟件生態(tài)系統(tǒng),,在同樣的模式和同一個庫的環(huán)境下均可使用,,非常方便,而且更加經(jīng)濟,。
Rehan Tahir還提到,,英偉達的專長是在人工智能的機器學習推斷,他并不能夠涵蓋整個應用,但是賽靈思的器件有一個靈活應變的引擎,,能夠?qū)崿F(xiàn)傳感器的融合,。另外還能傳導到智能引擎,智能引擎再產(chǎn)生推斷,,然后通過操作系統(tǒng)來采取行動,,是非常靈活易變的,而且能夠通過實時下載更新的方式,,在軟件和硬件層面都實現(xiàn)靈活應變,,不斷更新。所以,,瓶頸不是在機器學習的計算方面,,而是在于傳感器輸入的傳導,圖像處理,,與車輛和駕駛員進行溝通等,。在這些環(huán)節(jié),賽靈思都是有優(yōu)勢的,。
可擴展性方面,,Rehan Tahir表示,包括英特爾,、TI(德州儀器)、恩智浦,、高通等公司的平臺,,他們要么只關注低端,要么只關注高端,,沒有哪一家可以做到低中高的全覆蓋,。