近幾年,,邊緣計(jì)算市場在快速增長,,速度超過了數(shù)據(jù)中心,。有統(tǒng)計(jì)顯示,,到2025年,,邊緣AI芯片的市場機(jī)遇是數(shù)據(jù)中心的3倍,,規(guī)模將達(dá)到650億美元,。這樣具有巨大發(fā)展?jié)摿Φ氖袌?,是所有能夠參與到其中的芯片廠商特別關(guān)注的,無論是CPU,、GPU,,還是FPGA。作為FPGA行業(yè)龍頭,,賽靈思也已經(jīng)準(zhǔn)備好推出相應(yīng)的器件,,該公司已經(jīng)推出了多款用于邊緣端的產(chǎn)品,近期又發(fā)布了最新的可微型化的小尺寸方案Versal AI Edge,。
據(jù)賽靈思Versal AI Edge系列高級(jí)產(chǎn)品線經(jīng)理Rehan Tahir先生介紹,,該公司在2018年引入了Versal ACAP,首先推出的是Versal Core和Prime系列,,用于云端和網(wǎng)絡(luò),,之后又推出了Versal Premium,用于高端的云和網(wǎng)絡(luò),。在這基礎(chǔ)上,,又把這個(gè)架構(gòu)帶到了邊緣端。
新一代的Versal AI Edge系列產(chǎn)品,,是一種微型ACAP,,能夠在邊緣端工作,實(shí)現(xiàn)優(yōu)化的單位功耗性能,,這很重要,,因?yàn)樵谶吘墤?yīng)用中,有非常嚴(yán)格的熱和功耗的限制,,同時(shí)還要實(shí)現(xiàn)高性能,。
同時(shí),在邊緣端應(yīng)用,,如智能視覺,、無人機(jī)、協(xié)作機(jī)器人,、ADAS與自動(dòng)駕駛,,還有醫(yī)學(xué)成像,,包括內(nèi)窺鏡和超聲。這些對(duì)產(chǎn)品的微型化要求很高,,這與FPGA在傳統(tǒng)的數(shù)據(jù)中心和云計(jì)算應(yīng)用場景有很大不同,。
此外,越來越多的應(yīng)用都得到了AI的支持,,而且,,有很多形式的AI可能都是我們之前沒有想到的,比如無人機(jī)的導(dǎo)航和目標(biāo)追蹤,,機(jī)器人和工人在工廠進(jìn)行協(xié)作,,還有半自動(dòng)到全自動(dòng)駕駛,AI在醫(yī)學(xué)的應(yīng)用,,包括參與醫(yī)學(xué)的診斷和分析,。當(dāng)下,AI應(yīng)用隨處可見,。
AI Edge就可以滿足以上應(yīng)用需求,,今年4月份,Versal AI的Core和Prime已經(jīng)實(shí)現(xiàn)了7nm制程的量產(chǎn),。
優(yōu)勢
那么,,Versal AI Edge ACAP的具體特點(diǎn)和優(yōu)勢有哪些呢?可以概括為以下三點(diǎn):
1,、借助AI引擎和存儲(chǔ)器層級(jí)創(chuàng)新,,AI單位功耗性能是GPU的四倍,而且這樣的存儲(chǔ)器層級(jí)創(chuàng)新是在業(yè)界首次推出的,;2,、與之前的SoC產(chǎn)品相比,他能夠?qū)崿F(xiàn)十倍的計(jì)算密度,,并且提供最高水平的安全與保密性,;3、能夠?yàn)檫吘壓徒K端提供可擴(kuò)展性且靈活應(yīng)變的平臺(tái),,實(shí)現(xiàn)很高的性能,,這主要是在各個(gè)性能層級(jí)上有更多的器件,,另外,,ACAP的可編程性能提供更多的靈活性。
對(duì)比GPU,,Versal AI Edge實(shí)現(xiàn)了四倍的AI單位功耗性能,。據(jù)Rehan Tahir介紹,這主要是賽靈思推出了新的AI引擎,,專門為機(jī)器學(xué)習(xí)做了優(yōu)化,,簡稱為AIEML,。AI引擎是一個(gè)新生事物,也是一個(gè)非常好的技術(shù)突破,。
Rehan Tahir表示:“AI引擎有一個(gè)陣列,,這個(gè)陣列里面有一個(gè)計(jì)算核心,與現(xiàn)有的產(chǎn)品不同,,我們把乘法器翻倍,,使得INT8的性能翻倍,另外,,還提供了原生支持INT4和BFLOAT 16,。除此之外,我們還使數(shù)據(jù)內(nèi)存翻倍,,每一塊內(nèi)存從32kB提升到了64kB,,實(shí)現(xiàn)了數(shù)據(jù)和存儲(chǔ)的本地化。所有的本地化存儲(chǔ)都能夠和AI陣列和塊進(jìn)行分享,,還增加了全新的存儲(chǔ)器塊,,整個(gè)AI引擎的陣列最大是38MB,可順利分享網(wǎng)絡(luò),,在數(shù)據(jù)流通的過程當(dāng)中不會(huì)出現(xiàn)內(nèi)存的瓶頸,。基于此,,我們能夠?qū)崿F(xiàn)軟件的可編程,、硬件的靈活應(yīng)變,還有非常低的時(shí)延和功耗,?!?/p>
由于支持INT4和BFLOAT 16,還對(duì)乘法器進(jìn)行了加倍處理,,所以,,這個(gè)產(chǎn)品在機(jī)器學(xué)習(xí)推斷方面有非常出色的表現(xiàn),能夠支持CNN,、RNN還有語言處理網(wǎng)絡(luò)等,。
另外一個(gè)創(chuàng)新是加速器RAM,他能夠?yàn)榇笠?guī)模的帶寬提供一個(gè)4MB的片上RAM,,用于Versal AI Edge最小尺寸的器件,。在機(jī)器學(xué)習(xí)推斷過程中,有很多路徑,,比如可以使用DDR,,但是DDR速度非常慢,有了加速器RAM之后,,能夠更快速地進(jìn)行機(jī)器學(xué)習(xí)的處理,。
Versal AI Edge全系列都能夠推出車規(guī)級(jí)的產(chǎn)品,,也能夠遵守嚴(yán)格的ISO 26262標(biāo)準(zhǔn)要求。
賽靈思將在2021下半年提供Versal AI Edge工具,,2022上半年提供早期試樣和量產(chǎn)芯片,,在2022下半年提供Versal AI Edge ACAP的評(píng)估套件。
靈活的軟件支持
下面看一下支持應(yīng)用的軟件堆棧,,據(jù)Rehan Tahir介紹,,在汽車領(lǐng)域,Versal AI Edge支持Caffe,、TensorFlow,、PyTorch等平臺(tái),在機(jī)器人和工業(yè)領(lǐng)域也有很多,,包括ROS,、ROS2,還有發(fā)展勢頭很猛的GAZEBO,。
另外,,也可以用Versal AI對(duì)系統(tǒng)框架進(jìn)行擴(kuò)展,包括XRT,,這是賽靈思的一個(gè)運(yùn)行環(huán)境,,包括很多底層庫,如DSP和視覺庫,。
靈活性方面,,主要體現(xiàn)在域架構(gòu),也就是DSA,,還有動(dòng)態(tài)的功能交換,,叫做DFX。DSA就是對(duì)引擎進(jìn)行區(qū)隔,,來實(shí)施相應(yīng)算法,,在這樣區(qū)隔的過程中能夠確保不斷適應(yīng)未來一些技術(shù)的變化,能夠?qū)崟r(shí)更新,,例如,,激光雷達(dá)的更新?lián)Q代非常迅速,有了DSA的支持,,能夠確保跟上最新的算法,。
這個(gè)機(jī)制是通過算法實(shí)現(xiàn)的,無論是硬件還是軟件,,都可以通過在線下載的方式更新,,不僅更新軟件,,還可以對(duì)芯片進(jìn)行重新配置來優(yōu)化性能,,有點(diǎn)像特斯拉,,可以對(duì)車輛里程和速度直接做軟件的在線升級(jí),如果可以對(duì)硬件做這樣的在線升級(jí),,則可以迅速適應(yīng)未來的需求,,這是一個(gè)非常大的提升。
DFX方面,,假設(shè)有很多邏輯器件在同時(shí)使用,,通過DFX能夠?qū)鉀Q方案進(jìn)行優(yōu)化,節(jié)約大量的成本和功耗,,這點(diǎn),,ASSP、GPU和CPU都是做不到的,。
競品對(duì)比
與英偉達(dá)的Jetson對(duì)比,,Versal AI Edge的優(yōu)勢體現(xiàn)在:前者只有低端和中端,沒有高端產(chǎn)品,,T4是一個(gè)數(shù)據(jù)中心的加速器卡,,他僅僅關(guān)注高端,也沒有低端產(chǎn)品,。另外Orin是僅有高端和低端,,而忽視了中間這一塊的性能需求,也就是性能很高,,但可以進(jìn)行被動(dòng)散熱的這樣一款產(chǎn)品,,30瓦時(shí),英偉達(dá)產(chǎn)品是需要主動(dòng)散熱的,。
Rehan Tahir表示,,英偉達(dá)給出的解決方案是同時(shí)使用兩個(gè)器件來滿足相應(yīng)的標(biāo)準(zhǔn),這當(dāng)然是可以的,,但是這樣做會(huì)增加成本,、功耗和系統(tǒng)設(shè)計(jì)的復(fù)雜性,如果用Versal AI Edge,,只需要一個(gè)器件,,在同樣的軟件生態(tài)系統(tǒng),在同樣的模式和同一個(gè)庫的環(huán)境下均可使用,,非常方便,,而且更加經(jīng)濟(jì)。
Rehan Tahir還提到,,英偉達(dá)的專長是在人工智能的機(jī)器學(xué)習(xí)推斷,,他并不能夠涵蓋整個(gè)應(yīng)用,但是賽靈思的器件有一個(gè)靈活應(yīng)變的引擎,能夠?qū)崿F(xiàn)傳感器的融合,。另外還能傳導(dǎo)到智能引擎,,智能引擎再產(chǎn)生推斷,然后通過操作系統(tǒng)來采取行動(dòng),,是非常靈活易變的,,而且能夠通過實(shí)時(shí)下載更新的方式,在軟件和硬件層面都實(shí)現(xiàn)靈活應(yīng)變,,不斷更新,。所以,瓶頸不是在機(jī)器學(xué)習(xí)的計(jì)算方面,,而是在于傳感器輸入的傳導(dǎo),,圖像處理,與車輛和駕駛員進(jìn)行溝通等,。在這些環(huán)節(jié),,賽靈思都是有優(yōu)勢的。
可擴(kuò)展性方面,,Rehan Tahir表示,,包括英特爾、TI(德州儀器),、恩智浦,、高通等公司的平臺(tái),他們要么只關(guān)注低端,,要么只關(guān)注高端,,沒有哪一家可以做到低中高的全覆蓋。