《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 一文看懂人工智能芯片的產業(yè)生態(tài)及競爭格局

一文看懂人工智能芯片的產業(yè)生態(tài)及競爭格局

2018-05-16

  近日,國內人工智能芯片公司寒武紀科技(Cambricon)獲得了一億美元A輪融資,,是目前國內人工智能芯片領域初創(chuàng)公司所獲得的最高融資記錄,如果要說這樁融資對人工智能領域的最直接意義,,或許是讓人工智能芯片逐漸走入了更多人的視野,。

  深度學習不僅在傳統(tǒng)的語音識別、圖像識別,、搜索/推薦引擎,、計算廣告等領域證明了其劃時代的價值,也引爆了整個人工智能生態(tài)向更大的領域延伸,。由于深度學習的訓練(training)和推斷(inference)均需要大量的計算,,人工智能界正在面臨前所未有的算力挑戰(zhàn),而其始作俑者,,是摩爾定律的失效,。

  由于結構所限,CPU性能近年來未能呈現(xiàn)如摩爾定律預測的定期翻倍,,于是具有數(shù)量眾多計算單元和超長流水線,、具備強大并行計算能力與浮點計算能力的GPU,成為了深度學習模型訓練的標配,。GPU可以大幅加速深度學習模型的訓練速度,,相比CPU能提供更快的處理速度、更少的服務器投入和更低的功耗,,并成為深度學習訓練層面的事實工具標準,。

1.jpg

  但是,隨著人工智能產業(yè)鏈的火速延伸,,GPU并不能滿足所有場景(如手機)上的深度學習計算任務,, GPU并不是深度學習算力痛點的唯一解。算力的剛需,,吸引了眾多巨頭和初創(chuàng)公司紛紛進入人工智能芯片領域,,并形成了一個自下而上的生態(tài)體系,本文希望通過不太長的篇幅,,系統(tǒng)呈現(xiàn)這個繽紛而有趣的人工智能芯片生態(tài),。

  人工智能芯片分類

  一項深度學習工程的搭建,可分為訓練(training)和推斷(inference)兩個環(huán)節(jié):訓練環(huán)境通常需要通過大量的數(shù)據輸入,,或采取增強學習等非監(jiān)督學習方法,,訓練出一個復雜的深度神經網絡模型。訓練過程由于涉及海量的訓練數(shù)據(大數(shù)據)和復雜的深度神經網絡結構,,需要的計算規(guī)模非常龐大,,通常需要GPU集群訓練幾天甚至數(shù)周的時間,在訓練環(huán)節(jié)GPU目前暫時扮演著難以輕易替代的角色,。

  推斷(inference)環(huán)節(jié)指利用訓練好的模型,,使用新的數(shù)據去“推斷”出各種結論,,如視頻監(jiān)控設備通過后臺的深度神經網絡模型,判斷一張抓拍到的人臉是否屬于黑名單,。雖然推斷環(huán)節(jié)的計算量相比訓練環(huán)節(jié)少,,但仍然涉及大量的矩陣運算。在推斷環(huán)節(jié),,除了使用CPU或GPU進行運算外,,F(xiàn)PGA以及ASIC均能發(fā)揮重大作用。

  FPGA(可編程門陣列,,F(xiàn)ield Programmable Gate Array)是一種集成大量基本門電路及存儲器的芯片,,可通過燒入FPGA配置文件來來定義這些門電路及存儲器間的連線,從而實現(xiàn)特定的功能,。而且燒入的內容是可配置的,,通過配置特定的文件可將FPGA轉變?yōu)椴煌奶幚砥鳎腿缫粔K可重復刷寫的白板一樣,。因此FPGA可靈活支持各類深度學習的計算任務,,性能上根據百度的一項研究顯示,對于大量的矩陣運算GPU遠好于FPGA,,但是當處理小計算量大批次的實際計算時FPGA性能優(yōu)于GPU,,另外FPGA有低延遲的特點,非常適合在推斷環(huán)節(jié)支撐海量的用戶實時計算請求(如語音云識別),。

  ASIC(專用集成電路,,Application Specific Integrated Circuit)則是不可配置的高度定制專用芯片。特點是需要大量的研發(fā)投入,,如果不能保證出貨量其單顆成本難以下降,,而且芯片的功能一旦流片后則無更改余地,若市場深度學習方向一旦改變,,ASIC前期投入將無法回收,,意味著ASIC具有較大的市場風險。但ASIC作為專用芯片性能高于FPGA,,如能實現(xiàn)高出貨量,,其單顆成本可做到遠低于FPGA,。

  在深度學習的訓練和推斷環(huán)節(jié),,常用到的芯片及特征如下圖所示:

2.jpg

  從市場角度而言,目前人工智能芯片的需求可歸納為三個類別:首先是面向于各大人工智能企業(yè)及實驗室研發(fā)階段的訓練環(huán)節(jié)市場,;其次是數(shù)據中心推斷(inference on cloud),,無論是亞馬遜Alexa還是出門問問等主流人工智能應用,均需要通過云端提供服務,,即推斷環(huán)節(jié)放在云端而非用戶設備上,;第三種是面向智能手機,、智能安防攝像頭、機器人/無人機,、自動駕駛,、VR等設備的設備端推斷(inference on device)市場,設備端推斷市場需要高度定制化,、低功耗的人工智能芯片產品,。如傳聞華為即將在Mate 10的麒麟970中搭載寒武紀IP,旨在為手機端實現(xiàn)較強的深度學習本地端計算能力,,從而支撐以往需要云端計算的人工智能應用,。

  我們圍繞上述的分類標準,從市場及芯片特性兩個角度出發(fā),,可勾畫出一個人工智能芯片的生態(tài)體系,,整個生態(tài)體系分為訓練層、云端推斷層和設備端推斷層:

3.jpg

  Training層芯片生態(tài)

  毫無疑問在深度學習的Training階段,,GPU成為了目前一項事實的工具標準,。由于AMD今年來在通用計算以及生態(tài)圈構建方面都長期缺位,導致了在深度學習GPU加速市場NVIDIA一家獨大的局面,。根據NVIDIA今年Q2年報顯示,,NVIDIA的Q2收入為達到22.3億美元,毛利率更是達到了驚人的58.4%,,其中數(shù)據中心(主要為面向深度學習的Tesla加速服務器)Q2收入4.16億美元,,同比上升達175.5%。

4.jpg

  面對深度學習Training這塊目前被NVIDIA賺得盆滿缽滿的市場,,眾多巨頭紛紛對此發(fā)起了挑戰(zhàn),。Google今年5月份發(fā)布了TPU 2.0,TPU是Google研發(fā)的一款針對深度學習加速的ASIC芯片,,第一代TPU僅能用于推斷(即不可用于訓練模型),,并在AlphaGo人機大戰(zhàn)中提供了巨大的算力支撐。而目前Google發(fā)布的TPU 2.0除了推斷以外,,還能高效支持訓練環(huán)節(jié)的深度網絡加速,。根據Google披露,Google在自身的深度學習翻譯模型的實踐中,,如果在32塊頂級GPU上并行訓練,,需要一整天的訓練時間,而在TPU2.0上,,八分之一個TPU Pod(TPU集群,,每64個TPU組成一個Pod)就能在6個小時內完成同樣的訓練任務。

  目前Google并沒急于推進TPU芯片的商業(yè)化,。Google在TPU芯片的整體規(guī)劃是,,基于自家開源,、目前在深度學習框架領域排名第一的TensorFlow,結合Google云服務推出TensorFlow Cloud,,通過TensorFlow加TPU云加速的模式為AI開發(fā)者提供服務,,Google或許并不會考慮直接出售TPU芯片。如果一旦Google將來能為AI開發(fā)者提供相比購買GPU更低成本的TPU云加速服務,,借助TensorFlow生態(tài)毫無疑問會對NVIDIA構成重大威脅,。

  當然TPU作為一種ASIC芯片方案,意味著其巨大的研發(fā)投入和市場風險,,而其背后的潛在市場也是巨大的:一個橫跨訓練和云端推斷的龐大云服務,,但目前恐怕只有Google才有如此巨大的決心和資源稟賦,使用ASIC芯片去構筑這一布局——如果將來TPU云服務無法獲得巨大的市場份額從而降低單顆TPU的成本,,Google將難以在這一市場盈利,。但市場的培育除了芯片本身顯然是不足夠的,還包括讓眾多熟悉GPU加速的研究/開發(fā)者轉到TPU云計算平臺的轉換成本,,這意味著Google要做大量的生態(tài)系統(tǒng)培育工作,。

  除了Google外,昔日的GPU王者AMD目前也奮起直追,,發(fā)布了三款基于Radeon Instinct的深度學習加速器方案,,希望在GPU深度學習加速市場分回一點份額,當然AMD是否能針對NVIDIA的同類產品獲得相對優(yōu)勢尚為未知之數(shù),。

  對于現(xiàn)任老大NVIDIA而言,,目前當務之急無疑是建立護城河保衛(wèi)其市場份額,總結起來是三方面的核心舉措,。一方面在產品研發(fā)上,,NVIDIA耗費了高達30億美元的研發(fā)投入,推出了基于Volta,、首款速度超越100TFlops的處理器Tesla,,主打工業(yè)級超大規(guī)模深度網絡加速;另外一方面是加強人工智能軟件堆棧體系的生態(tài)培育,,即提供易用,、完善的GPU深度學習平臺,不斷完善CUDA,、 cuDNN等套件以及深度學習框架,、深度學習類庫來保持NVIDIA體系GPU加速方案的粘性。第三是推出NVIDIA GPU Cloud云計算平臺,,除了提供GPU云加速服務外,,NVIDIA以NVDocker方式提供全面集成和優(yōu)化的深度學習框架容器庫,,以其便利性進一步吸引中小AI開發(fā)者使用其平臺,。

  核心驅動能力:對于深度學習訓練這個人工智能生態(tài)最為關鍵的一環(huán),,我們可以看到競爭的核心已經不是單純的芯片本身,而是基于芯片加速背后的整個生態(tài)圈,,提供足夠友好,、易用的工具環(huán)境讓開發(fā)者迅速獲取到深度學習加速算力,從而降低深度學習模型研發(fā)+訓練加速的整體TCO和研發(fā)周期,。一言蔽之,,這個領域是巨頭玩家的戰(zhàn)場,普通的初創(chuàng)公司進入這個領域幾乎沒有任何的機會,,接下來的核心看點,,是Google究竟是否能憑借TensorFlow+Google Cloud+TPU 2.0生態(tài)取得對NVIDIA的相對優(yōu)勢,以市場份額的量變引起質變,。畢竟相比主打通用計算的NVIDIA GPU,,TPU的ASIC方案當出貨量突破一定閾值后,其單顆價格和功耗比均能構成無法忽視的競爭優(yōu)勢,。當然,,這取決于兩個前提條件:一是深度學習主流框架在今后幾年不發(fā)生重大變化,比如深度學習變得不再高度依賴矩陣運算,,否則一顆寫死的ASIC將失去幾乎一切價值,。二是Google能構筑出足夠好用的生態(tài),讓眾多AI研究/開發(fā)者從CUDA+GPU轉向Google,,打破業(yè)界對NVIDIA的路徑依賴,,而這點才是真正艱難的道路。

  Inference On Cloud層芯片生態(tài)

  當一項深度學習應用,,如基于深度神經網絡的機器翻譯服務,,經過數(shù)周甚至長達數(shù)月的GPU集群并行訓練后獲得了足夠性能,接下來將投入面向終端用戶的消費級服務應用中,。由于一般而言訓練出來的深度神經網絡模型往往非常復雜,,其Inference(推斷)仍然是計算密集型和存儲密集型的,這使得它難以被部署到資源有限的終端用戶設備(如智能手機)上,。正如Google不期望用戶會安裝一個大小超過300M的機器翻譯APP應用到手機上,,并且每次翻譯推斷(應用訓練好的神經網絡模型計算出翻譯的結果)的手機本地計算時間長達數(shù)分鐘甚至耗盡手機電量仍然未完成計算。這時候,,云端推斷(Inference On Cloud)在人工智能應用部署架構上變得非常必要,。

5.jpg

  雖然單次推斷的計算量遠遠無法和訓練相比,但如果假設有1000萬人同時使用這項機器翻譯服務,,其推斷的計算量總和足以對云服務器帶來巨大壓力,,而隨著人工智能應用的普及,這點無疑會變成常態(tài)以及業(yè)界的另一個痛點。由于海量的推斷請求仍然是計算密集型任務,,CPU在推斷環(huán)節(jié)再次成為瓶頸,。但在云端推斷環(huán)節(jié),GPU不再是最優(yōu)的選擇,,取而代之的是,,目前3A(阿里云、Amazon,、微軟Azure)都紛紛探索云服務器+FPGA芯片模式替代傳統(tǒng)CPU以支撐推斷環(huán)節(jié)在云端的技術密集型任務,。

  亞馬遜 AWS 在去年推出了基于 FPGA 的云服務器 EC2 F1;微軟早在2015年就通過Catapult 項目在數(shù)據中心實驗CPU+FPGA方案,;而百度則選擇與FPGA巨頭Xilinx(賽思靈)合作,,在百度云服務器中部署KintexFPGA,用于深度學習推斷,,而阿里云,、騰訊云均有類似圍繞FPGA的布局,具體如下表所示,。當然值得一提的是,,F(xiàn)PGA芯片廠商也出現(xiàn)了一家中國企業(yè)的身影——清華系背景、定位于深度學習FPGA方案的深鑒科技,,目前深鑒已經獲得了Xilinx的戰(zhàn)略性投資,。

6.jpg

  云計算巨頭紛紛布局云計算+FPGA芯片,首先因為FPGA作為一種可編程芯片,,非常適合部署于提供虛擬化服務的云計算平臺之中,。FPGA的靈活性,可賦予云服務商根據市場需求調整FPGA加速服務供給的能力,。比如一批深度學習加速的FPGA實例,,可根據市場需求導向,通過改變芯片內容變更為如加解密實例等其他應用,,以確保數(shù)據中心中FPGA的巨大投資不會因為市場風向變化而陷入風險之中,。另外,由于FPGA的體系結構特點,,非常適合用于低延遲的流式計算密集型任務處理,,意味著FPGA芯片做面向與海量用戶高并發(fā)的云端推斷,相比GPU具備更低計算延遲的優(yōu)勢,,能夠提供更佳的消費者體驗,。

  在云端推斷的芯片生態(tài)中,不得不提的最重要力量是PC時代的王者英特爾,。面對摩爾定律失效的CPU產品線,,英特爾痛定思痛,,將PC時代積累的現(xiàn)金流,通過多樁大手筆的并購迅速補充人工智能時代的核心資源能力,。首先以 167 億美元的代價收購 FPGA界排名第二的Altera,,整合Altera多年FPGA技術以及英特爾自身的生產線,推出CPU + FPGA 異構計算產品主攻深度學習的云端推斷市場,。另外,去年通過收購擁有為深度學習優(yōu)化的硬件和軟件堆棧的Nervana,,補全了深度學習領域的軟件服務能力,。當然,不得不提的是英特爾還收購了領先的ADAS服務商Mobileye以及計算機視覺處理芯片廠商Movidius,,將人工智能芯片的觸角延伸到了設備端市場,,這點將在本文余下部分講述。

7.jpg

  相比Training市場中NVIDIA一家獨大,,云端推斷芯片領域目前可謂風起云涌,,一方面英特爾希望通過深耕CPU+FPGA解決方案,成為云端推斷領域的NVIDIA,,打一次漂亮的翻身仗,。另外由于云端推斷市場當前的需求并未進入真正的高速爆發(fā)期,多數(shù)人工智能應用當前仍處于試驗性階段,,尚未在消費級市場形成巨大需求,,各云計算服務商似乎有意憑借自身云服務優(yōu)勢,在這個爆發(fā)點來臨之前布局自己的云端FPGA應用生態(tài),,做到肥水不流外人(英特爾)田,,另外一個不可忽視的因素,是Google的TPU生態(tài)對云端推斷的市場份額同樣有巨大的野心,,也許這將會是一場徹頭徹尾的大混戰(zhàn),。

  Inference On Device層芯片生態(tài)

  隨著人工智能應用生態(tài)的爆發(fā),將會出現(xiàn)越來越多不能單純依賴云端推斷的設備,。例如,,自動駕駛汽車的推斷,不能交由云端完成,,否則如果出現(xiàn)網絡延時則是災難性后果,;或者大型城市動輒百萬級數(shù)量的高清攝像頭,其人臉識別推斷如果全交由云端完成,,高清錄像的網絡傳輸帶寬將讓整個城市的移動網絡不堪重負,。未來在相當一部分人工智能應用場景中,要求終端設備本身需要具備足夠的推斷計算能力,,而顯然當前ARM等架構芯片的計算能力,,并不能滿足這些終端設備的本地深度神經網絡推斷,,業(yè)界需要全新的低功耗異構芯片,賦予設備足夠的算力去應對未來越發(fā)增多的人工智能應用場景,。

  有哪些設備需要具備Inference On Device能力,?主流場景包括智能手機、ADAS,、CV設備,、VR設備、語音交互設備以及機器人,。

8.jpg

  智能手機——智能手機中嵌入深度神經網絡加速芯片,,或許將成為業(yè)界的一個新趨勢,當然這個趨勢要等到有足夠基于深度學習的殺手級APP出現(xiàn)才能得以確認,。傳聞中華為即將在Mate 10的麒麟970中搭載寒武紀IP,,為Mate 10帶來較強的深度學習本地端推斷能力,讓各類基于深度神經網絡的攝影/圖像處理應用能夠為用戶提供更加的體驗,。另外,,高通同樣有意在日后的芯片中加入驍龍神經處理引擎,用于本地端推斷,,同時ARM也推出了針對深度學習優(yōu)化的DynamIQ技術,。對于高通等SoC廠商,在其成熟的芯片方案中加入深度學習加速器IP并不是什么難事,,智能手機未來人工智能芯片的生態(tài)基本可以斷定仍會掌握在傳統(tǒng)SoC商手中,。

  ADAS(高級輔助駕駛系統(tǒng))——ADAS作為最吸引大眾眼球的人工智能應用之一,需要處理海量由激光雷達,、毫米波雷達,、攝像頭等傳感器采集的海量實時數(shù)據。作為ADAS的中樞大腦,,ADAS芯片市場的主要玩家包括今年被英特爾收購的Mobileye,、去年被高通以470億美元驚人價格收購的NXP,以及汽車電子的領軍企業(yè)英飛凌,。隨著NVIDIA推出自家基于 GPU的ADAS解決方案Drive PX2,,NVIDIA也加入到戰(zhàn)團之中。

  CV(計算機視覺,,Computer Vision)設備——計算機視覺領域全球領先的芯片提供商是Movidius,,目前已被英特爾收購,大疆無人機,、??低暫痛笕A股份的智能監(jiān)控攝像頭均使用了Movidius的Myriad系列芯片。需要深度使用計算機視覺技術的設備,,如上述提及的智能攝像頭,、無人機,,以及行車記錄儀、人臉識別迎賓機器人,、智能手寫板等設備,,往往都具有本地端推斷的剛需,如剛才提及的這些設備如果僅能在聯(lián)網下工作,,無疑將帶來糟糕的體驗,。。而計算機視覺技術目前看來將會成為人工智能應用的沃土之一,,計算機視覺芯片將擁有廣闊的市場前景,。目前國內做計算機視覺技術的公司以初創(chuàng)公司為主,如商湯科技,、阿里系曠視,、騰訊優(yōu)圖,,以及云從,、依圖等公司。在這些公司中,,未來有可能隨著其自身計算機視覺技術的積累漸深,,部分公司將會自然而然轉入CV芯片的研發(fā)中,正如Movidius也正是從計算機視覺技術到芯片商一路走來的路徑,。

  VR設備,、語音交互設備以及機器人——由于篇幅關系,這幾個領域放在一起介紹,。VR設備芯片的代表為微軟為自身VR設備Hololens而研發(fā)的HPU芯片,,這顆由臺積電代工的芯片能同時處理來自5個攝像頭、一個深度傳感器以及運動傳感器的數(shù)據,,并具備計算機視覺的矩陣運算和CNN運算的加速功能,。語音交互設備芯片方面,國內有啟英泰倫以及云知聲兩家公司,,其提供的芯片方案均內置了為語音識別而優(yōu)化的深度神經網絡加速方案,,實現(xiàn)設備的語音離線識別。機器人方面,,無論是家居機器人還是商用服務機器人均需要專用軟件+芯片的人工智能解決方案,,這方面典型公司有由前百度深度學習實驗室負責人余凱創(chuàng)辦的地平線機器人,當然地平線機器人除此之外,,還提供ADAS,、智能家居等其他嵌入式人工智能解決方案。

  在Inference On Device領域,,我們看到的是一個繽紛的生態(tài),。因為無論是ADAS還是各類CV,、VR等設備領域,人工智能應用仍遠未成熟,,各人工智能技術服務商在深耕各自領域的同時,,逐漸由人工智能軟件演進到軟件+芯片解決方案是自然而然的路徑,因此形成了豐富的芯片產品方案,。但我們同時觀察到的是,,NVIDIA、英特爾等巨頭逐漸也將觸手延伸到了Inference On Device領域,,意圖形成端到端的綜合人工智能解決方案體系,,實現(xiàn)各層次資源的聯(lián)動。

  雷鋒網按:本文為專欄投稿文章,,作者胡嘉琪,。


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,,并不代表本網站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。