這家拿了英特爾風(fēng)投的AI公司，可能會(huì)讓英偉達(dá)心頭一緊-AET-電子技術(shù)應(yīng)用

這家拿了英特爾風(fēng)投的AI公司，可能會(huì)讓英偉達(dá)心頭一緊

日期： 2019-06-27

關(guān)鍵詞： 英特爾英偉達(dá) AI

　　新興的人工智能處理器創(chuàng)業(yè)公司Habana Labs 2016年創(chuàng)立于以色列特拉維夫，最初的業(yè)務(wù)為開發(fā)專為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和生產(chǎn)環(huán)境中的推理部署而優(yōu)化的處理器平臺(tái)。2018年11月，該公司宣布完成超額認(rèn)購(gòu)的7500萬(wàn)美元B輪融資。此次融資由英特爾投資領(lǐng)投，WRV Capital、Bessemer Venture Partners、Battery Ventures和現(xiàn)有投資者等也加入其中。自創(chuàng)立以來，該公司已經(jīng)籌集到1.2億美元，目前在特拉維夫、圣何塞、北京、波蘭設(shè)有辦事處，全球員工人數(shù)量為150人。

　　2018年9月，Habana Labs正式退出隱身模式，推出首個(gè)人工智能(AI)處理器Goya HL-1000，旨在處理各種人工智能推理(Inference)工作負(fù)載，如圖像識(shí)別、神經(jīng)機(jī)器翻譯、情感分析、推薦系統(tǒng)以及許多其它應(yīng)用。該處理器創(chuàng)下了兩項(xiàng)行業(yè)紀(jì)錄，基于ResNet-50推理基準(zhǔn)實(shí)現(xiàn)每秒15,393張圖片的吞吐量，延遲時(shí)間為1.3毫秒，功耗僅為100瓦，并獲得150張圖片/每秒/每瓦的電源效率。

　　今年6月，Habana再接再厲，推出了全新的人工智能訓(xùn)練(Training)處理器Gaudi，配備32GB HBM-2內(nèi)存，目前提供兩種規(guī)格：HL-200—PCIe卡，設(shè)有8個(gè)100Gb以太網(wǎng)端口；HL-205—基于OCP-OAM標(biāo)準(zhǔn)的子卡，設(shè)有10個(gè)100Gb以太網(wǎng)端口或20個(gè)50Gb以太網(wǎng)端口。

　　Goya和Gaudi兩款處理器均采用16nm工藝制造，Habana Labs首席商務(wù)官Eitan Medina說，工藝對(duì)提升Habana產(chǎn)品的性能幫助不大，更多是源于架構(gòu)創(chuàng)新。

　　Goya

　　下圖展示的Goya與NVIDIA T4 GPU、英特爾8180 CPU在ResNet-50推理基準(zhǔn)測(cè)試中的性能對(duì)比，可以看出，與如今數(shù)據(jù)中心部署的一般解決方案相比，Goya性能是T4的3倍，是8180的12倍以上，但延遲只有T4的4%。

　　而在另一張圖片中，Eitan Medina說英偉達(dá)特別喜歡在公開場(chǎng)合強(qiáng)調(diào)其8片Tesla V100 GPU的性能等同于169片CPU的性能總和，但其實(shí)如果和Goya相比，只需3片Goya處理器，就能實(shí)現(xiàn)同樣的性能，且后者還具備更低的延遲和更好的能耗比。

　　“CPU和GPU從架構(gòu)上來看更適合做通用計(jì)算和圖形處理，做人工智能的確有些勉為其難。” Eitan Medina認(rèn)為Goya平臺(tái)之所以從誕生到目前為止，9個(gè)月的時(shí)間內(nèi)依然是市場(chǎng)上性能最為領(lǐng)先的產(chǎn)品，是因?yàn)樵O(shè)計(jì)人員的目標(biāo)非常明確，就是要實(shí)現(xiàn)深度學(xué)習(xí)推理，并在此基礎(chǔ)上將可編程張量處理器(Tensor Processing Core, TPC)、開發(fā)工具、圖書室和編譯程序等有機(jī)的融為一體，共同打造了一個(gè)高性能且節(jié)能的處理器平臺(tái)。

　　AI的性能主要體現(xiàn)在兩方面：計(jì)算能力和延遲。在ResNet-50基準(zhǔn)測(cè)試中，用于衡量批處理性能的Batch size大小直接影響了處理器性能。在數(shù)據(jù)中心中，GPU為了實(shí)現(xiàn)高性能，必然要進(jìn)行大量的批處理運(yùn)算；如果在普通運(yùn)算中，為了要實(shí)現(xiàn)更大的Batch size，就需要將大量數(shù)據(jù)讀取到內(nèi)存中，但這樣帶來了延遲。Goya的奇妙之處在于它可以令Batch Size等于1，這意味著Goya一次可以處理一張圖片，但在一張圖片之下，又可以實(shí)現(xiàn)7000張/秒的性能，這對(duì)自動(dòng)駕駛這類既需要高性能，又需要低延遲的應(yīng)用來說非常合適。

　　精度是AI推理性能的另一個(gè)重要指標(biāo)。通常情況下，在推理和預(yù)測(cè)當(dāng)中為了考慮性能和效率，會(huì)將通過浮點(diǎn)訓(xùn)練好的模型整齊化(quantization)，但此舉又會(huì)造成信息丟失，影響最重的計(jì)算結(jié)果。得益于強(qiáng)大的算法團(tuán)隊(duì)，Habana成功的在兩者之間找到了平衡。

　　考慮到很多用戶當(dāng)前的大部分工作仍舊基于CPU/GPU，如果貿(mào)然轉(zhuǎn)換到新的處理器上，之前的工作怎樣能夠快速、準(zhǔn)確的部署到新平臺(tái)上肯定是他們最擔(dān)心的事情。Eitan Medina說自己完全理解用戶的這種顧慮，因此Habana labs在SynapseAI軟件棧中對(duì)訓(xùn)練模型輸入進(jìn)行了分析和優(yōu)化，以通過Goya處理器實(shí)現(xiàn)高效推理。這款軟件包括一個(gè)豐富的內(nèi)核庫(kù)，其工具鏈?zhǔn)情_放的，供客戶添加專有內(nèi)核，可與TensorFlow和ONNX等深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架無縫交互。

　　目前，F(xiàn)acebook在其官網(wǎng)上已明確表示Goya成為了第一款支持其Glow機(jī)器學(xué)習(xí)編譯環(huán)境的產(chǎn)品，Habana公司也將Goya的驅(qū)動(dòng)程序開源提供給了Linux，最新版的Linux軟件已經(jīng)集成了Goya驅(qū)動(dòng)程序。

　　Gaudi

　　按照Habana的官方說法，基于Gaudi的訓(xùn)練系統(tǒng)能夠在ResNet-50上提供1650張/秒的圖片處理能力，比擁有相同數(shù)量的NVIDIA V100 GPU系統(tǒng)高四倍，但功耗是V100的一半，約150瓦。此外，得益于創(chuàng)新的架構(gòu)，Gaudi可實(shí)現(xiàn)訓(xùn)練系統(tǒng)性能的近線性擴(kuò)展，即使是在較小Batch Size的情況下，也能保持高計(jì)算力。因此，基于Gaudi處理器的訓(xùn)練性能可實(shí)現(xiàn)從單一設(shè)備擴(kuò)展至由數(shù)百個(gè)處理器搭建的大型系統(tǒng)的線性擴(kuò)展。

　　除了領(lǐng)先的性能，Gaudi還為人工智能訓(xùn)練帶來了RDMA over Converged Ethernet (RoCE v2) 功能，從而讓人工智能系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模。相比之下，基于GPU的系統(tǒng)依賴于專有的系統(tǒng)接口，對(duì)系統(tǒng)設(shè)計(jì)人員來說，這從本質(zhì)上限制了可擴(kuò)展性和選擇性。

　　其實(shí)NIVIDA也意識(shí)到了這個(gè)問題。在2019年的GTC大會(huì)上，黃仁勛在演講中就重點(diǎn)介紹了英偉達(dá)為什么看好RDMA技術(shù)，并隨后以69億美元的價(jià)格收購(gòu)了以色列公司Mellanox。Eitan Medina說在支持RDMA方面Habana與NVIDIA的理念是一致的，不同之處在于Habana直接在單芯片中集成了10個(gè)支持RDMA的端口，而V100要支持RDMA功能，必須要通過PCIE接口，然后在外部再接一個(gè)支持RDMA的網(wǎng)卡才能實(shí)現(xiàn)。另一方面，英偉達(dá)在擴(kuò)展時(shí)采用了私有協(xié)議NVLink，Habana方面認(rèn)為NVLink受限于規(guī)模，不具備實(shí)現(xiàn)大規(guī)模的擴(kuò)展能力。這樣，Gaudi無論是在集成度上還是在RDMA數(shù)量上，都要比V100高出很多。

　　之所以設(shè)計(jì)成兩種不同的接口形式，Eitan Medina解釋說，如果在PCIe形態(tài)中，用戶可以直接用Gaudi替換當(dāng)前服務(wù)器中使用的NVIDIA V100卡；如果采用OCP-OAM接口，這種模組化的結(jié)構(gòu)更易于客戶設(shè)計(jì)屬于自己的產(chǎn)品，而英偉達(dá)目前還不支持OCP結(jié)構(gòu)，更不支持OAM。

　　與Gaudi同時(shí)發(fā)布的還有一款名為HLS-1的8-Gaudi系統(tǒng)，配備了8個(gè)HL-205子卡、PCIe外部主機(jī)連接器和24個(gè)用于連接現(xiàn)有以太網(wǎng)交換機(jī)的100Gbps以太網(wǎng)端口，讓客戶能夠通過在19英寸標(biāo)準(zhǔn)機(jī)柜中部署多個(gè)HLS-1系統(tǒng)實(shí)現(xiàn)性能擴(kuò)展。

　　Eitan Medina從三個(gè)方面將英偉達(dá)DGX-1與HLS-1系統(tǒng)的性能進(jìn)行了對(duì)比。首先，盡管都是8片系統(tǒng)，但DGX-1采用了私有協(xié)議NVLink來實(shí)現(xiàn)互聯(lián)，只能實(shí)現(xiàn)相鄰兩顆芯片間的直接互聯(lián)，無法實(shí)現(xiàn)所有8顆芯片間的直接互聯(lián)；其次，如果DGX-1要實(shí)現(xiàn)擴(kuò)展，只能依賴于它的4個(gè)100G以太網(wǎng)端口。而HLS-1系統(tǒng)則能夠支持24個(gè)100G端口；最后，DGX-1的系統(tǒng)管理和數(shù)據(jù)通訊都必須在PCIE總線上復(fù)用，性能上會(huì)有損失。HLS-1為系統(tǒng)管理和數(shù)據(jù)通訊選擇了兩條不同的路徑，大幅提升了總線效率。

　　舉例而言，在模型并行處理方面，DGX-2提供的NVLink端口有限，最大只能支持16個(gè)并行處理，這在很大程度上限制了模型并行處理能力。而HLS-1中的8片Gaudi 卡可以把80個(gè)100G的以太網(wǎng)口對(duì)外開放實(shí)現(xiàn)互聯(lián)，從而實(shí)現(xiàn)幾十個(gè)，甚至幾百個(gè)Gaudi系統(tǒng)之間的并行模型化處理。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

這家拿了英特爾風(fēng)投的AI公司，可能會(huì)讓英偉達(dá)心頭一緊

日期： 2019-06-27

相關(guān)內(nèi)容