新興的人工智能處理器創(chuàng)業(yè)公司Habana Labs 2016年創(chuàng)立于以色列特拉維夫,最初的業(yè)務(wù)為開發(fā)專為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和生產(chǎn)環(huán)境中的推理部署而優(yōu)化的處理器平臺。2018年11月,,該公司宣布完成超額認(rèn)購的7500萬美元B輪融資。此次融資由英特爾投資領(lǐng)投,WRV Capital、Bessemer Venture Partners,、Battery Ventures和現(xiàn)有投資者等也加入其中。自創(chuàng)立以來,,該公司已經(jīng)籌集到1.2億美元,,目前在特拉維夫、圣何塞,、北京,、波蘭設(shè)有辦事處,全球員工人數(shù)量為150人,。
2018年9月,,Habana Labs正式退出隱身模式,推出首個人工智能(AI)處理器Goya HL-1000,,旨在處理各種人工智能推理(Inference)工作負(fù)載,,如圖像識別、神經(jīng)機(jī)器翻譯,、情感分析、推薦系統(tǒng)以及許多其它應(yīng)用,。該處理器創(chuàng)下了兩項行業(yè)紀(jì)錄,,基于ResNet-50推理基準(zhǔn)實(shí)現(xiàn)每秒15,393張圖片的吞吐量,延遲時間為1.3毫秒,,功耗僅為100瓦,,并獲得150張圖片/每秒/每瓦的電源效率。
今年6月,,Habana再接再厲,,推出了全新的人工智能訓(xùn)練(Training)處理器Gaudi,配備32GB HBM-2內(nèi)存,,目前提供兩種規(guī)格:HL-200—PCIe卡,,設(shè)有8個100Gb以太網(wǎng)端口;HL-205—基于OCP-OAM標(biāo)準(zhǔn)的子卡,,設(shè)有10個100Gb以太網(wǎng)端口或20個50Gb以太網(wǎng)端口,。
Goya和Gaudi兩款處理器均采用16nm工藝制造,Habana Labs首席商務(wù)官Eitan Medina說,,工藝對提升Habana產(chǎn)品的性能幫助不大,,更多是源于架構(gòu)創(chuàng)新。
Goya
下圖展示的Goya與NVIDIA T4 GPU,、英特爾8180 CPU在ResNet-50推理基準(zhǔn)測試中的性能對比,,可以看出,,與如今數(shù)據(jù)中心部署的一般解決方案相比,Goya性能是T4的3倍,,是8180的12倍以上,,但延遲只有T4的4%。
而在另一張圖片中,,Eitan Medina說英偉達(dá)特別喜歡在公開場合強(qiáng)調(diào)其8片Tesla V100 GPU的性能等同于169片CPU的性能總和,,但其實(shí)如果和Goya相比,只需3片Goya處理器,,就能實(shí)現(xiàn)同樣的性能,,且后者還具備更低的延遲和更好的能耗比。
“CPU和GPU從架構(gòu)上來看更適合做通用計算和圖形處理,,做人工智能的確有些勉為其難,。” Eitan Medina認(rèn)為Goya平臺之所以從誕生到目前為止,,9個月的時間內(nèi)依然是市場上性能最為領(lǐng)先的產(chǎn)品,,是因為設(shè)計人員的目標(biāo)非常明確,就是要實(shí)現(xiàn)深度學(xué)習(xí)推理,,并在此基礎(chǔ)上將可編程張量處理器(Tensor Processing Core, TPC),、開發(fā)工具、圖書室和編譯程序等有機(jī)的融為一體,,共同打造了一個高性能且節(jié)能的處理器平臺,。
AI的性能主要體現(xiàn)在兩方面:計算能力和延遲。在ResNet-50基準(zhǔn)測試中,,用于衡量批處理性能的Batch size大小直接影響了處理器性能,。在數(shù)據(jù)中心中,GPU為了實(shí)現(xiàn)高性能,,必然要進(jìn)行大量的批處理運(yùn)算,;如果在普通運(yùn)算中,為了要實(shí)現(xiàn)更大的Batch size,,就需要將大量數(shù)據(jù)讀取到內(nèi)存中,,但這樣帶來了延遲。Goya的奇妙之處在于它可以令Batch Size等于1,,這意味著Goya一次可以處理一張圖片,,但在一張圖片之下,又可以實(shí)現(xiàn)7000張/秒的性能,,這對自動駕駛這類既需要高性能,,又需要低延遲的應(yīng)用來說非常合適。
精度是AI推理性能的另一個重要指標(biāo),。通常情況下,,在推理和預(yù)測當(dāng)中為了考慮性能和效率,,會將通過浮點(diǎn)訓(xùn)練好的模型整齊化(quantization),但此舉又會造成信息丟失,,影響最重的計算結(jié)果,。得益于強(qiáng)大的算法團(tuán)隊,Habana成功的在兩者之間找到了平衡,。
考慮到很多用戶當(dāng)前的大部分工作仍舊基于CPU/GPU,,如果貿(mào)然轉(zhuǎn)換到新的處理器上,之前的工作怎樣能夠快速,、準(zhǔn)確的部署到新平臺上肯定是他們最擔(dān)心的事情,。Eitan Medina說自己完全理解用戶的這種顧慮,因此Habana labs在SynapseAI軟件棧中對訓(xùn)練模型輸入進(jìn)行了分析和優(yōu)化,,以通過Goya處理器實(shí)現(xiàn)高效推理,。這款軟件包括一個豐富的內(nèi)核庫,其工具鏈?zhǔn)情_放的,,供客戶添加專有內(nèi)核,,可與TensorFlow和ONNX等深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架無縫交互。
目前,,F(xiàn)acebook在其官網(wǎng)上已明確表示Goya成為了第一款支持其Glow機(jī)器學(xué)習(xí)編譯環(huán)境的產(chǎn)品,,Habana公司也將Goya的驅(qū)動程序開源提供給了Linux,最新版的Linux軟件已經(jīng)集成了Goya驅(qū)動程序,。
Gaudi
按照Habana的官方說法,,基于Gaudi的訓(xùn)練系統(tǒng)能夠在ResNet-50上提供1650張/秒的圖片處理能力,比擁有相同數(shù)量的NVIDIA V100 GPU系統(tǒng)高四倍,,但功耗是V100的一半,約150瓦,。此外,,得益于創(chuàng)新的架構(gòu),Gaudi可實(shí)現(xiàn)訓(xùn)練系統(tǒng)性能的近線性擴(kuò)展,,即使是在較小Batch Size的情況下,,也能保持高計算力。因此,,基于Gaudi處理器的訓(xùn)練性能可實(shí)現(xiàn)從單一設(shè)備擴(kuò)展至由數(shù)百個處理器搭建的大型系統(tǒng)的線性擴(kuò)展,。
除了領(lǐng)先的性能,Gaudi還為人工智能訓(xùn)練帶來了RDMA over Converged Ethernet (RoCE v2) 功能,,從而讓人工智能系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模,。相比之下,基于GPU的系統(tǒng)依賴于專有的系統(tǒng)接口,,對系統(tǒng)設(shè)計人員來說,,這從本質(zhì)上限制了可擴(kuò)展性和選擇性,。
其實(shí)NIVIDA也意識到了這個問題。在2019年的GTC大會上,,黃仁勛在演講中就重點(diǎn)介紹了英偉達(dá)為什么看好RDMA技術(shù),,并隨后以69億美元的價格收購了以色列公司Mellanox。Eitan Medina說在支持RDMA方面Habana與NVIDIA的理念是一致的,,不同之處在于Habana直接在單芯片中集成了10個支持RDMA的端口,,而V100要支持RDMA功能,必須要通過PCIE接口,,然后在外部再接一個支持RDMA的網(wǎng)卡才能實(shí)現(xiàn),。另一方面,英偉達(dá)在擴(kuò)展時采用了私有協(xié)議NVLink,,Habana方面認(rèn)為NVLink受限于規(guī)模,,不具備實(shí)現(xiàn)大規(guī)模的擴(kuò)展能力。這樣,,Gaudi無論是在集成度上還是在RDMA數(shù)量上,,都要比V100高出很多。
之所以設(shè)計成兩種不同的接口形式,,Eitan Medina解釋說,,如果在PCIe形態(tài)中,用戶可以直接用Gaudi替換當(dāng)前服務(wù)器中使用的NVIDIA V100卡,;如果采用OCP-OAM接口,,這種模組化的結(jié)構(gòu)更易于客戶設(shè)計屬于自己的產(chǎn)品,而英偉達(dá)目前還不支持OCP結(jié)構(gòu),,更不支持OAM,。
與Gaudi同時發(fā)布的還有一款名為HLS-1的8-Gaudi系統(tǒng),配備了8個HL-205子卡,、PCIe外部主機(jī)連接器和24個用于連接現(xiàn)有以太網(wǎng)交換機(jī)的100Gbps以太網(wǎng)端口,,讓客戶能夠通過在19英寸標(biāo)準(zhǔn)機(jī)柜中部署多個HLS-1系統(tǒng)實(shí)現(xiàn)性能擴(kuò)展。
Eitan Medina從三個方面將英偉達(dá)DGX-1與HLS-1系統(tǒng)的性能進(jìn)行了對比,。首先,,盡管都是8片系統(tǒng),但DGX-1采用了私有協(xié)議NVLink來實(shí)現(xiàn)互聯(lián),,只能實(shí)現(xiàn)相鄰兩顆芯片間的直接互聯(lián),,無法實(shí)現(xiàn)所有8顆芯片間的直接互聯(lián);其次,,如果DGX-1要實(shí)現(xiàn)擴(kuò)展,,只能依賴于它的4個100G以太網(wǎng)端口。而HLS-1系統(tǒng)則能夠支持24個100G端口,;最后,,DGX-1的系統(tǒng)管理和數(shù)據(jù)通訊都必須在PCIE總線上復(fù)用,,性能上會有損失。HLS-1為系統(tǒng)管理和數(shù)據(jù)通訊選擇了兩條不同的路徑,,大幅提升了總線效率,。
舉例而言,在模型并行處理方面,,DGX-2提供的NVLink端口有限,,最大只能支持16個并行處理,這在很大程度上限制了模型并行處理能力,。而HLS-1中的8片Gaudi 卡可以把80個100G的以太網(wǎng)口對外開放實(shí)現(xiàn)互聯(lián),,從而實(shí)現(xiàn)幾十個,甚至幾百個Gaudi系統(tǒng)之間的并行模型化處理,。