《電子技術(shù)應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 業(yè)界動態(tài) > 英特爾Naveen Rao:不僅是CPU或者GPU,,企業(yè)級人工智能需要更全面的方法

英特爾Naveen Rao:不僅是CPU或者GPU,企業(yè)級人工智能需要更全面的方法

2018-05-24
關鍵詞: 英特爾 CPU GPU 人工智能

  在5月23日舊金山舉行的英特爾人工智能開發(fā)者大會上,我們介紹了有關英特爾人工智能產(chǎn)品組合與英特爾Nervana?神經(jīng)網(wǎng)絡處理器的最新情況,。這是令人興奮的一周,英特爾人工智能開發(fā)者大會匯集了人工智能領域的頂尖人才,。我們意識到,,英特爾需要與整個行業(yè)進行協(xié)作,包括開發(fā)者,、學術(shù)界,、軟件生態(tài)系統(tǒng)等等,來釋放人工智能的全部潛力,。因此,,我很興奮能夠與眾多業(yè)內(nèi)人士同臺。這包括與我們共同參與演示、研究和實踐培訓的開發(fā)者,,也包括來自谷歌*,、AWS*、微軟*,、Novartis*,、C3 IoT*的諸多支持者。正是這種廣泛的合作幫助我們一起賦能人工智能社區(qū),,為加快人工智能領域的技術(shù)創(chuàng)新和進步提供所需的硬件和軟件支持,。

  Naveen Rao發(fā)表演講

  在加速向人工智能驅(qū)動的未來計算過渡之時,我們需要提供全面的企業(yè)級解決方案,。這意味著我們的解決方案要提供最廣泛的計算能力,,并且能夠支持從毫瓦級到千瓦級的多種架構(gòu)。企業(yè)級的人工智能還意味著支持和擴展行業(yè)已經(jīng)投資開發(fā)的工具,、開放式框架和基礎架構(gòu),,以便更好地讓研究人員在不同的人工智能工作負載中執(zhí)行任務。例如人工智能開發(fā)者越來越傾向于直接針對開源框架進行編程,,而不是針對具體的產(chǎn)品軟件平臺,,這樣有助于更快速、更高效的開發(fā),。我們在大會上發(fā)布的消息涉及所有這些領域,,并公布了幾家新增的合作伙伴,這都將幫助開發(fā)者和我們的客戶更快速地從人工智能中受益,。

  針對多樣化的人工智能工作負載而擴展的英特爾人工智能產(chǎn)品組合

  英特爾近期的一項調(diào)查顯示,,在我們的美國企業(yè)客戶中,50%以上都正在轉(zhuǎn)向采用基于英特爾?至強?處理器的現(xiàn)有的云解決方案來滿足其對人工智能的初步需求,。這其實肯定了英特爾的做法 - 通過提供包括英特爾?至強?處理器,、英特爾? Nervana?和英特爾? Movidius?技術(shù)以及英特爾? FPGAs在內(nèi)的廣泛的企業(yè)級產(chǎn)品,來滿足人工智能工作負載的獨特要求,。

  我們今天討論的一個重要內(nèi)容是對英特爾至強可擴展處理器的優(yōu)化,。與前一代相比,這些優(yōu)化大幅提升了訓練和推理性能,,有利于更多公司充分利用現(xiàn)有基礎設施,,在邁向人工智能初始階段的過程中降低總體成本。最新的英特爾Nervana神經(jīng)網(wǎng)絡處理器(NNP)系列也有更新消息分享:英特爾Nervana神經(jīng)網(wǎng)絡處理器有著清晰的設計目標,,即實現(xiàn)高計算利用率,,以及通過芯片間互聯(lián)支持真正的模型并行化。行業(yè)談論了很多有關理論峰值性能或TOP/s數(shù)字的話題,;但現(xiàn)實是,,除非架構(gòu)設計上內(nèi)存子系統(tǒng)能夠支撐這些計算單元的充分利用,否則很多計算是毫無意義的。此外,,業(yè)內(nèi)發(fā)表的很多性能數(shù)據(jù)采用了很大的方形矩陣,但這在真實的神經(jīng)網(wǎng)絡中通常是不存在的,。

  英特爾致力于為神經(jīng)網(wǎng)絡開發(fā)一個平衡的架構(gòu),,其中也包括在低延遲狀態(tài)下實現(xiàn)芯片間高帶寬。我們的神經(jīng)網(wǎng)絡處理器系列上進行的初步性能基準測試顯示,,利用率和互聯(lián)方面都取得了極具競爭力的測試結(jié)果,。具體細節(jié)包括:

  使用A(1536, 2048)和B(2048, 1536)矩陣大小的矩陣-矩陣乘法(GEMM)運算,在單芯片上實現(xiàn)了高于96.4%的計算利用率1,。這意味著在單芯片上實現(xiàn)大約38 TOP/s的實際(非理論)性能1,。針對A(6144, 2048)和B(2048, 1536)矩陣大小,支持模型并行訓練的多芯片分布式GEMM運算實現(xiàn)了近乎線性的擴展和96.2%的擴展效率2,,讓多個神經(jīng)網(wǎng)絡處理器能夠連接到一起,,并打破其它架構(gòu)面臨的內(nèi)存限制。

  在延遲低于790納秒的情況下,,我們測量到了達到89.4%理論帶寬的單向芯片間傳輸效率3,,并把它用于2.4Tb/s的高帶寬、低延遲互聯(lián),。

  這一切是在總功率低于210瓦的單芯片中實現(xiàn)的,,而這只是英特爾Nervana神經(jīng)網(wǎng)絡處理器原型產(chǎn)品(Lake Crest)。該產(chǎn)品的主要目標是從我們的早期合作伙伴那里收集反饋,。

  我們正在開發(fā)第一個商用神經(jīng)網(wǎng)絡處理器產(chǎn)品英特爾Nervana NNP-L1000(Spring Crest),,計劃在2019年發(fā)布。與第一代Lake Crest產(chǎn)品相比,,我們預計英特爾Nervana NNP-L1000將實現(xiàn)3-4倍的訓練性能,。英特爾Nervana NNP-L1000還將支持bfloat16,這是業(yè)內(nèi)廣泛采用的針對神經(jīng)網(wǎng)絡的一種數(shù)值型數(shù)據(jù)格式,。未來,,英特爾將在人工智能產(chǎn)品線上擴大對bfloat16的支持,包括英特爾至強處理器和英特爾FPGA,。這是整個全面戰(zhàn)略中的一部分,,旨在把領先的人工智能訓練能力引入到我們的芯片產(chǎn)品組合中。

  面向真實世界的人工智能

  我們產(chǎn)品的廣度讓各種規(guī)模的機構(gòu)能夠輕松地通過英特爾來開啟自己的人工智能之旅,。例如,,英特爾正在與Novartis合作,使用深度神經(jīng)網(wǎng)絡來加速高內(nèi)涵篩選——這是早期藥品研發(fā)的關鍵元素,。雙方的合作把訓練圖片分析模型的時間從11個小時縮短到了31分鐘——改善了20多倍4,。為了讓客戶更快速地開發(fā)人工智能和物聯(lián)網(wǎng)應用,英特爾和C3 IoT宣布針對優(yōu)化的AI硬軟件解決方案進行合作 – 一個基于Intel AI技術(shù)的C3 IoT AI應用。此外,,我們還正在把TensorFlow*,、MXNet*、Paddle Paddle*,、CNTK*和ONNX*等深度學習框架集成在nGraph之上,,后者是一個框架中立的深度神經(jīng)網(wǎng)絡(DNN)模型編譯器。我們已經(jīng)宣布,,英特爾人工智能實驗室開源了面向Python*的自然語言處理庫,,幫助研究人員開始自己的自然語言處理算法工作。

  計算的未來依賴于我們聯(lián)合提供企業(yè)級解決方案的能力,,通過這些解決方案企業(yè)可以充分發(fā)揮人工智能的潛力,。我們迫切地希望可以與社區(qū)以及客戶一起開發(fā)和部署這項變革性技術(shù),并期待在人工智能開發(fā)者大會上擁有更精彩的體驗,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]