為什么你的AI芯片設(shè)計(jì)總是慢人一步？-AET-電子技術(shù)應(yīng)用

為什么你的AI芯片設(shè)計(jì)總是慢人一步？

日期： 2020-09-23

來(lái)源：半導(dǎo)體行業(yè)觀(guān)察

關(guān)鍵詞： 人工智能芯片 AISoC

　　人類(lèi)對(duì)于人工智能（AI）的探索從未停止過(guò)。

　　從上世紀(jì)八十年代開(kāi)始，多層神經(jīng)網(wǎng)絡(luò)和反向傳播算法的出現(xiàn)給人工智能行業(yè)點(diǎn)燃了新的火花，到2016年Alpha Go擊敗韓國(guó)圍棋九段職業(yè)選手，標(biāo)志著人工智能的又一波高潮來(lái)臨。現(xiàn)階段的人工智能領(lǐng)域已經(jīng)全面開(kāi)花。

　　AI芯片發(fā)展史

　　人工智能的興起，為半導(dǎo)體行業(yè)帶來(lái)了新的機(jī)遇，使得半導(dǎo)體市場(chǎng)發(fā)生了翻天覆地的變化。但想要將人工智能移植到智能手機(jī)、車(chē)聯(lián)網(wǎng)、IoT等終端，就對(duì)硬件的計(jì)算能力和能耗提出了更高的要求。就拿移動(dòng)端硬件來(lái)說(shuō)，完成這些運(yùn)算必須同時(shí)滿(mǎn)足高速度和低功耗的要求。

　　針對(duì)這些需求，人工智能核心計(jì)算芯片也經(jīng)歷了四次大的變化。

　　2007年以前，人工智能研究和應(yīng)用經(jīng)歷了數(shù)次起伏，一直沒(méi)有發(fā)展成為成熟的產(chǎn)業(yè)；同時(shí)受限于當(dāng)時(shí)算法、數(shù)據(jù)等因素，這一階段人工智能對(duì)于芯片并沒(méi)有特別強(qiáng)烈的需求，通用的CPU芯片即可提供足夠的計(jì)算能力。

　　隨著高清視頻、游戲等行業(yè)的發(fā)展，GPU產(chǎn)品取得快速的突破；同時(shí)人們發(fā)現(xiàn)GPU的并行計(jì)算特性恰好適應(yīng)人工智能算法大數(shù)據(jù)并行計(jì)算的要求，如GPU比之前傳統(tǒng)的CPU在深度學(xué)習(xí)算法的運(yùn)算上可以提高9到72倍的效率，因此開(kāi)始嘗試使用GPU進(jìn)行人工智能的計(jì)算。

　　進(jìn)入2010年后，云計(jì)算廣泛推廣，人工智能的研究人員可以通過(guò)云計(jì)算借助大量CPU和GPU進(jìn)行混合運(yùn)算，事實(shí)上今天人工智能主要的計(jì)算平臺(tái)還是云計(jì)算。但人工智能業(yè)界對(duì)于計(jì)算能力的要求快速提升，因此進(jìn)入2015年后，業(yè)界開(kāi)始研發(fā)針對(duì)人工智能的專(zhuān)用芯片，通過(guò)更好的硬件和芯片架構(gòu)，在計(jì)算效率、能耗比等性能上得到進(jìn)一步提升。

　　AI SoC的基石

　　由于已經(jīng)發(fā)現(xiàn)傳統(tǒng)架構(gòu)對(duì)于AI SoC而言效率低下，因此系統(tǒng)規(guī)范需要進(jìn)行越來(lái)越多的架構(gòu)探索來(lái)優(yōu)化設(shè)計(jì)，以提高神經(jīng)網(wǎng)絡(luò)處理的吞吐量。FinFET時(shí)代的到來(lái)促使產(chǎn)品架構(gòu)師和片上系統(tǒng) （SoC）工程師更仔細(xì)地研究每個(gè)時(shí)鐘周期中執(zhí)行的計(jì)算的效率。

　　越來(lái)越多的企業(yè)開(kāi)始提供精良的神經(jīng)網(wǎng)絡(luò)架構(gòu)，但這些復(fù)雜的功能運(yùn)行時(shí)也使得硅片上的溫度隨之升高，功耗預(yù)算愈發(fā)緊張。此外，由于RTL代碼的性質(zhì)不斷變化，快速發(fā)展的架構(gòu)使得交付進(jìn)度也更為緊張。面對(duì)功耗和上市時(shí)間的雙重挑戰(zhàn)，開(kāi)發(fā)出適合相同芯片面積并在任務(wù)模式下按照預(yù)期吞吐量水平發(fā)揮性能的全芯片布局絕非易事。

　　設(shè)計(jì)人員需要使用構(gòu)成計(jì)算電路的構(gòu)建模塊，在元件層面解決實(shí)現(xiàn)高性能人工智能（AI） SoC的功耗、性能和面積（PPA）目標(biāo)的問(wèn)題。布爾邏輯和存儲(chǔ)器存儲(chǔ)元件構(gòu)成的這些元件塊被稱(chēng)為基礎(chǔ)IP。

　　目前最流行的深度學(xué)習(xí)技術(shù)是深度神經(jīng)網(wǎng)絡(luò)（DNN），它是許多現(xiàn)代AI應(yīng)用的基礎(chǔ)。自從DNN在語(yǔ)音識(shí)別和圖像識(shí)別任務(wù)中展現(xiàn)出突破性的成果，使用DNN的應(yīng)用數(shù)量呈爆炸式增長(zhǎng)。這些DNN方法被大量應(yīng)用在無(wú)人駕駛汽車(chē)，癌癥檢測(cè)，游戲AI等方面。在許多領(lǐng)域中，DNN目前的準(zhǔn)確性已經(jīng)超過(guò)人類(lèi)。

　　但在實(shí)現(xiàn)DNN時(shí)，如果選了錯(cuò)誤的方式，就可能給項(xiàng)目進(jìn)度帶來(lái)大麻煩。因此，利用能夠在設(shè)計(jì)周期內(nèi)為過(guò)程校正提供靈活性的基礎(chǔ)IP開(kāi)展設(shè)計(jì)是成功推出產(chǎn)品的必要之舉。

　　新思科技的基礎(chǔ)IP產(chǎn)品組合中包括HPC設(shè)計(jì)套件。該套件是邏輯庫(kù)單元和存儲(chǔ)器的集合，已在先進(jìn)節(jié)點(diǎn)上與EDA工具經(jīng)過(guò)共同優(yōu)化，旨在突破任何設(shè)計(jì)的PPA極限，并針對(duì)支持AI的設(shè)計(jì)進(jìn)行優(yōu)化。

　　須知，使用EDA供應(yīng)商提供的基礎(chǔ)IP解決方案最重要的優(yōu)勢(shì)在于互操作性。這意味著設(shè)計(jì)人員可以使用IP附帶的腳本在最尖端的工藝節(jié)點(diǎn)上進(jìn)行工作渠道清理流程，并且不會(huì)浪費(fèi)增效時(shí)間。

　　新思科技除了供應(yīng)種類(lèi)豐富且經(jīng)過(guò)硅驗(yàn)證的產(chǎn)品組合用于實(shí)現(xiàn)理想PPA目標(biāo)之外，還支持滿(mǎn)足個(gè)性化設(shè)計(jì)需求的定制服務(wù)，使其業(yè)務(wù)比任何其他產(chǎn)品更靈活。

　　如何應(yīng)對(duì)AI SoC設(shè)計(jì)挑戰(zhàn)？

　　隨著AI SoC的復(fù)雜性不斷增加，除了實(shí)現(xiàn)基礎(chǔ)構(gòu)建模塊的簡(jiǎn)便同時(shí)，優(yōu)化、測(cè)試和基準(zhǔn)界定SoC性能的設(shè)計(jì)過(guò)程也需要工具、服務(wù)和/或?qū)I(yè)知識(shí)來(lái)優(yōu)化AI系統(tǒng)。在設(shè)計(jì)過(guò)程中通過(guò)定制和優(yōu)化來(lái)培育設(shè)計(jì)，最終可以決定SoC在市場(chǎng)中能否取得成功。

　　僅依靠傳統(tǒng)的設(shè)計(jì)流程，設(shè)計(jì)人員無(wú)法得到理想的高性能、市場(chǎng)領(lǐng)先的AI解決方案。他們必須考慮更廣闊范圍的半導(dǎo)體解決方案。

　　在專(zhuān)業(yè)處理能力方面，融合神經(jīng)網(wǎng)絡(luò)能力的SoC必須同時(shí)適應(yīng)異構(gòu)和大規(guī)模并行矩陣乘法運(yùn)算。異構(gòu)組件需要標(biāo)量、矢量DSP和神經(jīng)網(wǎng)絡(luò)算法能力。

　　在存儲(chǔ)性能方面，AI模型使用大量存儲(chǔ)，這增加了硅片的成本。訓(xùn)練神經(jīng)網(wǎng)絡(luò)可能需要幾GB到10 GB的數(shù)據(jù)，這需要使用DDR最新技術(shù)，以滿(mǎn)足容量要求。

　　在實(shí)時(shí)數(shù)據(jù)連接方面，一旦AI模型經(jīng)過(guò)訓(xùn)練并可能被壓縮，就可以通過(guò)許多不同的接口IP解決方案執(zhí)行實(shí)時(shí)數(shù)據(jù)。

　　同時(shí)，盡管復(fù)制人類(lèi)大腦還有很長(zhǎng)的路要走，但人類(lèi)大腦已被用作構(gòu)建人工智能系統(tǒng)的有效模型，并繼續(xù)由全球領(lǐng)先的研究機(jī)構(gòu)建模。

　　SoC 的開(kāi)發(fā)過(guò)程在不斷變化，但本質(zhì)上包括以下標(biāo)準(zhǔn)環(huán)節(jié)：系統(tǒng)規(guī)范和架構(gòu)設(shè)計(jì)；邏輯和功能電路設(shè)計(jì)；物理設(shè)計(jì)、驗(yàn)證和分析；制造、封裝和測(cè)試；以及發(fā)布硅驗(yàn)證。新增 AI 功能可能會(huì)增加各個(gè)環(huán)節(jié)的復(fù)雜性。集成的 IP 明確規(guī)定了一些理論上的能力上限，但是對(duì)設(shè)計(jì)進(jìn)行優(yōu)化可以使實(shí)現(xiàn)結(jié)果更接近理論上的最大值。

　　傳統(tǒng) SoC 架構(gòu)的存儲(chǔ)訪(fǎng)問(wèn)和處理能力無(wú)法滿(mǎn)足需求。僅靠添加有效的矩陣乘法加速器或高帶寬存儲(chǔ)器接口的確有所幫助，但不足以成就AI 的市場(chǎng)領(lǐng)導(dǎo)者，這就更加堅(jiān)定了在系統(tǒng)設(shè)計(jì)期間專(zhuān)門(mén)針對(duì) AI 進(jìn)行特定優(yōu)化的理念。

　　由于已經(jīng)發(fā)現(xiàn)傳統(tǒng)架構(gòu)對(duì)于 AI SoC 而言效率低下，因此系統(tǒng)規(guī)范需要進(jìn)行越來(lái)越多的架構(gòu)探索來(lái)優(yōu)化設(shè)計(jì)。而因?yàn)閭鹘y(tǒng)的架構(gòu)被認(rèn)為效率較低，所以更加需要提供架構(gòu)服務(wù)。

　　此外，一代接一代的 AI SoC 正在接受改造，利用經(jīng)驗(yàn)豐富的設(shè)計(jì)團(tuán)隊(duì)進(jìn)行優(yōu)化和定制。深度學(xué)習(xí)算法包括許多存儲(chǔ)的權(quán)重，理想的情況是將其存儲(chǔ)在片上 SRAM 中，以便節(jié)省功耗和處理工作量，而通過(guò)定制來(lái)優(yōu)化 SRAM 編譯器的功率和密度是一個(gè)明顯的趨勢(shì)。

　　定制處理器是新型 AI SoC 解決方案最受歡迎的 IP 開(kāi)發(fā)成果之一。設(shè)計(jì)自定義處理器的工具彌足珍貴，它既能確保門(mén)級(jí)優(yōu)化得到充分利用和重用，也能保證不落后于支持自定義處理器所需的生態(tài)系統(tǒng)。

　　開(kāi)發(fā)AI SoC 需要市場(chǎng)上一些最具創(chuàng)新性的IP。其中包括快速采用以下新技術(shù)：HBM2e、PCIe5、CCIX，以及最新的MIPI。為了采納這些標(biāo)準(zhǔn)技術(shù)，設(shè)計(jì)人員需要支持早期的軟件開(kāi)發(fā)和性能驗(yàn)證的先進(jìn)仿真和原型設(shè)計(jì)解決方案。這些工具經(jīng)常被用來(lái)實(shí)現(xiàn) AI，原因同樣在于設(shè)計(jì)的不成熟和復(fù)雜性。

　　預(yù)先構(gòu)建的AI SoC 驗(yàn)證環(huán)境只能供具有AI SoC 開(kāi)發(fā)經(jīng)驗(yàn)的人員使用。因此，設(shè)計(jì)第二代和后代芯片組的設(shè)計(jì)服務(wù)和公司在上市時(shí)間方面具有快于先行者的固有優(yōu)勢(shì)。設(shè)計(jì)人員可以依靠設(shè)計(jì)服務(wù)作為利用 AI SoC 專(zhuān)業(yè)知識(shí)的有效方式，從而縮短產(chǎn)品上市時(shí)間，并將內(nèi)部設(shè)計(jì)團(tuán)隊(duì)解放出來(lái)，讓其專(zhuān)心設(shè)計(jì)差異化功能。

　　接口IP的硬化服務(wù)是另一種優(yōu)化工具，可實(shí)現(xiàn)更低功耗和更小面積的設(shè)計(jì)。硬化IP 為 SoC 騰出空間，為達(dá)到更高的 AI 性能提供了寶貴的片上 SRAM 和處理器組件。

　　在AI功能進(jìn)入新市場(chǎng)時(shí)選擇用于集成的 IP為AI SoC提供了關(guān)鍵組件。新思科技提供了許多專(zhuān)業(yè)解決方案，包括存儲(chǔ)接口IP、多端口的片上SRAM編譯器以及用于實(shí)時(shí)數(shù)據(jù)的完整接口選項(xiàng)組合，這三種IP解決方案是下一代AI設(shè)計(jì)的關(guān)鍵組件。

　　總結(jié)

　　隨著體系結(jié)構(gòu)迅速發(fā)展，并細(xì)化到更具體的應(yīng)用場(chǎng)景中，這種競(jìng)爭(zhēng)環(huán)境為差異化和系統(tǒng)優(yōu)化創(chuàng)造了機(jī)會(huì)。需要通過(guò)架構(gòu)建模來(lái)選擇系統(tǒng)和IP配置替代方案優(yōu)化AI片上系統(tǒng)（SoC）設(shè)計(jì)，從而迅速形成具有競(jìng)爭(zhēng)力的解決方案。新思科技提供的IP產(chǎn)品組合，節(jié)省了芯片設(shè)計(jì)商的時(shí)間，讓其專(zhuān)心設(shè)計(jì)差異化功能。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀(guān)點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：[email protected]。

為什么你的AI芯片設(shè)計(jì)總是慢人一步？

日期： 2020-09-23

來(lái)源：半導(dǎo)體行業(yè)觀(guān)察

相關(guān)內(nèi)容