ASIC，風(fēng)潮降至-AET-電子技術(shù)應(yīng)用

ASIC，風(fēng)潮降至

日期： 2022-10-09

來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

關(guān)鍵詞： ASIC 邊緣計(jì)算自動(dòng)駕駛處理器

隨著機(jī)器學(xué)習(xí)、邊緣計(jì)算、自動(dòng)駕駛的發(fā)展，大量數(shù)據(jù)處理任務(wù)的產(chǎn)生，使得人們對(duì)于芯片計(jì)算效率、計(jì)算能力和計(jì)能耗比都提出了很高的要求，在此背景下，ASIC得到了越來(lái)越多人的關(guān)注。

1981年3月，Sinclair公司推出了一款8位個(gè)人電腦ZX81，其中的Z80處理器則被認(rèn)為是最早的ASIC原型。ASIC（Application Specific Integrated Circuit）芯片是專(zhuān)用集成電路，是針對(duì)用戶(hù)對(duì)特定電子系統(tǒng)的需求，從根級(jí)設(shè)計(jì)、制造的專(zhuān)有應(yīng)用程序芯片，廣泛應(yīng)用于人工智能設(shè)備、虛擬貨幣挖礦設(shè)備、耗材打印設(shè)備、軍事國(guó)防設(shè)備等智慧終端。在硬件層面，ASIC 芯片由基本硅材料、磷化鎵、砷化鎵、氮化鎵等材料構(gòu)成。在物理結(jié)構(gòu)層面，ASIC 芯片模塊通常包括 32 位微處理器、存儲(chǔ)器塊、網(wǎng)絡(luò)電路等。

不同的ASIC芯片

ASIC 芯片可根據(jù)終端功能不同分為 TPU 芯片、DPU 芯片和 NPU 芯片等。其中，TPU 為張量處理器，專(zhuān)用于機(jī)器學(xué)習(xí)。如 Google 于 2016 年 5 月研發(fā)針對(duì) Tensorflow 平臺(tái)的可編程 AI 加速器，其內(nèi)部指令集在 Tensorflow 程序變化或更新算法時(shí)可運(yùn)行。DPU即Data Processing Unit，可為數(shù)據(jù)中心等計(jì)算場(chǎng)景提供引擎。NPU 是神經(jīng)網(wǎng)絡(luò)處理器，在電路層模擬人類(lèi)神經(jīng)元和突觸，并用深度學(xué)習(xí)指令集直接處理大規(guī)模電子神經(jīng)元和突觸數(shù)據(jù)。

ASIC 有全定制和半定制兩種設(shè)計(jì)方式。全定制依靠巨大的人力時(shí)間成本投入以完全自主的方式完成整個(gè)集成電路的設(shè)計(jì)流程，雖然比半定制的ASIC 更為靈活性能更好，但它的開(kāi)發(fā)效率與半定制相比甚為低下。

隨著功能模塊電路和單元庫(kù)的設(shè)計(jì)日趨成熟，半定制的ASIC 設(shè)計(jì)逐漸取代了全定制方法。設(shè)計(jì)人員可以更為輕松地直接使用預(yù)先完成的單元庫(kù)中的標(biāo)準(zhǔn)邏輯單元進(jìn)行設(shè)計(jì)，或使用門(mén)陣列的方式，現(xiàn)在用全定制方法進(jìn)行完整電路設(shè)計(jì)的情況很少出現(xiàn)。基于標(biāo)準(zhǔn)邏輯單元和基于門(mén)陣列是當(dāng)前半定制的ASIC 設(shè)計(jì)主要采用的兩種設(shè)計(jì)方法。

基于標(biāo)準(zhǔn)單元的方法直接從單元庫(kù)里挑選標(biāo)準(zhǔn)邏輯單元，諸如各種中小規(guī)模的集成電路單元和門(mén)級(jí)、行為級(jí)甚至系統(tǒng)級(jí)電路模塊，這些標(biāo)準(zhǔn)單元在進(jìn)行ASIC設(shè)計(jì)使用之前已經(jīng)被預(yù)先設(shè)計(jì)好并經(jīng)過(guò)了嚴(yán)格的設(shè)計(jì)規(guī)則驗(yàn)證，可靠性很高，半定制的設(shè)計(jì)人員可以直接從單元庫(kù)中拿來(lái)進(jìn)行系統(tǒng)設(shè)計(jì)，使用方便。

基于門(mén)陣列的方法是在互聯(lián)金屬層排列形成的晶體管陣列上，以全定制確定掩膜，通過(guò)掩膜之間的互相連接完成設(shè)計(jì)，這種門(mén)陣列由其突出的形式故被稱(chēng)為MGA（掩膜式門(mén)陣列）。門(mén)陣列庫(kù)在相同邏輯單元版圖的基礎(chǔ)上，定制金屬的互連線(xiàn)。

ASIC 設(shè)計(jì)的流程自頂向下——“Top－Down”的設(shè)計(jì)思想通常為基于標(biāo)準(zhǔn)單元的ASIC 所采用，其設(shè)計(jì)基本流程圖所示。

ASIC和CPU、FPGA等對(duì)比

ASIC和CPU、FPGA等對(duì)比CPU ：基于低延時(shí)的設(shè)計(jì)，有強(qiáng)單次邏輯處理能力，但面對(duì)有限功耗的大量數(shù)據(jù)處理能力有限。中央處理器 CPU 需要很強(qiáng)的處理不同類(lèi)型數(shù)據(jù)的計(jì)算能力以及處理分支與跳轉(zhuǎn)的邏輯判斷能力，這些都使得 CPU 的內(nèi)部結(jié)構(gòu)異常復(fù)雜．深度學(xué)習(xí)模型需要通過(guò)大量的數(shù)據(jù)訓(xùn)練才能獲得理想的效果。驟然爆發(fā)的數(shù)據(jù)洪流滿(mǎn)足了深度學(xué)習(xí)算法對(duì)于訓(xùn)練數(shù)據(jù)量的要求，但是算法的實(shí)現(xiàn)還需要相應(yīng)處理器極高的運(yùn)算速度作為支撐。當(dāng)前流行的包括 X86 和 ARM 在內(nèi)的傳統(tǒng) CPU 處理器架構(gòu)往往需要數(shù)百甚至上千條指令才能完成一個(gè)神經(jīng)元的處理，但對(duì)于并不需要太多的程序指令，卻需要海量數(shù)據(jù)運(yùn)算的深度學(xué)習(xí)的計(jì)算需求，這種結(jié)構(gòu)就顯得非常笨拙。尤其是在當(dāng)前功耗限制下無(wú)通過(guò)提升 CPU 主頻來(lái)加快指令執(zhí)行速度，這種矛盾愈發(fā)不可調(diào)和。

GPU：較成熟生態(tài)系統(tǒng)，最先受益人工智能爆發(fā)。GPU 與 CPU 類(lèi)似，只不過(guò)是一種專(zhuān)門(mén)進(jìn)行圖像運(yùn)算工作的微處理器。GPU 是專(zhuān)為執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計(jì)算而設(shè)計(jì)的，這些計(jì)算是圖形渲染所必需的。GPU 在浮點(diǎn)運(yùn)算、并行計(jì)算等部分計(jì)算方面可以提供數(shù)十倍乃至于上百倍于 CPU 的性能。但其有三個(gè)方面的局限性：1．應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。2．硬件結(jié)構(gòu)固定不具備可編程性。3．運(yùn)行深度學(xué)習(xí)算法能效遠(yuǎn)低于 ASIC 及 FPGA。

FPGA：能效中等、靈活度高、成本較高的 AI 白板，具有三類(lèi)局限。FPGA 稱(chēng)為現(xiàn)場(chǎng)可編程門(mén)陣列，用戶(hù)可以根據(jù)自身的需求進(jìn)行重復(fù)編程，與 GPU、CPU 相比，具有性能高、能耗低、可硬件編程的特點(diǎn)。同時(shí)具有三類(lèi)局限：1、基本單元的計(jì)算能力有限；2、速度和功耗有待提升；3、FPGA 價(jià)格較為昂貴。

ASIC ：專(zhuān)為特定目的而設(shè)計(jì)。不同于 GPU 和 FPGA 的靈活性，定制化的 ASIC 一旦制造完成將不能更改，所以初期成本高、開(kāi)發(fā)周期長(zhǎng)的使得進(jìn)入門(mén)檻高。目前，大多是具備 AI 算法又擅長(zhǎng)芯片研發(fā)的巨頭參與，如 Google 的 TPU。ASIC 芯片有以下幾個(gè)優(yōu)勢(shì)1．規(guī)格優(yōu)勢(shì)：ASIC 芯片在設(shè)計(jì)時(shí)充分利用單位運(yùn)算單元功能，避免冗余計(jì)算單元存在，有利于縮小芯片體積。2．能耗優(yōu)勢(shì)：ASIC 芯片單位算力能耗相對(duì) CPU、GPU、FPGA 較低，如 GPU 每算力平均約消耗 0．4 瓦電力，ASIC 單位算力平均消耗約 0．2 瓦電力，更能滿(mǎn)足新型智能家電對(duì)能耗的限制。3．集成優(yōu)勢(shì)：因采用定制化設(shè)計(jì)，ASIC 芯片系統(tǒng)、電路、工藝高度一體化，有助于客戶(hù)獲得高性能集成電路。如TPU1 是傳統(tǒng) GPU 性能的 14－16 倍，NPU 是 GPU 的 118 倍。寒武紀(jì)已發(fā)布對(duì)外應(yīng)用指令集，ASIC 將是未來(lái) AI芯片的核心。

ASIC的未來(lái)如何

ASIC 芯片及其配套產(chǎn)品在下游智慧家電市場(chǎng)已初步形成應(yīng)用模式，具有廣闊市場(chǎng)空間。受物聯(lián)網(wǎng)趨勢(shì)影響，如美的、格力、海爾、海信等家電廠商相繼布局各類(lèi)智能家電產(chǎn)品。通過(guò)嵌入 ASIC 芯片，家電產(chǎn)品制造商可獲得更高利潤(rùn)，推動(dòng)智慧城市建設(shè)。

谷歌開(kāi)發(fā)的優(yōu)化算法架構(gòu) Tensor Processing Unit，TPU在算法架構(gòu)上介于 CPU 和全定制化 ASIC 之間，兼具桌面計(jì)算設(shè)備與嵌入式計(jì)算設(shè)備功能。TPU 算法具備較寬容錯(cuò)性，在硬件組成上相對(duì) CPU 類(lèi)通用芯片更加簡(jiǎn)潔。相同數(shù)量晶體管條件下，TPU 算法架構(gòu)的 ASIC 芯片可完成更高運(yùn)算量。相對(duì)同級(jí)別CPU、GPU，該類(lèi) ASIC 芯片可提高運(yùn)算性能 15 倍至 30 倍，并提高能耗效率 30 倍至 80倍。另外如思科推出防火墻專(zhuān)用 ASIC 芯片在算法上采用網(wǎng)絡(luò)加速協(xié)議，高通推出基帶專(zhuān)用ASIC 芯片采用通信協(xié)議、傅里葉變換等優(yōu)化算法。自動(dòng)駕駛運(yùn)算系統(tǒng)處于快速更迭、進(jìn)化階段，或于 5 年內(nèi)進(jìn)入算法穩(wěn)定階段。專(zhuān)家指出，基于固定算法最優(yōu)化設(shè)計(jì)的ASIC芯片將成自動(dòng)駕駛運(yùn)算系統(tǒng)主流核心模塊。

因 ASIC 算法架構(gòu)更接近底層算法且在物理結(jié)構(gòu)上大幅縮減冗余晶體管和連線(xiàn)，ASIC 芯片在運(yùn)算吞吐量、延遲度、功耗等參數(shù)方面表現(xiàn)優(yōu)于傳統(tǒng)芯片。現(xiàn)階段自動(dòng)駕駛系統(tǒng)核心芯片已從 GPU 轉(zhuǎn)向 FPGA，并逐步向 ASIC 過(guò)渡。相對(duì) FPGA 芯片，ASIC架構(gòu)下，自動(dòng)駕駛系統(tǒng)計(jì)算效率、計(jì)算能力皆可定制，一旦達(dá)到量產(chǎn)規(guī)模，其平均成本將低于 FPGA 芯片。相同工藝條件下，ASIC 計(jì)算速度約為 FPGA 運(yùn)算速度 5 倍及以上。

國(guó)內(nèi)外發(fā)展現(xiàn)狀

ASIC芯片在芯片行業(yè)正在受到重視。包括DPU和NPU等類(lèi)別。DPU主要承擔(dān)網(wǎng)絡(luò)、存儲(chǔ)和安全的加速處理任務(wù)，旨在滿(mǎn)足網(wǎng)絡(luò)側(cè)專(zhuān)用計(jì)算需求，尤其適用于服務(wù)器量多、對(duì)數(shù)據(jù)傳輸速率要求嚴(yán)苛的場(chǎng)景。具體看來(lái)，DPU對(duì)CPU所不擅長(zhǎng)的網(wǎng)絡(luò)協(xié)議處理、數(shù)據(jù)加解密、數(shù)據(jù)壓縮等數(shù)據(jù)處理任務(wù)，可以順滑地接手，并且對(duì)各類(lèi)資源分別管理、擴(kuò)容、調(diào)度。2020 年上半年，NVIDIA以69 億美元的對(duì)價(jià)收購(gòu)以色列網(wǎng)絡(luò)芯片公司 Mellanox Technologies，并于同年推出 BlueField－2 DPU，將其定義為繼 CPU 和 GPU 之后“第三顆主力芯片”，正式拉開(kāi) DPU 大發(fā)展的序幕。

谷歌公司日前在I／O 2022活動(dòng)中發(fā)布其新一代張量處理器TPU v4集群，該公司CEO Sundar Pichai介紹稱(chēng)，新的算力集群被稱(chēng)為Pod，包含4096個(gè)v4芯片，可提供超過(guò)1 exaflops的浮點(diǎn)性能，Pichai表示其將在位于俄克拉荷馬州的數(shù)據(jù)中心部署8個(gè)TPU v4集群，合計(jì)實(shí)現(xiàn)約9 exaflops的性能，

今年8月，英特爾Agilex FPGA 和 Stratix 10 NX FPGA 兩大產(chǎn)品已部署至中國(guó)創(chuàng)新中心。英特爾 Agilex FPGA 集英特爾 SuperFin 制程技術(shù)、Chiplet、3D 封裝等眾長(zhǎng)于一身，在生產(chǎn)、工藝、封裝、互連等方面較前代產(chǎn)品有明顯進(jìn)步，能夠廣泛應(yīng)用到 5G、人工智能場(chǎng)景中，為以數(shù)據(jù)為中心的世界提供敏捷性和靈活性。相較于英特爾Stratix 10 FPGA，英特爾 Agilex FPGA 性能提高了 45％，功耗降低了 40％。

國(guó)內(nèi)也在ASIC市場(chǎng)上發(fā)力。阿里巴巴正式對(duì)外發(fā)布了全新的含光800AI芯片。平頭哥含光800芯片性能的突破得益于軟硬件的協(xié)同創(chuàng)新：硬件層面采用自研芯片架構(gòu)，通過(guò)推理加速等技術(shù)有效解決芯片性能瓶頸問(wèn)題；軟件層面集成了達(dá)摩院先進(jìn)算法，針對(duì)CNN及視覺(jué)類(lèi)算法深度優(yōu)化計(jì)算、存儲(chǔ)密度，可實(shí)現(xiàn)大網(wǎng)絡(luò)模型在一顆NPU上完成計(jì)算。

中科馭數(shù)設(shè)計(jì)了業(yè)界首顆網(wǎng)絡(luò)數(shù)據(jù)庫(kù)一體化加速功能的DPU芯片和智能網(wǎng)卡系列產(chǎn)品。創(chuàng)始團(tuán)隊(duì)來(lái)自科研院所，正開(kāi)展第三代DPU芯片K2 Pro的研發(fā)工作，致力于DPU芯片的國(guó)產(chǎn)替代。OPPO發(fā)布自主研發(fā)的影像專(zhuān)用NPU芯片“馬里亞?MariSilicon?X”。

寒武紀(jì)公司出品的diannao系列NPU芯片。2021年8月18日，百度在世界大會(huì)上，推出了自家的首款7nm自研“昆侖2代AI芯片”。昆侖芯2的性能、通用性、易用性較1代產(chǎn)品均有顯著增強(qiáng)。該芯片采用全球領(lǐng)先的7nm 制程，搭載自研的第二代 XPU 架構(gòu)，相比1代性能提升2－3倍。整數(shù)精度（INT8）算力達(dá)到256 TeraOPS，半精度（FP16）為128 TeraFLOPS，而最大功耗僅為120W。

ASIC深度學(xué)習(xí)，數(shù)據(jù)中心、邊緣計(jì)算等各個(gè)領(lǐng)域都得到了廣泛的應(yīng)用并正在飛速發(fā)展．

更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：[email protected]。

ASIC，風(fēng)潮降至

日期： 2022-10-09

來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

相關(guān)內(nèi)容