隨著機(jī)器學(xué)習(xí),、邊緣計(jì)算、自動駕駛的發(fā)展,,大量數(shù)據(jù)處理任務(wù)的產(chǎn)生,,使得人們對于芯片計(jì)算效率、計(jì)算能力和計(jì)能耗比都提出了很高的要求,,在此背景下,,ASIC得到了越來越多人的關(guān)注。
1981年3月,,Sinclair公司推出了一款8位個(gè)人電腦ZX81,,其中的Z80處理器則被認(rèn)為是最早的ASIC原型。ASIC(Application Specific Integrated Circuit)芯片是專用集成電路,是針對用戶對特定電子系統(tǒng)的需求,,從根級設(shè)計(jì),、制造的專有應(yīng)用程序芯片,廣泛應(yīng)用于人工智能設(shè)備,、虛擬貨幣挖礦設(shè)備,、耗材打印設(shè)備、軍事國防設(shè)備等智慧終端,。在硬件層面,,ASIC 芯片由基本硅材料、磷化鎵,、砷化鎵,、氮化鎵等材料構(gòu)成。在物理結(jié)構(gòu)層面,,ASIC 芯片模塊通常包括 32 位微處理器,、存儲器塊、網(wǎng)絡(luò)電路等,。
01
不同的ASIC芯片
ASIC 芯片可根據(jù)終端功能不同分為 TPU 芯片,、DPU 芯片和 NPU 芯片等。其中,,TPU 為張量處理器,,專用于機(jī)器學(xué)習(xí)。如 Google 于 2016 年 5 月研發(fā)針對 Tensorflow 平臺的可編程 AI 加速器,,其內(nèi)部指令集在 Tensorflow 程序變化或更新算法時(shí)可運(yùn)行,。DPU即Data Processing Unit,可為數(shù)據(jù)中心等計(jì)算場景提供引擎,。NPU 是神經(jīng)網(wǎng)絡(luò)處理器,,在電路層模擬人類神經(jīng)元和突觸,并用深度學(xué)習(xí)指令集直接處理大規(guī)模電子神經(jīng)元和突觸數(shù)據(jù),。
ASIC 有全定制和半定制兩種設(shè)計(jì)方式,。全定制依靠巨大的人力時(shí)間成本投入以完全自主的方式完成整個(gè)集成電路的設(shè)計(jì)流程,雖然比半定制的ASIC 更為靈活性能更好,,但它的開發(fā)效率與半定制相比甚為低下,。
隨著功能模塊電路和單元庫的設(shè)計(jì)日趨成熟,半定制的ASIC 設(shè)計(jì)逐漸取代了全定制方法,。設(shè)計(jì)人員可以更為輕松地直接使用預(yù)先完成的單元庫中的標(biāo)準(zhǔn)邏輯單元進(jìn)行設(shè)計(jì),,或使用門陣列的方式,現(xiàn)在用全定制方法進(jìn)行完整電路設(shè)計(jì)的情況很少出現(xiàn),?;跇?biāo)準(zhǔn)邏輯單元和基于門陣列是當(dāng)前半定制的ASIC 設(shè)計(jì)主要采用的兩種設(shè)計(jì)方法,。
基于標(biāo)準(zhǔn)單元的方法直接從單元庫里挑選標(biāo)準(zhǔn)邏輯單元,諸如各種中小規(guī)模的集成電路單元和門級,、行為級甚至系統(tǒng)級電路模塊,,這些標(biāo)準(zhǔn)單元在進(jìn)行ASIC設(shè)計(jì)使用之前已經(jīng)被預(yù)先設(shè)計(jì)好并經(jīng)過了嚴(yán)格的設(shè)計(jì)規(guī)則驗(yàn)證,可靠性很高,,半定制的設(shè)計(jì)人員可以直接從單元庫中拿來進(jìn)行系統(tǒng)設(shè)計(jì),,使用方便。
基于門陣列的方法是在互聯(lián)金屬層排列形成的晶體管陣列上,,以全定制確定掩膜,通過掩膜之間的互相連接完成設(shè)計(jì),,這種門陣列由其突出的形式故被稱為MGA(掩膜式門陣列),。門陣列庫在相同邏輯單元版圖的基礎(chǔ)上,定制金屬的互連線,。
ASIC 設(shè)計(jì)的流程自頂向下——“Top-Down”的設(shè)計(jì)思想通常為基于標(biāo)準(zhǔn)單元的ASIC 所采用,,其設(shè)計(jì)基本流程圖所示。
02
ASIC和CPU,、FPGA等對比
ASIC和CPU,、FPGA等對比CPU :基于低延時(shí)的設(shè)計(jì),有強(qiáng)單次邏輯處理能力,,但面對有限功耗的大量數(shù)據(jù)處理能力有限,。中央處理器 CPU 需要很強(qiáng)的處理不同類型數(shù)據(jù)的計(jì)算能力以及處理分支與跳轉(zhuǎn)的邏輯判斷能力,這些都使得 CPU 的內(nèi)部結(jié)構(gòu)異常復(fù)雜.深度學(xué)習(xí)模型需要通過大量的數(shù)據(jù)訓(xùn)練才能獲得理想的效果,。驟然爆發(fā)的數(shù)據(jù)洪流滿足了深度學(xué)習(xí)算法對于訓(xùn)練數(shù)據(jù)量的要求,,但是算法的實(shí)現(xiàn)還需要相應(yīng)處理器極高的運(yùn)算速度作為支撐。當(dāng)前流行的包括 X86 和 ARM 在內(nèi)的傳統(tǒng) CPU 處理器架構(gòu)往往需要數(shù)百甚至上千條指令才能完成一個(gè)神經(jīng)元的處理,,但對于并不需要太多的程序指令,,卻需要海量數(shù)據(jù)運(yùn)算的深度學(xué)習(xí)的計(jì)算需求,這種結(jié)構(gòu)就顯得非常笨拙,。尤其是在當(dāng)前功耗限制下無通過提升 CPU 主頻來加快指令執(zhí)行速度,,這種矛盾愈發(fā)不可調(diào)和。
GPU:較成熟生態(tài)系統(tǒng),,最先受益人工智能爆發(fā),。GPU 與 CPU 類似,只不過是一種專門進(jìn)行圖像運(yùn)算工作的微處理器,。GPU 是專為執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計(jì)算而設(shè)計(jì)的,,這些計(jì)算是圖形渲染所必需的。GPU 在浮點(diǎn)運(yùn)算,、并行計(jì)算等部分計(jì)算方面可以提供數(shù)十倍乃至于上百倍于 CPU 的性能,。但其有三個(gè)方面的局限性:1.應(yīng)用過程中無法充分發(fā)揮并行計(jì)算優(yōu)勢,。2.硬件結(jié)構(gòu)固定不具備可編程性。3.運(yùn)行深度學(xué)習(xí)算法能效遠(yuǎn)低于 ASIC 及 FPGA,。
FPGA:能效中等,、靈活度高、成本較高的 AI 白板,,具有三類局限,。FPGA 稱為現(xiàn)場可編程門陣列,用戶可以根據(jù)自身的需求進(jìn)行重復(fù)編程,,與 GPU,、CPU 相比,具有性能高,、能耗低,、可硬件編程的特點(diǎn)。同時(shí)具有三類局限:1,、基本單元的計(jì)算能力有限,;2、速度和功耗有待提升,;3,、FPGA 價(jià)格較為昂貴。
ASIC :專為特定目的而設(shè)計(jì),。不同于 GPU 和 FPGA 的靈活性,,定制化的 ASIC 一旦制造完成將不能更改,所以初期成本高,、開發(fā)周期長的使得進(jìn)入門檻高,。目前,大多是具備 AI 算法又擅長芯片研發(fā)的巨頭參與,,如 Google 的 TPU,。ASIC 芯片有以下幾個(gè)優(yōu)勢1.規(guī)格優(yōu)勢:ASIC 芯片在設(shè)計(jì)時(shí)充分利用單位運(yùn)算單元功能,避免冗余計(jì)算單元存在,,有利于縮小芯片體積,。2.能耗優(yōu)勢:ASIC 芯片單位算力能耗相對 CPU、GPU,、FPGA 較低,,如 GPU 每算力平均約消耗 0.4 瓦電力,ASIC 單位算力平均消耗約 0.2 瓦電力,,更能滿足新型智能家電對能耗的限制,。3. 集成優(yōu)勢:因采用定制化設(shè)計(jì),ASIC 芯片系統(tǒng),、電路,、工藝高度一體化,,有助于客戶獲得高性能集成電路。如TPU1 是傳統(tǒng) GPU 性能的 14-16 倍,,NPU 是 GPU 的 118 倍,。寒武紀(jì)已發(fā)布對外應(yīng)用指令集,ASIC 將是未來 AI芯片的核心,。
03
ASIC的未來如何
ASIC 芯片及其配套產(chǎn)品在下游智慧家電市場已初步形成應(yīng)用模式,,具有廣闊市場空間。受物聯(lián)網(wǎng)趨勢影響,,如美的,、格力、海爾,、海信等家電廠商相繼布局各類智能家電產(chǎn)品,。通過嵌入 ASIC 芯片,家電產(chǎn)品制造商可獲得更高利潤,,推動智慧城市建設(shè)。
谷歌開發(fā)的優(yōu)化算法架構(gòu) Tensor Processing Unit,,TPU在算法架構(gòu)上介于 CPU 和全定制化 ASIC 之間,,兼具桌面計(jì)算設(shè)備與嵌入式計(jì)算設(shè)備功能。TPU 算法具備較寬容錯(cuò)性,,在硬件組成上相對 CPU 類通用芯片更加簡潔,。相同數(shù)量晶體管條件下,TPU 算法架構(gòu)的 ASIC 芯片可完成更高運(yùn)算量,。相對同級別CPU,、GPU,該類 ASIC 芯片可提高運(yùn)算性能 15 倍至 30 倍,,并提高能耗效率 30 倍至 80倍,。另外如思科推出防火墻專用 ASIC 芯片在算法上采用網(wǎng)絡(luò)加速協(xié)議,高通推出基帶專用ASIC 芯片采用通信協(xié)議,、傅里葉變換等優(yōu)化算法,。自動駕駛運(yùn)算系統(tǒng)處于快速更迭、進(jìn)化階段,,或于 5 年內(nèi)進(jìn)入算法穩(wěn)定階段,。專家指出,基于固定算法最優(yōu)化設(shè)計(jì)的ASIC芯片將成自動駕駛運(yùn)算系統(tǒng)主流核心模塊,。
因 ASIC 算法架構(gòu)更接近底層 算法且在物理結(jié)構(gòu)上大幅縮減冗余晶體管和連線,,ASIC 芯片在運(yùn)算吞吐量、延遲度,、功耗等參數(shù)方面表現(xiàn)優(yōu)于傳統(tǒng)芯片?,F(xiàn)階段自動駕駛系統(tǒng)核心芯片已從 GPU 轉(zhuǎn)向 FPGA,,并逐步向 ASIC 過渡。相對 FPGA 芯片,,ASIC架構(gòu)下,,自動駕駛系統(tǒng)計(jì)算效率、計(jì)算能力皆可定制,,一旦達(dá)到量產(chǎn)規(guī)模,,其平均成本將低于 FPGA 芯片。相同工藝條件下,,ASIC 計(jì)算速度約為 FPGA 運(yùn)算速度 5 倍及以上,。
04
國內(nèi)外發(fā)展現(xiàn)狀
ASIC芯片在芯片行業(yè)正在受到重視。包括DPU和NPU等類別,。DPU主要承擔(dān)網(wǎng)絡(luò),、存儲和安全的加速處理任務(wù),旨在滿足網(wǎng)絡(luò)側(cè)專用計(jì)算需求,,尤其適用于服務(wù)器量多,、對數(shù)據(jù)傳輸速率要求嚴(yán)苛的場景。具體看來,,DPU對CPU所不擅長的網(wǎng)絡(luò)協(xié)議處理,、數(shù)據(jù)加解密、數(shù)據(jù)壓縮等數(shù)據(jù)處理任務(wù),,可以順滑地接手,,并且對各類資源分別管理、擴(kuò)容,、調(diào)度,。2020 年上半年,NVIDIA以69 億美元的對價(jià)收購以色列網(wǎng)絡(luò)芯片公司 Mellanox Technologies,,并于同年推出 BlueField-2 DPU,,將其定義為繼 CPU 和 GPU 之后“第三顆主力芯片”,正式拉開 DPU 大發(fā)展的序幕,。
谷歌公司日前在I/O 2022活動中發(fā)布其新一代張量處理器TPU v4集群,,該公司CEO Sundar Pichai介紹稱,新的算力集群被稱為Pod,,包含4096個(gè)v4芯片,,可提供超過1 exaflops的浮點(diǎn)性能,Pichai表示其將在位于俄克拉荷馬州的數(shù)據(jù)中心部署8個(gè)TPU v4集群,,合計(jì)實(shí)現(xiàn)約9 exaflops的性能,,
今年8月,英特爾Agilex FPGA 和 Stratix 10 NX FPGA 兩大產(chǎn)品已部署至中國創(chuàng)新中心,。英特爾 Agilex FPGA 集英特爾 SuperFin 制程技術(shù),、Chiplet,、3D 封裝等眾長于一身,在生產(chǎn),、工藝,、封裝、互連等方面較前代產(chǎn)品有明顯進(jìn)步,,能夠廣泛應(yīng)用到 5G,、人工智能場景中,為以數(shù)據(jù)為中心的世界提供敏捷性和靈活性,。相較于英特爾Stratix 10 FPGA,,英特爾 Agilex FPGA 性能提高了 45%,功耗降低了 40%,。
國內(nèi)也在ASIC市場上發(fā)力,。阿里巴巴正式對外發(fā)布了全新的含光800AI芯片。平頭哥含光800芯片性能的突破得益于軟硬件的協(xié)同創(chuàng)新:硬件層面采用自研芯片架構(gòu),,通過推理加速等技術(shù)有效解決芯片性能瓶頸問題,;軟件層面集成了達(dá)摩院先進(jìn)算法,針對CNN及視覺類算法深度優(yōu)化計(jì)算,、存儲密度,,可實(shí)現(xiàn)大網(wǎng)絡(luò)模型在一顆NPU上完成計(jì)算。
中科馭數(shù)設(shè)計(jì)了業(yè)界首顆網(wǎng)絡(luò)數(shù)據(jù)庫一體化加速功能的DPU芯片和智能網(wǎng)卡系列產(chǎn)品,。創(chuàng)始團(tuán)隊(duì)來自科研院所,正開展第三代DPU芯片K2 Pro的研發(fā)工作,,致力于DPU芯片的國產(chǎn)替代,。OPPO發(fā)布自主研發(fā)的影像專用NPU芯片“馬里亞?MariSilicon?X”。
寒武紀(jì)公司出品的diannao系列NPU芯片,。2021年8月18日,,百度在世界大會上,推出了自家的首款7nm自研“昆侖2代AI芯片”,。昆侖芯2的性能,、通用性、易用性較1代產(chǎn)品均有顯著增強(qiáng),。該芯片采用全球領(lǐng)先的7nm 制程,,搭載自研的第二代 XPU 架構(gòu),相比1代性能提升2-3倍,。整數(shù)精度(INT8)算力達(dá)到256 TeraOPS,,半精度(FP16)為128 TeraFLOPS,而最大功耗僅為120W,。
ASIC深度學(xué)習(xí),,數(shù)據(jù)中心,、邊緣計(jì)算等各個(gè)領(lǐng)域都得到了廣泛的應(yīng)用并正在飛速發(fā)展.
更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<