eFPGA又有大更新，Achronix 專為AI / ML應(yīng)用推出Speedcore Gen4 eFPGA IP-AET-電子技術(shù)應(yīng)用

eFPGA又有大更新，Achronix 專為AI / ML應(yīng)用推出Speedcore Gen4 eFPGA IP

日期： 2018-12-09

作者：王潔

來源：電子技術(shù)應(yīng)用

關(guān)鍵詞： Achronix eFPGA AI 機(jī)器學(xué)習(xí) 人工智能

隨著人工智能（AI）、機(jī)器學(xué)習(xí)（ML）等對(duì)數(shù)據(jù)處理能力要求的提升，處理器核心數(shù)量的倍數(shù)增加并不能帶來計(jì)算能力的倍數(shù)增加，嵌入FPGA的SoC則可以帶來更快數(shù)據(jù)處理能力，同時(shí)功耗也更低。

近日，基于現(xiàn)場(chǎng)可編程門陣列（FPGA）的硬件加速器器件和高性能嵌入式FPGA半導(dǎo)體知識(shí)產(chǎn)權(quán)（eFPGA IP）領(lǐng)導(dǎo)性企業(yè)Achronix半導(dǎo)體公司發(fā)布了專為AI/ML應(yīng)用設(shè)計(jì)的第四代Speedcore eFPGA IP，Achronix 公司市場(chǎng)營銷副總裁Steve Mensor在媒體發(fā)布會(huì)上為大家解讀了Speedcore Gen4 eFPGA IP的全新優(yōu)勢(shì)。

Achronix 公司市場(chǎng)營銷副總裁Steve Mensor

對(duì)于AI、ML應(yīng)用來說，摩爾定律在減速，而同時(shí)固定和無線網(wǎng)絡(luò)帶寬在急劇增加，處理能力走向邊緣，以及數(shù)十億物聯(lián)網(wǎng)設(shè)備的出現(xiàn)，意味著將帶來每秒數(shù)十億到數(shù)萬億次的運(yùn)算。傳統(tǒng)云和企業(yè)數(shù)據(jù)中心計(jì)算資源和通信基礎(chǔ)設(shè)施無法跟上數(shù)據(jù)速率的指數(shù)級(jí)增長、快速變化的安全協(xié)議、以及許多新的網(wǎng)絡(luò)和連接要求。傳統(tǒng)的多核CPU和SoC無法在沒有輔助的情況下獨(dú)立滿足這些要求，因而它們需要硬件加速器，通常是可重新編程的硬件加速器，用來預(yù)處理和卸載計(jì)算，以便提高系統(tǒng)的整體計(jì)算性能。

算力變化.jpg

Steve認(rèn)為：“算力的提升來自針對(duì)特定應(yīng)用和數(shù)據(jù)集的體系結(jié)構(gòu)。未來的微處理器將包括幾個(gè)僅能很好地執(zhí)行某一類計(jì)算的特定域的核，它們的性能會(huì)優(yōu)于通用核。”

Steve認(rèn)為，不同應(yīng)用對(duì)于計(jì)算的要求不同，如計(jì)算加速要求高能耗比，邊緣計(jì)算要求最低功耗，計(jì)算存儲(chǔ)需要低功耗低成本，5G要求低功耗高性能的可編程芯片，網(wǎng)絡(luò)加速和智能卡需要用于CPU卸載的高速率加速器，汽車駕駛需要低成本和低功耗的硬件加速。這些應(yīng)用提出了一些共同的要求：高性能、低功耗、可編程的硬件加速器。

“FPGA是最適合AI/ML應(yīng)用的硬件加速方式。” Steve說道，“CPU在通用靈活性方面最佳，ASIC在專用領(lǐng)域最強(qiáng)，但應(yīng)用上不夠靈活。GPU和FPGA是最適合AI/ML應(yīng)用的，相比較，GPU更適合云端計(jì)算，F(xiàn)PGA更適合邊緣計(jì)算。”

FPGA優(yōu)勢(shì).jpg

Speedcore Gen4 eFPGA IP在增強(qiáng)的邏輯單元、Speedcore下一代的路由結(jié)構(gòu)、AI/ML專用的DSP單元MLP三方面的進(jìn)行了優(yōu)化，性能得到了跨越式提高，且更適合AI/ML應(yīng)用。

加強(qiáng)邏輯單元.jpg

Speedcore Gen4針對(duì)硬件加速做了很多架構(gòu)上的改變，用于加減、比較的ALU從4-bit提高到8-bit；機(jī)器學(xué)習(xí)算法通常用到的MAX（）Bus maximum function 有8-bit，可以快速進(jìn)行比較；LUT從4輸入擴(kuò)展到6輸入，一些7輸入和8輸入函數(shù)在一層的邏輯就可以實(shí)現(xiàn)。

下一代路由架構(gòu).jpg

路由架構(gòu)借由一種獨(dú)立的專用總線路由結(jié)構(gòu)得到了增強(qiáng)。此外，在該路由結(jié)構(gòu)中還有專用的總線多路復(fù)用器，可有效地創(chuàng)建分布式的、運(yùn)行時(shí)可配置的交換網(wǎng)絡(luò)。這為高帶寬和低延遲應(yīng)用提供了最佳的解決方案，并在業(yè)界首次實(shí)現(xiàn)了將網(wǎng)絡(luò)優(yōu)化應(yīng)用于FPGA互連。

在Speedcore Gen4架構(gòu)中，Achronix將機(jī)器學(xué)習(xí)處理器（MLP）添加到Speedcore可提供的資源邏輯庫單元模塊中。MLP模塊是一個(gè)完整的人工智能/機(jī)器學(xué)習(xí)計(jì)算引擎，支持定點(diǎn)和多個(gè)浮點(diǎn)數(shù)格式和精度。每個(gè)機(jī)器學(xué)習(xí)處理器包括一個(gè)循環(huán)寄存器文件（Cyclical Register File），它用來存儲(chǔ)重用的權(quán)重或數(shù)據(jù)。各個(gè)機(jī)器學(xué)習(xí)處理器與相鄰的機(jī)器學(xué)習(xí)處理器單元模塊和更大的存儲(chǔ)單元模塊緊密耦合，以提供最高的處理性能、每秒最高的操作次數(shù)和最低的功率分集。這些機(jī)器學(xué)習(xí)處理器支持各種定點(diǎn)和浮點(diǎn)格式，包括Bfloat16、16位、半精度、24位和單元塊浮點(diǎn)。用戶可以通過為其應(yīng)用選擇最佳精度來實(shí)現(xiàn)精度和性能的均衡。

MLP模塊與存儲(chǔ)器緊密耦合，可以為人工智能和機(jī)器學(xué)習(xí)（AI / ML）應(yīng)用提供了性能/功耗比最高和成本最低的解決方案。

倍頻.jpg

為了補(bǔ)充機(jī)器學(xué)習(xí)處理器并提高人工智能/機(jī)器學(xué)習(xí)的計(jì)算密度，Speedcore Gen4查找表（LUT）可以實(shí)現(xiàn)比任何獨(dú)立FPGA芯片產(chǎn)品高出兩倍的乘法器。領(lǐng)先的獨(dú)立FPGA芯片在21個(gè)查找表可以中實(shí)現(xiàn)6x6乘法器，而Speedcore Gen4僅需在11個(gè)LUT中就可實(shí)現(xiàn)相同的功能，并可在1 GHz的速率上工作。

通過這些改變和加強(qiáng)，與上一代相比，Speedcore Gen4將性能提高了60％、功耗降低了50％、芯片面積減少65％，同時(shí)保留了原有的Speedcore eFPGA IP的功能，即可將可編程硬件加速功能引入廣泛的計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)應(yīng)用，實(shí)現(xiàn)接口協(xié)議橋接/轉(zhuǎn)換、算法加速和數(shù)據(jù)包處理。

據(jù)Steve介紹，第四代Speedcore eFPGA 7nm IP 目前已可提供，Achronix可在6周內(nèi)為客戶配置并提供Speedcore eFPGA IP和支持文件。采用臺(tái)積電7nm工藝節(jié)點(diǎn)的Speedcore Gen4將于2019年上半年投入量產(chǎn)，現(xiàn)在已經(jīng)可以提供軟件和支持其特定需求的Speedcore Gen4實(shí)例。此外，Achronix還將于2019年下半年提供用于臺(tái)積電16nm和12nm工藝節(jié)點(diǎn)的Speedcore Gen4 eFPGA IP。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

eFPGA又有大更新，Achronix 專為AI / ML應(yīng)用推出Speedcore Gen4 eFPGA IP

日期： 2018-12-09

作者：王潔

來源：電子技術(shù)應(yīng)用

相關(guān)內(nèi)容