最近幾年,FPGA加速應(yīng)用在金融、網(wǎng)絡(luò)安全,、存儲、AI等領(lǐng)域都有較多應(yīng)用空間。隨之而來的,則是利用FPGA開發(fā)智能加速卡的火爆,。在很多場景下,由于FPGA的自定義邏輯,,相比于GPU能夠有更高的加速能力,。而即將于11月6日在北京舉辦的英特爾?FPGA技術(shù)大會上,將會有海量基于FPGA加速的應(yīng)用展示哦~
英特爾? FPGA可編程加速卡 (PAC) D5005是目前英特爾? FPGA的高端FPGA加速卡,。自發(fā)布以來,,經(jīng)過英特爾? FPGA及眾多合作伙伴的努力,PAC D5005加速卡已經(jīng)可以實現(xiàn)對較多工作負(fù)載的加速,,如視頻編解碼,、AI領(lǐng)域的語音到文本轉(zhuǎn)換、圖像處理,、網(wǎng)絡(luò)安全等,。
在 Myrtle 的可擴(kuò)展推理引擎上運行的語音到本文 (STT) 轉(zhuǎn)錄應(yīng)用(基于該公司的 MAU 加速器內(nèi)核)是最近發(fā)表的一篇博文中討論的四個加速工作負(fù)載之一。這篇博文指出,,HPC 在其 ProLiant DL380 Gen10 服務(wù)器中添加了英特爾? FPGA 可編程加速卡 (PAC) D5005選件,。通過集成到英特爾? FPGA PAC 卡 D5005 的一個英特爾? FPGA 加速時,這種 STT 工作負(fù)載即可實時處理超過 4000 個語音通道,。
英特爾? FPGA 可編程加速卡 D5005
借助在 FPGA 中實例化的 MAU 加速器內(nèi)核網(wǎng)格,,Myrtle 的可擴(kuò)展推理引擎能夠高效處理高性能 STT 工作負(fù)載。MAU 加速器內(nèi)核針對英特爾 FPGA PAC D5005 進(jìn)行了優(yōu)化,。Myrtle 發(fā)布了一篇長達(dá) 9 頁的論文,,題為“利用下一代數(shù)據(jù)中心硬件的非結(jié)構(gòu)化稀疏性”,文中討論了 MAU 加速器的細(xì)節(jié)信息,。您還可以在英特爾FPGA 加速中心網(wǎng)頁的 AI 選項卡下找到一篇題為“加速數(shù)據(jù)中心的語音工作負(fù)載”的英特爾解決方案文章,,這篇文章將為您提供更多詳細(xì)信息。
在這里我們就不重復(fù) Myrtle STT 解決方案的諸多技術(shù)細(xì)節(jié)了,,直接跳到這篇解決方案簡介文章的結(jié)論:
01
PART
ONE
在英特爾? Stratix? 10 FPGA 上運行的 MozillaDeepSpeech 工作負(fù)載(使用 Myrtle STT,,針對稀疏性和量化進(jìn)行了優(yōu)化)達(dá)到了 54 TOPS,略高于 NVIDIA Tesla V100 GPU (針對吞吐量進(jìn)行了代碼優(yōu)化)的性能,。同時,,基于 FPGA 的 MAU 加速器的每瓦 TOPS 比 GPU 高 6 倍。Myrtle STT 的每秒語音輸入延遲為 0.343 毫秒,,而相比之下,, GPU 的延遲則高達(dá) 126 毫秒,相差多達(dá) 365 倍,。性能提升的代價是精度下降了約0.23%(由于 Myrtle STT 針對稀疏性和量化進(jìn)行了優(yōu)化),。
02
PART
TWO
針對延遲而非吞吐量優(yōu)化的 GPU 解決方案可將 GPU 的延遲降低至 10.1 毫秒,這比 利用 FPGA 加速的 Myrtle 解決方案所實現(xiàn)的 0.343 毫秒延遲慢 29 倍。然而,,GPU 延遲的降低卻帶來了吞吐量性能的大幅下降:其吞吐量性能從 53.37 降至了 1.12 TOPS,。與 FPGA 加速的 Myrtle STT 解決方案相比,性能相差 48 倍,。(請注意,,F(xiàn)PGA 加速的 Myrtle STT 解決方案同時提供高吞吐量和低延遲。)