如何解決高吞吐量和低延遲？這款加速方案可助力同時處理4000個語音通道-AET-電子技術應用

如何解決高吞吐量和低延遲？這款加速方案可助力同時處理4000個語音通道

日期： 2019-10-28

關鍵詞： 高吞吐量低延遲 FPGA加速 DSP

　　最近幾年，FPGA加速應用在金融、網絡安全、存儲、AI等領域都有較多應用空間。隨之而來的，則是利用FPGA開發(fā)智能加速卡的火爆。在很多場景下，由于FPGA的自定義邏輯，相比于GPU能夠有更高的加速能力。而即將于11月6日在北京舉辦的英特爾?FPGA技術大會上，將會有海量基于FPGA加速的應用展示哦~

　　英特爾? FPGA可編程加速卡 (PAC) D5005是目前英特爾? FPGA的高端FPGA加速卡。自發(fā)布以來，經過英特爾? FPGA及眾多合作伙伴的努力，PAC D5005加速卡已經可以實現對較多工作負載的加速，如視頻編解碼、AI領域的語音到文本轉換、圖像處理、網絡安全等。

　　在 Myrtle 的可擴展推理引擎上運行的語音到本文 (STT) 轉錄應用（基于該公司的 MAU 加速器內核）是最近發(fā)表的一篇博文中討論的四個加速工作負載之一。這篇博文指出，HPC 在其 ProLiant DL380 Gen10 服務器中添加了英特爾? FPGA 可編程加速卡 (PAC) D5005選件。通過集成到英特爾? FPGA PAC 卡 D5005 的一個英特爾? FPGA 加速時，這種 STT 工作負載即可實時處理超過 4000 個語音通道。

640.webp (1).jpg

　　英特爾? FPGA 可編程加速卡 D5005

　　借助在 FPGA 中實例化的 MAU 加速器內核網格，Myrtle 的可擴展推理引擎能夠高效處理高性能 STT 工作負載。MAU 加速器內核針對英特爾 FPGA PAC D5005 進行了優(yōu)化。Myrtle 發(fā)布了一篇長達 9 頁的論文，題為“利用下一代數據中心硬件的非結構化稀疏性”，文中討論了 MAU 加速器的細節(jié)信息。您還可以在英特爾FPGA 加速中心網頁的 AI 選項卡下找到一篇題為“加速數據中心的語音工作負載”的英特爾解決方案文章，這篇文章將為您提供更多詳細信息。

　　在這里我們就不重復 Myrtle STT 解決方案的諸多技術細節(jié)了，直接跳到這篇解決方案簡介文章的結論：

　　PART

　　ONE

　　在英特爾? Stratix? 10 FPGA 上運行的 MozillaDeepSpeech 工作負載（使用 Myrtle STT，針對稀疏性和量化進行了優(yōu)化）達到了 54 TOPS，略高于 NVIDIA Tesla V100 GPU (針對吞吐量進行了代碼優(yōu)化)的性能。同時，基于 FPGA 的 MAU 加速器的每瓦 TOPS 比 GPU 高 6 倍。Myrtle STT 的每秒語音輸入延遲為 0.343 毫秒，而相比之下， GPU 的延遲則高達 126 毫秒，相差多達 365 倍。性能提升的代價是精度下降了約0.23%（由于 Myrtle STT 針對稀疏性和量化進行了優(yōu)化）。

　　PART

　　TWO

　　針對延遲而非吞吐量優(yōu)化的 GPU 解決方案可將 GPU 的延遲降低至 10.1 毫秒，這比利用 FPGA 加速的 Myrtle 解決方案所實現的 0.343 毫秒延遲慢 29 倍。然而，GPU 延遲的降低卻帶來了吞吐量性能的大幅下降：其吞吐量性能從 53.37 降至了 1.12 TOPS。與 FPGA 加速的 Myrtle STT 解決方案相比，性能相差 48 倍。（請注意，FPGA 加速的 Myrtle STT 解決方案同時提供高吞吐量和低延遲。）

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：[email protected]。

如何解決高吞吐量和低延遲？這款加速方案可助力同時處理4000個語音通道

日期： 2019-10-28

相關內容