FPGA教學(xué)——為什么FPGA主頻比CPU慢，但卻可以用來(lái)幫CPU加速？-AET-電子技術(shù)應(yīng)用

FPGA教學(xué)——為什么FPGA主頻比CPU慢，但卻可以用來(lái)幫CPU加速？

日期： 2022-08-23

來(lái)源：FPGA之家

關(guān)鍵詞： FPGA CPU

　　我們知道，FPGA的頻率一般只有幾百M(fèi)Hz，而CPU的頻率卻高達(dá)數(shù)GHz。那么，有不少網(wǎng)友心中就有一個(gè)疑問(wèn)：“為什么FPGA主頻比CPU慢，但卻可以用來(lái)幫CPU做加速?”。

　　今天，EDN就和大家系統(tǒng)性地討論下這個(gè)問(wèn)題。

　　將FPGA主頻與CPU相比不妥

　　在開(kāi)始之前，首先要明確一點(diǎn)，將FPGA的主頻與CPU比較，實(shí)際是風(fēng)馬牛不相及的問(wèn)題。FPGA和CPU是兩種完全不同的器件，前者是專用，是硬件編程，而后者是通用，是軟件編程。

　　微信圖片_20220823164532.png

　　不同體系結(jié)構(gòu)性能和靈活性的比較。(圖片來(lái)源：《如何評(píng)價(jià)微軟在數(shù)據(jù)中心使用 FPGA 代替?zhèn)鹘y(tǒng) CPU 的做法?》)

　　表面上看，F(xiàn)PGA的時(shí)鐘頻率要低;對(duì)于通用計(jì)算任務(wù)，F(xiàn)PGA設(shè)計(jì)貌似不如CPU設(shè)計(jì)。但是實(shí)際上，單個(gè)FPGA的并行度卻比CPU要高得多。FPGA的行為是確定性的，用作硬件加速器沒(méi)有時(shí)間片、線程或資源沖突的問(wèn)題。它始終以完全相同的速度執(zhí)行一件事。因此，如果需要低延遲，那么FPGA就可能是最佳選擇。

　　微信圖片_20220823164615.png

　　計(jì)算密集型任務(wù)，CPU、GPU、FPGA、ASIC 的數(shù)量級(jí)比較(以16位整數(shù)乘法為例，數(shù)字僅為數(shù)量級(jí)的估計(jì))(圖片來(lái)源：《如何評(píng)價(jià)微軟在數(shù)據(jù)中心使用 FPGA 代替?zhèn)鹘y(tǒng) CPU 的做法?》)

　　FPGA并行計(jì)算機(jī)制

　　如知乎網(wǎng)友young cc所言，雖然CPU主頻很高，但其是通用處理器，做某個(gè)特定運(yùn)算(如信號(hào)處理，圖像處理)可能需要很多個(gè)時(shí)鐘周期。而FPGA可以通過(guò)編程重組電路，直接生成專用電路。加上電路并行性，可能做這個(gè)特定運(yùn)算只需要一個(gè)時(shí)鐘周期。

　　舉例來(lái)說(shuō)，CPU主頻為3GHz，F(xiàn)PGA主頻為200MHz。若做某個(gè)特定運(yùn)算，CPU需要30個(gè)時(shí)鐘周期，而FPGA只需一個(gè)，那么耗時(shí)情況是：

　　CPU：30/3GHz =10ns;

　　FPGA：1/200MHz =5ns。

　　可以看到，F(xiàn)PGA做這個(gè)特定運(yùn)算速度比CPU塊，能幫助加速。

　　另外，CPU的主頻是加過(guò)流水線之后的。比如是15級(jí)流水線，則第一條指令執(zhí)行了15個(gè)時(shí)鐘周期后才能出結(jié)果。

　　但是，使用FPGA也不一定總能做加速。

　　例如，知乎網(wǎng)友Evan172就表示，使用FPGA做加速，只是在某些強(qiáng)計(jì)算和數(shù)據(jù)處理的方面，因?yàn)槠溆布娐凡⑿羞\(yùn)行和有很多DSP硬核資源供調(diào)用的特點(diǎn)，可以工作得更出色。

　　FPGA本身也只是輔助角色，起控制的還是CPU本身，所以FPGA并不能代替CPU，只是在完成一件大任務(wù)的過(guò)程中將某部分任務(wù)分解給FPGA可以更好地一起完成任務(wù)。在這過(guò)程中也會(huì)有額外的開(kāi)銷產(chǎn)生，在某些場(chǎng)合，可能用了FPGA而效果更差也是有的。

　　另外，通常說(shuō)的使用FPGA加速比CPU和GPU省電，是指在完成同樣的任務(wù)下，F(xiàn)PGA耗費(fèi)的電力比起CPU和GPU更少一些。這是相對(duì)而言的，并不是說(shuō)FPGA本身就一定省電。

　　一個(gè)有趣的例子：數(shù)組加法計(jì)算

　　知乎用戶doing舉了一個(gè)很有趣的例子。他指出，假設(shè)用FPGA完整實(shí)現(xiàn)了CPU，然后再跑軟件的話，的確比CPU慢。問(wèn)題是FPGA不會(huì)那么干，它會(huì)直指問(wèn)題本質(zhì)，解決問(wèn)題。

　　例如，有兩個(gè)數(shù)組，其中有256個(gè)32位數(shù)。現(xiàn)在要把它們對(duì)應(yīng)相加變成一個(gè)數(shù)組，用CPU寫(xiě)最快大概是這個(gè)樣子：

　　r[0] = a[0] + b[0];

　　r[1] = a[1] + b[1];

　　...

　　r[255] = a[255] + b[255];

　　當(dāng)然也可能會(huì)這么寫(xiě)(在分支預(yù)測(cè)準(zhǔn)確，指令緩存不大的情況下可能更快)：

　　for (int i = 0; i < 255; i++)

　　r[i] = a[i] + b[i];

　　對(duì)FPGA來(lái)說(shuō)，也可以用上面相同的寫(xiě)法，不同在于：

　　CPU是一個(gè)一個(gè)加法計(jì)算，而FPGA排好邏輯電路，在一個(gè)時(shí)鐘周期內(nèi)計(jì)算完畢。就算CPU主頻比FPGA快100倍也趕不上啊。話說(shuō)后來(lái)CPU大量的增加SIMD指令，就有點(diǎn)這個(gè)意思，不過(guò)這相當(dāng)于提供庫(kù)函數(shù)，沒(méi)那么靈活。

　　FPGA的并行是真并行，CPU完全沒(méi)得比。CPU如果想并行最多也就是讓多個(gè)核并行，但是對(duì)于大部分算法實(shí)現(xiàn)來(lái)說(shuō)，如上例，多個(gè)核之間的同步調(diào)度開(kāi)銷遠(yuǎn)遠(yuǎn)大于計(jì)算開(kāi)銷，就算多個(gè)核之間的調(diào)用開(kāi)銷可以做的很小，一般CPU也就那幾個(gè)核，而FPGA只要門(mén)足夠，想并行幾路就可以并行幾路。

　　所以在做可并行的計(jì)算密集型任務(wù)時(shí)，比如信號(hào)處理，網(wǎng)絡(luò)傳輸?shù)鹊菷PGA可以幫上忙;但是如果做常見(jiàn)的以串行為主的任務(wù)，F(xiàn)PGA的確遠(yuǎn)遠(yuǎn)比不上CPU。如果要類比的話，有點(diǎn)像似GPU和CPU之間的關(guān)系。

　　“當(dāng)年寫(xiě)Verilog的時(shí)候，我就想如果CPU里面自帶一塊FPGA，應(yīng)用程序程序可以在初始化期間直接燒一段代碼下去，那豈不是很爽。后來(lái)，有了能寫(xiě)shader的3D顯卡...”

　　為什么FPGA成為數(shù)據(jù)中心尖端技術(shù)?

　　最后再討論一個(gè)話題，就是為什么FPGA一直是數(shù)據(jù)中心領(lǐng)域最尖端的技術(shù)?

　　有人可能認(rèn)為，再大的問(wèn)題(算力)都可以通過(guò)堆CPU核心來(lái)解決。那么，假設(shè)有一臺(tái)強(qiáng)大的48核服務(wù)器，即使使用非常高端的FPGA，也很難達(dá)到相同的吞吐量。而且，F(xiàn)PGA硬件設(shè)計(jì)還需要由強(qiáng)大的團(tuán)隊(duì)來(lái)完成，非常燒錢(qián)。

　　這時(shí)，如果把機(jī)會(huì)成本和能源效率兩者考慮進(jìn)去，好處就開(kāi)始顯現(xiàn)出來(lái)了。

　　首先來(lái)看能源效率。假設(shè)這臺(tái)48核服務(wù)器的功耗為400W并且發(fā)熱嚴(yán)重，那么就會(huì)對(duì)數(shù)據(jù)中心運(yùn)營(yíng)不利——能耗和散熱是數(shù)據(jù)中心運(yùn)營(yíng)的兩項(xiàng)最大支出。而將FPGA連接起來(lái)只執(zhí)行一項(xiàng)任務(wù)，就可以實(shí)現(xiàn)很高的能效而開(kāi)銷極低。通過(guò)正確的設(shè)計(jì)，可以在實(shí)現(xiàn)低功耗的同時(shí)獲得高吞吐量。

　　其次，機(jī)會(huì)成本(這個(gè)問(wèn)題不太明顯)。系統(tǒng)中的CPU內(nèi)核數(shù)量就那么多。購(gòu)買(mǎi)新的內(nèi)核并且安裝需要花很長(zhǎng)時(shí)間，而且最好是將通用CPU內(nèi)核保留用于通用任務(wù)(例如虛擬機(jī)訂閱)。每個(gè)CPU核賣(mài)不出去就會(huì)燒錢(qián)。

　　當(dāng)有任務(wù)大量占用CPU時(shí)間(例如AI推理)時(shí)，F(xiàn)PGA就成為了不錯(cuò)的選擇。

　　一個(gè)有關(guān)微軟Project Catapult項(xiàng)目當(dāng)中FPGA的趣事

　　當(dāng)年，微軟必應(yīng)團(tuán)隊(duì)在其Project Catapult項(xiàng)目中發(fā)現(xiàn)，在啟用FPGA時(shí)，CPU的總體利用率實(shí)際上略有上升。所有的人都感到困惑，因?yàn)閺闹庇X(jué)來(lái)看FPGA應(yīng)該要減少CPU負(fù)載。但是后來(lái)他們發(fā)現(xiàn)，數(shù)據(jù)中心的業(yè)務(wù)流量達(dá)到了原來(lái)的2倍!由于效率提高，流量實(shí)現(xiàn)了兩倍的負(fù)載均衡。由此可見(jiàn)FPGA的強(qiáng)大之處。

　　總結(jié)

　　維基百科的相關(guān)詞條提到兩點(diǎn)：FPGA的優(yōu)勢(shì)在于其并行特性，有時(shí)對(duì)于某些應(yīng)用而言可以使速度明顯變快;可以使用FPGA來(lái)對(duì)算法中的某些部分加速，也可以在FPGA和通用處理器之間共享部分計(jì)算。

　　綜上，F(xiàn)PGA有兩個(gè)優(yōu)點(diǎn)：FPGA并行度遠(yuǎn)超CPU;CPU是通用電路，F(xiàn)PGA是定制電路。但是也有兩個(gè)缺點(diǎn)：開(kāi)發(fā)周期長(zhǎng);并不是所有東西都適合FPGA。

更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<

　　作者：趙明燦

　　 本文來(lái)源于EDN電子技術(shù)設(shè)計(jì)

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

FPGA教學(xué)——為什么FPGA主頻比CPU慢，但卻可以用來(lái)幫CPU加速？

日期： 2022-08-23

來(lái)源：FPGA之家

相關(guān)內(nèi)容