《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > CPU主頻比FPGA快,但為啥FPGA才可以加速,?

CPU主頻比FPGA快,,但為啥FPGA才可以加速,?

2018-05-21
關鍵詞: CPU FPGA SOC

  CPU的主頻高達幾個GHz,,FPGA的速率往往在幾百兆,。但是,,往往我們會說FPGA會給CPU進行加速,。

  雖然CPU主頻很高,,但其是通用處理器,做某個特定運算(如信號處理,,圖像處理)可能需要很多個時鐘周期,;而FPGA可以通過編程重組電路,直接生成專用電路,,加上電路并行性,,可能做這個特定運算只需要一個時鐘周期。

  假設我們用FPGA完整的實現(xiàn)了CPU,,然后再跑軟件的話,,的確比CPU慢。問題是FPGA不會那么干,,它會直指問題本質(zhì),,解決問題。

1.png

  即使我們用FPGA實現(xiàn)一個CPU,,也是為了做一些芯片驗證或者說需要一些需要CPU和FPGA需要緊密結合的場景,,這種場景現(xiàn)在也逐步由SoC的FPGA實現(xiàn)了,。

2.png

  舉個具體的例子,比如有兩個數(shù)組,,其中有256個32位數(shù),,我們現(xiàn)在要把它們對應相加變成一個數(shù)組,用CPU寫最快大概是這樣子的:

  r[0] = a[0] + b[0];

  r[1] = a[1] + b[1];

  ...

  r[255] = a[255] + b[255];

  當然也可能會這么寫(在分支預測準確,,指令緩存不大的情況下可能更快):

  for (int i = 0; i < 255; i++)

  r[i] = a[i] + b[i];

  CPU指令流水線

  根據(jù)之前描述的基礎,,指令進入流水線,通過流水線處理,,從流水線出來的過程,,對于我們程序員來說,,是比較直觀的,。

  I486擁有五級流水線。分別是:取指(Fetch),,譯碼(D1, main decode),,轉址(D2, translate),執(zhí)行(EX, execute),,寫回(WB),。某個指令可以在流水線的任何一級。

3.jpg

  流水線的數(shù)量不可能無限制增加,,流水線的加速也有很多風險,。即使流水線可以無限制增加,不管CPU的流水線又多少條,,每個指令執(zhí)行都必須順序執(zhí)行,。對速率的提升也是有限的。

  對于上圖中的流水線有一個明顯的缺陷,。對于下面的指令代碼,,它們的功能是將兩個變量的內(nèi)容進行交換。

4.png

  第二條xor指令需要第一條xor指令計算的結果a,,但是直到第一條指令執(zhí)行完成才會寫回,。所以流水線的其他指令就會在當前流水級等待直到第一條指令的執(zhí)行和寫回階段完成。第二條指令會等待第一條指令完成才能進入流水線下一級,,同樣第三條指令也要等待第二條指令完成,。

  這個現(xiàn)象被稱為流水線阻塞或者流水線氣泡。

  對FPGA來說,,也可以用上面相同的寫法,,不同在于:

  CPU是一個一個加法計算,而FPGA排好邏輯電路,,在一個時鐘周期內(nèi)計算完畢,。就算CPU主頻比FPGA快100倍也趕不上啊,。

  計算機最基本的功能就是運算了,其中最基本的又要屬加法運算,。我們知道計算機使用二進制來保存和處理數(shù)據(jù),,因此這里的加減法運算都是用二進制進行。下面雅樂網(wǎng)總結了一些運算器中加法器的設計,。

  二進制加法

1.png

  一位的二進制加法非常簡單,,因為只有四種情況

  0+0=0 進位0

  0+1=1 進位0

  1+0=1 進位0

  1+1=0 進位1

  多位的二進制加法 和十進制類似,每一位上兩個數(shù)相加后再加上進位就可以了

  FPGA半加器

  半加器可以實現(xiàn)兩個1位的二進制數(shù)字相加,,并且輸出結果和進位,。

  真值表:

2.png

  一位半加器真值表

  由表中可以看見,這種加法沒有考慮低位來的進位,,所以稱為半加,。

  輸出和:A和B一個為0 一個為1的時候輸出1  兩個0或兩個1輸出0  因此 可以用異或門連接。

  進位:只有AB均為1的時候進位輸出1  進位Cout = AB 用與門連接,。

3.png

  一位半加器

  FPGA全加器

  全加器在半加器的基礎上 增加了進位 它輸入三個數(shù)字 兩個加數(shù) 和 一個進位 Cin,,輸出結果 和 進位

4.png

  一位全加器真值表

  從真值表很容易寫出如下邏輯表達式

  S=P異或Cout      其中P=A異或B

  Cout=P·Cin+G    其中G=A·B

5.png

  一位全加器

  四位行波加法器

  將四個全加器 每一個的僅為輸出連接到下一個的進位輸入 就可以構成一個4位串行加法器了

6.png

  四位行波加法器

  這樣構成的加法器連接起來很簡單,但是也有不足:每一個全加器計算的時候必須等待它的進位輸入產(chǎn)生后才能計算,,所以四個全加器并不是同時進行計算的,,而是一個一個的串行計算。這樣會造成較大的延遲,。

  超前進位加法器(Carry-Lookahead Adder,,CLA)

  超前進位加法器的思路是提前算出每一位上的進位。

  分析每一個全加器的局部

  一個全加器 A B Cn 如果有兩個或兩個以上的1 那么進位Cn+1就是1

  因此 Cn+1 = AB + ACn + BCn = AB + Cn(A+B)

  記生成(Generate)信號:Gi=Ai·Bi

  傳播(Propagate)信號:Pi=Ai+Bi

  那么Ci+1=Gi+Pi·Ci

  根據(jù)這個遞推關系,,可以推導出每一位的進位

  每一位的進位跟前一級進位有關,,前一級 又跟 前一級的前一級有關 一直向前 最終是和C0相關。而最開始的第一位C0和A0 B0都是已知的

1.jpg

  這樣算出結果只需要經(jīng)過三個門延遲就可以了,。

  隨著位數(shù)的增加,,進位的計算公式會越來越復雜。32位的進位計算需要32與門

  所以我們需要更多的計算位寬或者更大的數(shù)組,,或者矩陣的運算的時候,,我們使用FPGA的優(yōu)勢就體現(xiàn)出來。再多的計算,,也就是放置更多的邏輯資源,。

  FPGA的并行是真并行,CPU完全沒得比,。CPU如果想并行最多也就是讓多個核并行,,但是對于大部分算法實現(xiàn)來說,如上例,,多個核之間的同步調(diào)度開銷遠遠大于計算開銷,,就算多個核之間的調(diào)用開銷可以做的很小,,一般CPU也就那幾個核,而FPGA只要門足夠,,想并行幾路就可以并行幾路,。

  所以在做可并行的計算密集型任務時,比如信號處理,,網(wǎng)絡傳輸?shù)鹊菷PGA可以幫上忙,;但是如果做我們常見的串行為主的任務而言,F(xiàn)PGA的確遠遠比不上CPU,。

  FPGA是配角

  使用FPGA不一定總能加速,,只是在某些強計算和數(shù)據(jù)處理的方面,因為其硬件電路并行運行和有很多DSP硬核資源供調(diào)用的特點,,可以工作得更出色,。FPGA本身也只是輔助角色,起控制的還是CPU本身,,所以FPGA并不能代替CPU,,只是在完成一件大任務的過程中將某部分任務分解給FPGA可以更好地一起完成任務,。在這過程中也會有額外的開銷產(chǎn)生,,在某些場合,可能用了FPGA而效果更差也是有的,。

  另外,,通常說的使用FPGA加速比CPU和GPU省電,是指在完成同樣的任務下,,F(xiàn)PGA耗費的電力比起CPU和GPU更少一些,,相對而言的,并不是說FPGA本身就一定省電,。

  FPGA的弱點

  1.開發(fā)周期長,。需要對特定的應用編寫特定的FPGA。只要干的事情稍有不同,,一般來說FPGA代碼就要重新寫一遍或者是至少要修改很多東西,。開發(fā)代價和碼農(nóng)碼幾行代碼完全不可比。而且一般需要若干工程師花費若干周才能搞的定,。重點是會寫的人還不多,。

  2.并不是所有東西都適合FPGA。FPGA適合于做那些可并行計算的東西,,例如矩陣運算,。如果是一些判斷類的問題,F(xiàn)PGA算得并沒有CPU快(這個時候時鐘周期才是關鍵因素),。所以現(xiàn)實中都是有人來分析,,在整個任務中有哪些地方可以并行計算,,把這些地方替換為FPGA卡。

  由于現(xiàn)在機器學習,、大數(shù)據(jù)比較火,,里面矩陣運算成千上萬,所以沒有出現(xiàn)定制的ASIC之前,,F(xiàn)PGA加速還是業(yè)界主流?,F(xiàn)在百度、微軟,、谷歌等公司都已經(jīng)把FPGA加速運用到了實際的商業(yè)運營中,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。