《電子技術(shù)應用》
您所在的位置:首頁 > 可編程邏輯 > 設(shè)計應用 > 基于PCIe總線的多路實時傳輸系統(tǒng)設(shè)計
基于PCIe總線的多路實時傳輸系統(tǒng)設(shè)計
2015年電子技術(shù)應用第2期
高 俊1,楊燦美1,,杜學亮2
1.中國科學技術(shù)大學 信息科學技術(shù)學院,,安徽 合肥230026; 2.中國科學院自動化研究所,,北京100190
摘要: 針對多路圖像數(shù)據(jù)的傳輸及處理帶寬需求,,使用Virtex-6 FPGA設(shè)計實現(xiàn)了基于PCIe總線的多路實時傳輸系統(tǒng)。該系統(tǒng)主要包括仲裁控制多設(shè)備對DDR3的訪問,,采用PCIe Bus Master DMA方式實現(xiàn)與PC之間的高速傳輸,,以及對全雙工傳輸過程中存在的擁堵問題進行優(yōu)化。實驗結(jié)果表明,,該實時傳輸系統(tǒng)最高的傳輸速率可以達到單工寫1 632 MB/s,,讀1 557 MB/s,全雙工寫1 478 MB/s,,讀1 439 MB/s,,并且性能穩(wěn)定,完全滿足多路圖像采集后的高速傳輸處理需求,。
關(guān)鍵詞: PCIe 實時傳輸 仲裁 DMA
中圖分類號: TN919.64
文獻標識碼: A
文章編號: 0258-7998(2015)02-0065-03
Design of multi-channel real-time transmission system based on PCIe bus
Gao Jun1,,Yang Canmei1,Du Xueliang2
1.School of Information Science and Technology,,University of Science and Technology of China,,Hefei 230026,China,; 2.Institute of Automation,,Chinese Academy of Sciences,Beijing 100190,,China
Abstract: Acorrding to the requirements of transmission and processing bandwidth of multi-channel image data, a multi-channel real-time transmission system based on PCIe bus which uses Virtex-6 FPGA is designed. The system includes a arbitration controling multiple devices to access DDR3, a high-speed transmission way to PC which uses PCIe Bus Master DMA mode. And the congestion problems exist in the full-duplex transmission are optimized. Experimental results show that the maximum transmission rate of this real-time transmission system can reach 1 632 MB/s of writing, 1 557 MB/s of reading in simplex mode and 1 478 MB/s of writing, 1 439 MB/s of reading in full duplex mode, which fully meets the needs of high-speed transmission and processing of multi-channel image data after acquisition with stable performance.
Key words : PCIe,;real-time transmission;arbitration,;DMA

 

0 引言

  隨著圖像采集,、傳輸和處理技術(shù)的發(fā)展,在很多領(lǐng)域中對圖像數(shù)據(jù)實時采集后的傳輸和處理提出了更高的要求,,尤其是高分辨率,、高頻幀相機的廣泛使用,對高帶寬的需求更加迫切,,傳統(tǒng)的總線技術(shù)PCI,、PCI-X、AGP等已很難勝任,,而串行總線PCIe,,由于利用時鐘恢復和高速差分信號克服傳統(tǒng)并行總線中的諸多限制,,達到了更高的數(shù)據(jù)傳輸速率,因此一定程度上滿足了高數(shù)據(jù)帶寬的需求,。PCIe總線使用數(shù)據(jù)包進行端到端的數(shù)據(jù)傳輸,,理論上PCIe 1.0能達到2.5 Gbps/lane,2.0能達到5.0 Gbps/lane,,但由于采用8b/10b編碼以及數(shù)據(jù)包頭和控制數(shù)據(jù)包的占用,,有效數(shù)據(jù)速率會低于理論值的80%[1-2]。

  利用PCIe總線的高帶寬優(yōu)勢,,設(shè)計了一種基于PCIe總線的多路實時傳輸系統(tǒng),,采用Bus Master DMA方式實現(xiàn)與PC之間的高速傳輸,,以滿足多路圖像數(shù)據(jù)實時采集后傳輸和處理的高帶寬需求,。

1 系統(tǒng)結(jié)構(gòu)及工作原理

  基于可編程邏輯器件FPGA的設(shè)計相比ASIC具有更好的靈活性和可配置性,因此本文所設(shè)計的基于PCIe總線的多路實時傳輸系統(tǒng)采用了Xilinx XC6VLX240T FPGA來實現(xiàn),。本系統(tǒng)主要包括PCI Express Core(EP),、DDR3 MIG模塊、PCIe Bus Master DMA(BMD)模塊以及DDR3讀寫控制模塊四部分,,結(jié)構(gòu)如圖1所示,。

001.jpg

  本系統(tǒng)的主要工作原理是由DDR3緩存相機采集PC處理后的圖像數(shù)據(jù),通過PCIe總線實現(xiàn)與PC之間高速數(shù)據(jù)傳輸,。兩路相機采集后的圖像數(shù)據(jù)經(jīng)相機接口模塊前期處理后傳入DDR3讀寫控制模塊,,由MIG模塊存入DDR3,然后DDR3中的數(shù)據(jù)被讀入發(fā)送緩存,,同時PCIe BMD模塊發(fā)送MSI報文給PC使其配置BMD相應寄存器,,BMD模塊會讀取發(fā)送緩存中的數(shù)據(jù)組成存儲器寫請求報文經(jīng)PCIe總線傳給PC。對兩路圖像數(shù)據(jù)進行基于對象的特征提取后,,PC配置BMD相應寄存器使其發(fā)送存儲器讀請求報文,,然后PC端將處理后的圖像數(shù)據(jù)組成CPLD數(shù)據(jù)包發(fā)向PCIe EP Core,BMD模塊會將收到的CPLD TLP中的有效數(shù)據(jù)存入接收緩存,,最后DDR3讀寫控制模塊讀取接收緩存中的數(shù)據(jù),,存入DDR3以待DVI 接口模塊讀取輸出顯示。結(jié)構(gòu)圖中FIFO除了緩存的作用外主要是解決位寬及跨時鐘域的問題[3],,而DMA FIFO接口模塊的作用主要是負責BMD模塊與FIFO間的信號連接及控制,。

2 主要模塊設(shè)計

  本系統(tǒng)的設(shè)計主要是DDR3讀寫控制模塊和PCIe BMD模塊的設(shè)計,而PCI Express Core(EP)和MIG可以通過Xilinx CORE Generator按需求的配置生成,,其中PCIe配置成×4,、gen2,利用Virtex6集成的PCIe IP實現(xiàn),,MIG配置成DDR3控制器,、400 MHz,。

  2.1 DDR3讀寫控制模塊

  DDR3讀寫控制模塊由讀寫控制模塊和仲裁模塊兩部分組成,如圖2所示,。

002.jpg

  讀寫控制模塊通過UI接口與MIG連接,,按照MIG的時序要求進行讀寫操作。并且為了讀寫管理方便,,將DDR3按容量劃分為兩份,,分別用于存儲采集的兩路源圖像數(shù)據(jù)和經(jīng)PC處理后用于輸出的圖像數(shù)據(jù)。

  仲裁模塊主要負責多個設(shè)備訪問DDR3時的總線切換,。由于本系統(tǒng)不同設(shè)備讀寫DDR3所用時間不同,,為避免采用輪詢機制所帶來的帶寬利用率的降低,采取仲裁機制,,負責對各個設(shè)備的訪問請求做出應答和總線的切換,,效率更高[4],原理如圖2所示,。設(shè)計時,,為避免幾個設(shè)備同時請求帶來不確定性,仲裁模塊采用Round Robin仲裁模式,,使得各設(shè)備能公平得到響應機會,。綜合考慮帶寬利用率和實時性,將十行以內(nèi)圖像像素點的讀寫時間作為時間寬度,,保證本系統(tǒng)的高效可靠,。

  2.2 PCIe BMD模塊

  PCIe BMD模塊主要由三部分構(gòu)成,包括DMA 控制/狀態(tài)模塊,、發(fā)送模塊以及接收模塊,,結(jié)構(gòu)如圖3所示。

003.jpg

  2.2.1 DMA控制/狀態(tài)模塊

  DMA控制/狀態(tài)模塊包括控制/狀態(tài)寄存器和控制模塊,??刂?狀態(tài)寄存器主要寄存BMD模塊的控制及狀態(tài)信息。PC端采用數(shù)據(jù)包的形式將配置需求通過PCIe總線傳輸?shù)紼P端,,BMD接收模塊識別配置數(shù)據(jù)包(有效數(shù)據(jù)大小為1DW的存儲器寫請求TLP),,并根據(jù)TLP的地址段將數(shù)據(jù)寫入相應的控制寄存器。PC端也可以發(fā)送讀控制/狀態(tài)寄存器的請求,,接收模塊識別到該類數(shù)據(jù)包(請求數(shù)據(jù)大小為1DW的存儲器讀請求TLP)后,,產(chǎn)生CPLD請求,發(fā)送模塊將根據(jù)該TLP的地址讀取對應控制/狀態(tài)寄存器的值,,生成CPLD TLP發(fā)向PC端,。

  控制模塊根據(jù)控制/狀態(tài)寄存器的配置值發(fā)送相應的控制信號給發(fā)送及接收模塊,還與DDR3讀寫控制模塊相連,控制原圖像數(shù)據(jù)的讀取和處理后圖像數(shù)據(jù)的寫入,,并配合讀取操作發(fā)送MSI請求[5],,使PC配置BMD模塊相應的控制寄存器以進行存儲器寫請求TLP的發(fā)送。

  2.2.2 發(fā)送/接收模塊

  發(fā)送模塊作為BMD模塊的發(fā)送部分,,主要負責在接收模塊收到讀寫控制/狀態(tài)寄存器的請求后完成報文的發(fā)送,,在發(fā)送模塊收到MSI請求后MSI TLP的發(fā)送,以及根據(jù)PC端所配置的寄存器參數(shù)進行存儲器讀/寫請求TLP的發(fā)送,,其中存儲器寫請求TLP的有效數(shù)據(jù)來自TX FIFO,。

  接收模塊主要負責接收各種數(shù)據(jù)包并作出相應操作:當收到配置數(shù)據(jù)包時,將有效數(shù)據(jù)寫入對應控制寄存器,;當收到讀控制/狀態(tài)寄存器的請求,,通知發(fā)送模塊讀取對應控制/狀態(tài)寄存器值組成CPLD TLP發(fā)向PC端;當收到CPLD TLP,,其中的數(shù)據(jù)段就是發(fā)送模塊發(fā)送的存儲器讀請求TLP所請求的數(shù)據(jù),,然后對這些數(shù)據(jù)進行校驗并讀入RX FIFO等待存入DDR3。

  2.2.3 PCIe BMD全雙工模式

  對于本系統(tǒng)與PC之間的數(shù)據(jù)傳輸,,單一時間段內(nèi)只進行讀或者寫比較簡單,,但為了滿足系統(tǒng)需要以及傳輸效率的提高,,大部分情況下,,需要讀寫數(shù)據(jù)同時進行。對于發(fā)送模塊而言,,則需要合理安排存儲器寫請求TLP和存儲器讀請求TLP的發(fā)送,,這里采用動態(tài)加權(quán)循環(huán)調(diào)度算法(Dynamic Weighted Round Robin,DWRR),。普通的加權(quán)循環(huán)調(diào)度算法(Weighted Round Robin,,WRR)是通過設(shè)置兩個計數(shù)器分別記錄當前寫請求和讀請求已經(jīng)發(fā)送的個數(shù),并根據(jù)傳輸特性給兩者配置相應的權(quán)重值,。傳輸開始后,,當某一請求次數(shù)達到它的權(quán)重值,則將該請求的計數(shù)器清零,,再跳轉(zhuǎn)到另一請求,,如此循環(huán)往復直到傳輸結(jié)束。由于讀請求的周期數(shù)要遠小于寫請求,,如果讀寫請求的權(quán)值設(shè)置好后就保持不變,,讀請求的過快發(fā)送會快速消耗PCIe EP CORE的發(fā)送緩存從而造成擁堵,使發(fā)送模塊長期處于等待狀態(tài),,降低傳輸速率,。本系統(tǒng)根據(jù)這一特性對WRR算法進行了優(yōu)化,開始階段由于發(fā)送緩存為空,為了充分利用總線,,將讀請求權(quán)值設(shè)為發(fā)送緩存大小3/4,,寫請求設(shè)為其1/4,優(yōu)先發(fā)送讀請求,,再發(fā)送寫請求,,然后根據(jù)寫請求個數(shù)達到權(quán)值后發(fā)送緩存的可用數(shù)設(shè)置讀請求的權(quán)值,當發(fā)送緩存的可用數(shù)小于寫請求權(quán)值一半時,,重新設(shè)讀寫請求權(quán)值都為1,,使讀寫請求逐個間隔發(fā)送直到讀請求優(yōu)先完成,再發(fā)送剩余的寫請求,。在這過程中讀寫請求權(quán)重值根據(jù)發(fā)送緩存的可用數(shù)動態(tài)變化,,調(diào)整讀寫請求的發(fā)送組合,在保證讀取速率的情況下盡量減少了擁堵時間,,從而提高整體傳輸速率,。

3 設(shè)計實現(xiàn)及測試驗證

  本設(shè)計采用Xilinx XC6VLX240T FPGA定制開發(fā)板作為開發(fā)平臺,并結(jié)合對應的驅(qū)動程序和處理程序進行測試驗證,。

  3.1 設(shè)計實現(xiàn)

  整個設(shè)計采用Xilinx ISE14.7作為FPGA的開發(fā)工具,,利用Verilog HDL進行程序設(shè)計。根據(jù)圖1的結(jié)構(gòu)圖在頂層模塊中例化各個模塊,,并進行相應的優(yōu)化,。為了滿足測試驗證的需求,頂層模塊中還需要例化ChipScope測試核,。設(shè)計完成后,,通過ISE綜合、映射,、布局布線,,最后生成可供下載的bit文件。綜合后整個設(shè)計占用Register資源9 317(3%),,占用LUT資源11 214(7%),,占用Bram資源12(2%)。

  3.2 測試驗證

  將開發(fā)板與PC主板的PCIe插槽相連接,,下載bit文件,,結(jié)合ChipScope軟件進行測試。兩路相機參數(shù)同為1 920×1 080,,60 FPS,,DVI顯示參數(shù)也為1 920×1 080,

  60 FPS,。DDR3 SDRAM時鐘400 MHz,,物理位寬64 bit,,讀寫控制時鐘200 MHz,數(shù)據(jù)位寬256 bit,。PCIe配置成×4,,gen2。理論上,,DDR3的讀寫速率和PCIe的傳輸速率滿足多路圖像的采集和輸出要求,。根據(jù)仲裁模塊的設(shè)計,測試時間寬度分別為1,、2,、4、8行圖像像素點讀寫時間下的性能,,其中7.5 KB對應一行圖像像素點的數(shù)據(jù)量,。PCIe BMD單工情況下的測試結(jié)果如表1所示,并將表1的測試結(jié)果換算為gen1×8模式,,與文獻[6]的結(jié)果進行對比,,如圖4所示。

005.jpg

004.jpg

  對比測試結(jié)果,,文獻[6]在gen1×8模式時的最高傳輸速率為寫1 311 MB/s,,讀1 002 MB/s,而本傳輸系統(tǒng)在相同模式下能達到的最高傳輸速率為寫1 632 MB/s,,讀1 557 MB/s,,相比文獻[6]寫入速率提高24.5%,讀取速率提高55.4%,,并且表現(xiàn)出傳輸數(shù)據(jù)量越大,,傳輸速率越高,超過60 KB之后趨于穩(wěn)定,。如果PCIe BMD一直工作在單工模式,是不能滿足每秒寫入和讀取900 MB數(shù)據(jù)量的要求,,因此本系統(tǒng)中PCIe BMD只在每幀圖像的開始和結(jié)束像素行傳輸時工作在單工模式,,其余時間工作在全雙工模式。對于PCIe BMD的全雙工方式,,發(fā)送模塊采用WRR算法和DWRR算法的測試結(jié)果如圖5所示,。

  對比該測試結(jié)果,可以看出對于不同數(shù)據(jù)量的傳輸,,采用DWRR的傳輸速率都高于WRR,,寫入速率最大提高3.4%,讀取速率最大提高9.6%,,最高傳輸速率能達到寫1 478 MB/s,,讀1 438 MB/s,保證了圖像數(shù)據(jù)傳輸?shù)絇C后有充足的時間進行運算處理,滿足本系統(tǒng)的傳輸需求,。根據(jù)PCIe BMD單雙工測試結(jié)果,,綜合考慮整個系統(tǒng)的傳輸效率、總線切換頻率及實時性,,傳輸系統(tǒng)仲裁模塊中的時間寬度設(shè)為4行圖像像素點的讀寫時間為佳,。

4 結(jié)論

  大數(shù)據(jù)量采集后的高速傳輸對于一個采集系統(tǒng)而言至關(guān)重要,高性能的傳輸系統(tǒng)能為大數(shù)據(jù)量的存儲,、處理等后期各種操作提供保障,。本文設(shè)計了一種基于PCIe總線的多路實時傳輸處理系統(tǒng),并且通過FPGA驗證了該系統(tǒng)的可行性,。實際測試表明該系統(tǒng)能達到單工寫1 632 MB/s,、讀1 557 MB/s和全雙工寫1 478 MB/s、讀1 438 MB/s的傳輸速率,,完全滿足本系統(tǒng)高速數(shù)據(jù)傳輸?shù)男枨?,并且對于其他高速傳輸系統(tǒng)的設(shè)計有一定的借鑒作用。

  參考文獻

  [1] PCI express base specification revision 2.1[S].PCI-SIG.,,Mar 4,,2009.

  [2] KAVIANIPOUR H,BOHM C.High performance FPGA-basedscatter/gather DMA interface for PCIe[C].IEEE NSS/MIC,,2012,,N19-3,1517-1520.

  [3] LI H,,LIU Y A,,YUAN D M,et al.A wrapper of PCI express with FIFO interfaces based on FPGA[C].IEEE ICICEE,,2012,,145,525-529.

  [4] 樊博,,王延杰,,孫宏海,等.FPGA實現(xiàn)高速實時多端口圖像處理系統(tǒng)的研究[J].液晶與顯示,,2013,,28(4):620-625.

  [5] 雷雨,任國強,,孫健,,等.基于PCIE的高速光纖圖像實時采集系統(tǒng)設(shè)計[J].電子技術(shù)應用,2013,,39(10):136-138.

  [6] 侯杭呈,,王憶文,,李輝.一種基于PCI Express總線的DMA高速傳輸系統(tǒng)[J].微電子學,2013,,43(3):383-386.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。