文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.01.009
中文引用格式: 張強,,馮仰松,,郭朋. 基于多核DSP互聯(lián)架構(gòu)的SAR處理研究與設(shè)計[J].電子技術(shù)應(yīng)用,2016,,42(1):37-39,,43.
英文引用格式: Zhang Qiang,F(xiàn)eng Yangsong,,Guo Peng. Research and design of SAR imaging based on multi-core DSP interconnection architecture[J].Application of Electronic Technique,,2016,42(1):37-39,,43.
0 引言
合成孔徑雷達(SAR)是一種具有全天候,、全天時,、遠距離獲取地面信息能力的傳感器。SAR具有防區(qū)外探測能力,,在國境偵察,、戰(zhàn)場偵察和戰(zhàn)場精確打擊等應(yīng)用中發(fā)揮著重要的作用,具有極高的軍事價值[1],。SAR成像在高分辨率及高測繪帶寬的指標需求下,距離方位二維數(shù)據(jù)量龐大,,并且算法復雜,,因此對信號處理系統(tǒng)的數(shù)據(jù)傳輸和實時處理能力提出了很高的要求。
傳統(tǒng)的單核DSP架構(gòu)限于點對點的連接方式,,只能形成固定的拓撲結(jié)構(gòu),,而且單核DSP的處理能力有限,提高系統(tǒng)實時處理能力只能通過多DSP間并行加流水的方式,,導致系統(tǒng)規(guī)模巨大,。系統(tǒng)規(guī)模的增加會帶來如復雜性高,、穩(wěn)定性差、散熱差,、重量大等一系列問題,,并且隨著系統(tǒng)指標要求的提高,這種固定的拓撲架構(gòu)已經(jīng)接近極限,。多核DSP架構(gòu)除了提高單個DSP的處理能力,,減少系統(tǒng)DSP數(shù)量,還支持RapidIO等高速串行總線,,不僅滿足了系統(tǒng)對數(shù)據(jù)吞吐量的需求,,也提供了更靈活高效的互聯(lián)模式。
1 PFA成像處理算法
在聚束模式合成孔徑雷達中,,由于天線波束始終指向固定的成像區(qū)域,,因此產(chǎn)生了雷達相對于目標區(qū)域的轉(zhuǎn)動。極坐標格式算法(Polar Format Algorithm,,PFA)最早是作為一種有效的旋轉(zhuǎn)目標成像方法提出的,,很快該方法就被成功地應(yīng)用于聚束模式SAR成像中,并且大大地提高了聚束SAR的聚焦成像范圍[2],。
PFA是一種經(jīng)典的聚束SAR成像算法,,該算法采用極坐標格式存儲數(shù)據(jù),有效地解決了遠離成像區(qū)中心散射點的越分辨單元走動問題,,極大地提高了聚束SAR的有效聚焦成像范圍,。相比于其他算法,PFA算法具有簡單高效,、計算量小,、實時性好和易于運動補償?shù)葍?yōu)點,廣泛應(yīng)用于SAR實時成像領(lǐng)域[3-4],。
本文采用PFA成像算法,,流程如圖1所示。
上述PFA算法在插值處理時需要存儲大量數(shù)據(jù),,存儲容量增加的同時還導致了成像時延變大,。基于方位子塊插值的PFA成像算法[5],,將所有距離線的集合分割成若干互有重合的子集合,,每個子集合作為一個子塊,分發(fā)到相應(yīng)的處理器進行插值處理,,減少了的存儲容量的要求,,降低了成像延時。
2 TMS320C6678多核DSP處理模式與性能研究
2.1 多核DSP處理模式
TI推出新一代多核DSP TMS320C6678(C6678),內(nèi)嵌8個核,,核速率最大1.25 GHz,,工業(yè)級芯片可達1 GHz,單核浮點運算能力最高可達20 GFLOP,。C6678處理能力提高的同時還具備了更強的IO能力,,其中RapidIO最高支持20 GB/s傳輸,以太網(wǎng)最高支持1 GB/s傳輸,。該DSP的內(nèi)存可分為本地內(nèi)存(LL2),、共享內(nèi)存(SL2)和片外內(nèi)存(DDR)。其中LL2為512 KB,,SL2為4 MB,,DDR可尋址8 GB空間[6]。
常用的多核處理模式有兩種,,即主從模式和數(shù)據(jù)流模式,,如圖2所示。
(1)主從模式,,即一個核做數(shù)據(jù)接收和分發(fā),,對其他核的處理進行管理,即1+N的工作模式,;
(2)數(shù)據(jù)流模式,,即處理按照數(shù)據(jù)的傳輸串行執(zhí)行。
由于多核共享數(shù)據(jù)帶寬,,數(shù)據(jù)流模式僅適用于核間傳輸數(shù)據(jù)量較小的情況,,而SAR處理數(shù)據(jù)量較大,因此采用主從模式,。
基于C6678的多核主從模式如圖3所示,。由于緩存(cache)會占用一部分LL2的存儲空間,剩余部分容量較小,,所以LL2僅用于存儲小數(shù)據(jù)量的常量,;SL2用于保存各個核處理時使用的中間結(jié)果;DDR空間較大,,可以存儲DSP的輸入,、輸出以及數(shù)據(jù)轉(zhuǎn)角時需要存儲的大量數(shù)據(jù)。
主核首先將接收到的DSP輸入數(shù)據(jù)分配給相應(yīng)的從核,,再根據(jù)不同的處理啟動從核進行相應(yīng)的子處理,,然后等待所有從核處理完畢,最后匯總從核的輸出結(jié)果并發(fā)送給其他DSP,。這種主從模式將DSP的處理與數(shù)據(jù)傳輸分離,簡化了DSP間的時序關(guān)系,提高了系統(tǒng)的穩(wěn)定性,。
2.2 多核DSP處理性能研究
根據(jù)上述主從模式,,以FFT運算為例,測試C6678多核并行處理性能,。如圖4所示,,隨著并行核數(shù)的增加,F(xiàn)FT處理時間也有所增加,,這是由于多核共享SL2的數(shù)據(jù)帶寬,,從核并行處理時會產(chǎn)生競爭,導致DSP并行處理能力下降,。因此,,多核并行處理能力并不隨著參與處理的從核數(shù)量的增加而線性增加。
根據(jù)PFA成像算法流程,,以1+4主從模式(1個主核加4個從核)為例,,測試了SAR處理中各子功能多核并行處理性能,并對比單核DSP TS201,,結(jié)果如表1所示,。由于兩種處理器的主頻、內(nèi)存總線寬度,、優(yōu)化能力等都不盡相同,,并且某些子功能不適于并行處理(如自聚焦迭代過程),C6678與TS201的處理能力并不是簡單的4倍關(guān)系,。
2.3 維護cache一致性
上文給出的結(jié)果,,是在DSP使能cache的前提下得出的。對C6678來說,,每個核都可以在LL2中開辟cache空間,,在使能cache的情況下,每個核對SL2的讀寫操作都是在cache中進行的,,這樣極大地提高了內(nèi)存讀寫效率,。以4 096點FFT運算為例,使能cache的情況下耗時為68 μs,,非使能cache的情況下則高達600 μs,。
但是使能cache會導致cache一致性問題,cache一致性問題是指在含有多個cache的并行系統(tǒng)中,,數(shù)據(jù)的多個副本因為沒有同步更新而造成的不一致問題,。這時需要軟件來維護cache一致性,維護cache一致性的操作分為cache無效化和cache回寫,。例如當核A需要更新數(shù)據(jù)給核B時,,核A首先要執(zhí)行cache回寫操作,使cache中的數(shù)據(jù)更新到內(nèi)存中去,核B在讀取核A更新的數(shù)據(jù)前要執(zhí)行cache無效化操作,,以保證從cache讀取的數(shù)據(jù)和內(nèi)存中一致,。除了多核間維護cache一致性外,核與外設(shè)(如SRIO,、EDMA等)間也要維護cache一致性,,因為外設(shè)對內(nèi)存的讀寫操作是不經(jīng)過cache的。
3 基于RapidIO互聯(lián)SAR實時處理系統(tǒng)設(shè)計
提高DSP的處理能力只是保證系統(tǒng)實時性的一方面,,在典型的嵌入式系統(tǒng)中,,瓶頸往往在于系統(tǒng)級互聯(lián),即各元件之間的通信速度,。RapidIO互聯(lián)架構(gòu)消除了該瓶頸,,它提供了一種高性能、分組交換的互聯(lián)技術(shù),。目前C6678支持最高20 GB/s的傳輸速率,。
圖5所示為一個典型的多核DSP互聯(lián)架構(gòu),板內(nèi)DSP通過交換設(shè)備(SW)互聯(lián),,板間又通過SW互聯(lián),,從而組成一個RapidIO互聯(lián)網(wǎng)絡(luò)。傳統(tǒng)的固定拓撲架構(gòu)由于通信鏈路單一,,使得系統(tǒng)內(nèi)每個DSP都不可替代,。而在這種互聯(lián)架構(gòu)中,DSP在系統(tǒng)內(nèi)的邏輯位置都是等效的,,可以方便地實現(xiàn)系統(tǒng)的重構(gòu),。同時,該互聯(lián)架構(gòu)以4DSP板卡為最小單元,,可根據(jù)系統(tǒng)的需求進行擴展,。這種RapidIO互聯(lián)架構(gòu)使得軟件設(shè)計不再受限于固定的拓撲結(jié)構(gòu),具有很高的重構(gòu)性和擴展性,。
為了充分利用多核DSP的并行處理性能,,每個子功能模塊需要盡可能地完成更多功能,這樣也減少了子功能模塊間即DSP間的數(shù)據(jù)傳輸,,減少了流水級數(shù),,降低了系統(tǒng)的復雜度。
SAR處理時序如圖6所示,,補償處理由于實時性要求高,,需要4個DSP進行輪轉(zhuǎn)處理,處理結(jié)果同樣輪轉(zhuǎn)發(fā)送到DSP_21,、DSP_22和DSP_23 3個DSP進行子塊插值和二維IFFT處理,,DSP_21,、DSP_22和DSP_23處理完畢后發(fā)送輸出結(jié)果給DSP_24,DSP_24接收到所有子塊結(jié)果后,,產(chǎn)生復圖像進行后續(xù)處理,,最終產(chǎn)生圖像并輸出。
4 成像結(jié)果驗證
圖7所示為該SAR成像處理系統(tǒng)的驗證平臺,,調(diào)試計算機通過以太網(wǎng)輸入試飛獲取的原始數(shù)據(jù),經(jīng)過處理系統(tǒng)進行SAR成像處理,,成像結(jié)果如圖8所示,,圖像分辨率為0.5 m。由圖可見,,該圖像各個部位聚焦良好,、細節(jié)清楚且層次豐富,驗證了該成像系統(tǒng)的有效性,。
傳統(tǒng)的單核DSP架構(gòu),,需要多達40個DSP才能勉強保證SAR成像處理的實時性,該多核DSP架構(gòu)僅使用8個DSP即可滿足需求,,并且仍留有一定的余量(每個DSP僅使用5個核),,相比之下,該多核DSP互聯(lián)架構(gòu)優(yōu)勢明顯,。
5 結(jié) 論
本文介紹了一種適于工程實現(xiàn)的實時SAR成像處理算法,,重點研究了多核DSP(C6678)的處理模式、處理性能,,并詳細分析了多核DSP中cache一致性問題,。根據(jù)研究結(jié)論,測試驗證了SAR處理的子功能模塊,。隨后,,介紹了一種典型的RapidIO互聯(lián)架構(gòu),設(shè)計并實現(xiàn)了基于該架構(gòu)的SAR成像處理系統(tǒng),。結(jié)果表明,,該系統(tǒng)相對于傳統(tǒng)架構(gòu)具有高效性、重構(gòu)性和可擴展性,。
參考文獻
[1] 周峰,,王琦,邢孟道,,等.一種機載大斜視SAR運動補償方法[J].電子學報,,2007(35):463-468.
[2] 孫進平.機載聚束模式合成孔徑雷達的成像算法研究[D].北京:北京航空航天大學,2001.
[3] 毛新華.PFA在SAR超高分辨率成像和SAR/GMTI中的應(yīng)用研究[D].南京:南京航空航天大學,,2009.
[4] CARRARA W G,,GOODMAN R S,,et al.Spotlight synthetic aperture radar signal processing algorithms.Artech House,Boston,,1995.
[5] 李愛波,,姜明,何濤.一種基于改進PFA算法的機載大斜視SAR實時信號處理系統(tǒng)設(shè)計[J].計算機工程與應(yīng)用,,2014.
[6] TMS320C6678 Multicore Fixed and Floating-Point Digital Signal Processor[J].USA:Texas,,2011.