摘 要: 設(shè)計(jì)了一種基于先進(jìn)電信計(jì)算架構(gòu)的龍芯服務(wù)器刀片并實(shí)際應(yīng)用于一嵌入式計(jì)算平臺(tái)。介紹了系統(tǒng)總體結(jié)構(gòu)并重點(diǎn)論述了服務(wù)器刀片設(shè)計(jì)的系統(tǒng)方案,、高可靠設(shè)計(jì)等關(guān)鍵技術(shù),。實(shí)際測(cè)試表明,設(shè)計(jì)的服務(wù)器刀片能滿足可靠性測(cè)試要求,,在測(cè)試中表現(xiàn)出良好的性能,,滿足主流嵌入式計(jì)算任務(wù)需求。
關(guān)鍵詞: 先進(jìn)電信計(jì)算架構(gòu),;龍芯,;刀片服務(wù)器;嵌入式
0 引言
隨著多核計(jì)算技術(shù),、向量計(jì)算技術(shù),、GPU計(jì)算技術(shù)的發(fā)展應(yīng)用,在單位空間可集成更高的計(jì)算能力,。因而,傳統(tǒng)嵌入式計(jì)算架構(gòu)的嵌入式計(jì)算機(jī)系統(tǒng)結(jié)合高性能計(jì)算技術(shù),,能較大地提高系統(tǒng)性能并擴(kuò)展應(yīng)用范圍,。
先進(jìn)電信計(jì)算架構(gòu)[1](Advanced Telecom Computing Architecture,ATCA)是針對(duì)CPCI,、VME等傳統(tǒng)嵌入式[2-3]計(jì)算架構(gòu)在擴(kuò)展能力,、可靠性以及兼容性等方面存在的問題,由PICMG組織制定的最新一代嵌入式計(jì)算架構(gòu)標(biāo)準(zhǔn),。
計(jì)算規(guī)模在萬億次的低端個(gè)人高性能計(jì)算機(jī)[4](Personal High Performance Computer,,PHPC)的主要目標(biāo)是逐漸把萬億次高性能計(jì)算帶到“個(gè)人”和“桌面”,實(shí)現(xiàn)高性能計(jì)算的普及化,。KD系列PHPC[5]在研制過程中逐步解決了PHPC小型化問題,,實(shí)現(xiàn)了“三低一高”,。最終實(shí)現(xiàn)的KD-90系統(tǒng)[6]是一款微波爐大小的、可移動(dòng)的個(gè)人高性能計(jì)算機(jī),。
本文應(yīng)用KD系列PHPC的研究成果,,結(jié)合ATCA嵌入式計(jì)算架構(gòu),采用龍芯3號(hào)處理器[7-8],,設(shè)計(jì)了一款符合ATCA技術(shù)規(guī)范的嵌入式計(jì)算平臺(tái),。對(duì)系統(tǒng)核心部件龍芯服務(wù)器刀片設(shè)計(jì)的關(guān)鍵技術(shù)進(jìn)行了重點(diǎn)闡述,并對(duì)刀片的性能進(jìn)行了測(cè)試,。測(cè)試結(jié)果表明,,所設(shè)計(jì)的服務(wù)器刀片性能良好。
1 系統(tǒng)設(shè)計(jì)
1.1 嵌入式計(jì)算平臺(tái)簡介
本嵌入式計(jì)算平臺(tái)機(jī)械結(jié)構(gòu)遵循ATCA規(guī)范進(jìn)行了定制設(shè)計(jì),,考慮電源供電在背板的均衡以及模塊散熱的需求,,將3個(gè)“1+1+1”冗余的電源模塊單元設(shè)置在整個(gè)機(jī)箱的右側(cè);機(jī)箱中部5U高度的空間主要設(shè)置8片龍芯服務(wù)器計(jì)算刀片(服務(wù)單元#1→#8),、2個(gè)交換和管理單元以及2個(gè)KVM單元,。
系統(tǒng)的核心部分為8片龍芯服務(wù)器刀片,采用龍芯3號(hào)處理器進(jìn)行設(shè)計(jì),。
1.2 龍芯ATCA服務(wù)器刀片設(shè)計(jì)方案
服務(wù)器刀片設(shè)計(jì)采用了基于雙路龍芯3A處理器CC-NUMA(非一致性存儲(chǔ)通道)架構(gòu)的服務(wù)器方案,,搭配AMD的RS780E+SB710套片組。通過Intel82576設(shè)計(jì)輸出4路千兆網(wǎng)絡(luò)信號(hào),,通過背板采用Serdes信號(hào)傳輸模式實(shí)現(xiàn)與交換模塊的互聯(lián),;輸出的8路USB、2路VGA和4路千兆以太網(wǎng)信號(hào)通過ATCA Zone2連接器與背板連接,,其設(shè)計(jì)框圖如圖1所示,。
服務(wù)器刀片主要特點(diǎn):
(1)系統(tǒng)采用800 MHz,、16 bit的HT[7](Hyper Transport Link)總線與I/O橋片互聯(lián),,系統(tǒng)總帶寬達(dá)25.6 Gb/s;
?。?)系統(tǒng)總線數(shù)據(jù)傳輸支持采用CRC數(shù)據(jù)校驗(yàn)機(jī)制,,具備傳輸失效后自動(dòng)重試功能;
?。?)獨(dú)立的IPMC監(jiān)控電路可以通過網(wǎng)絡(luò)遠(yuǎn)程監(jiān)控設(shè)備工作狀態(tài)并進(jìn)行控制,;
(4)服務(wù)器刀片通過PCIe總線連接高性能以太網(wǎng)驅(qū)動(dòng)器Intel82576網(wǎng)卡,。
2 高可靠設(shè)計(jì)技術(shù)
2.1 系統(tǒng)級(jí)冗余技術(shù)
結(jié)合ATCA架構(gòu)支持的冗余技術(shù),,系統(tǒng)進(jìn)一步采用了全面的冗余體系來支持服務(wù)器刀片的高可靠運(yùn)行。如圖1所示,,交換刀片,、KVM刀片,、電源模塊、風(fēng)扇,、機(jī)箱管理等都采用了冗余設(shè)計(jì),,采用1+1冗余模式確保無單點(diǎn)故障。
同時(shí),,龍芯服務(wù)器刀片設(shè)計(jì)提供4路千兆以太網(wǎng)通道,,分成兩組,分別連至兩個(gè)交換刀片,,形成2+2的冗余模式,,如圖2所示。
2.2 遠(yuǎn)程管理監(jiān)控技術(shù)
系統(tǒng)采用遠(yuǎn)程管理監(jiān)控技術(shù)對(duì)服務(wù)器刀片運(yùn)行的所有狀態(tài)進(jìn)行監(jiān)控,,包括:故障預(yù)警/告警,、機(jī)箱環(huán)境溫度監(jiān)控、刀片電壓/電流監(jiān)控,、功能單元的存在性/健康性監(jiān)控等,。
外部機(jī)箱管理為遠(yuǎn)程管理軟件,遠(yuǎn)程用戶可通過網(wǎng)絡(luò)向機(jī)箱管理單元發(fā)送命令請(qǐng)求,,由機(jī)箱管理單元將命令翻譯并發(fā)送到相應(yīng)的節(jié)點(diǎn)單元的IPMC,,實(shí)現(xiàn)對(duì)各節(jié)點(diǎn)單元管理和控制,。
2.3 散熱計(jì)算與熱仿真技術(shù)
根據(jù)服務(wù)器單元的功耗以及空氣散熱技術(shù)實(shí)踐的最高上限推算,,每個(gè)槽位服務(wù)器刀片的最大功耗應(yīng)該在100 W以內(nèi),根據(jù)功耗與空氣流通速率對(duì)應(yīng)的關(guān)系,,對(duì)應(yīng)的空氣流通速率為0.51 m/min,。
根據(jù)計(jì)算所得相關(guān)參數(shù),,機(jī)箱和刀片的機(jī)械尺寸位置,在所有刀片滿載持續(xù)工作30 min情況下,,對(duì)整機(jī)散熱進(jìn)行了瞬態(tài)仿真分析,,結(jié)果如圖3所示。由圖3可知,,在環(huán)境溫度45 ℃,,相對(duì)濕度75%情況下,整個(gè)機(jī)箱的散熱良好,。
3 系統(tǒng)測(cè)試
3.1 健壯性測(cè)試
首先為拷機(jī)測(cè)試,測(cè)試期間系統(tǒng)運(yùn)行Linpack測(cè)試以及Spec cpu2000等大型測(cè)試軟件至滿負(fù)荷,,實(shí)測(cè)72小時(shí)內(nèi)運(yùn)行無故障,。其次為IO訪問壓力測(cè)試,測(cè)試整機(jī)在100 MB,、500 MB以及1 GB文件拷貝,、創(chuàng)建,、壓縮、解壓,、FTP傳輸時(shí)的健壯性,,實(shí)際測(cè)試系統(tǒng)利用腳本完成相應(yīng)任務(wù)操作連續(xù)48小時(shí)正常無故障。最后測(cè)試系統(tǒng)在多用戶并發(fā)訪問特定應(yīng)用時(shí)的穩(wěn)定性,,利用Loadrunner模擬進(jìn)行100~1 000個(gè)用戶測(cè)試,,48小時(shí)內(nèi)訪問正常。
3.2 性能測(cè)試
對(duì)單個(gè)龍芯服務(wù)器刀片的測(cè)試結(jié)果參見表1計(jì)算子系統(tǒng)基礎(chǔ)性能測(cè)試結(jié)果,。測(cè)試處理器為龍芯3A,,工作主頻為825 MHz,單處理器內(nèi)存為DDR3 8 GB,,工作頻率為533 MHz,。
3.3 功耗測(cè)試
在系統(tǒng)滿載情況下,對(duì)系統(tǒng)總功耗和單個(gè)服務(wù)器的刀片進(jìn)行了功耗測(cè)試,,結(jié)果如表2所示,。
4 結(jié)論
分析計(jì)算子系統(tǒng)的整型和浮點(diǎn)性能的測(cè)試數(shù)據(jù),由于工作主頻的差異,,龍芯3A處理器與主流的x86處理器性能相比差距較大,,處理器單核性能只是相當(dāng)于同主頻的PIII處理器,內(nèi)存的讀寫性能也相對(duì)偏低,。
而對(duì)于計(jì)算型應(yīng)用,,嵌入式計(jì)算平臺(tái)的優(yōu)勢(shì)在于在較小的空間范圍內(nèi)實(shí)現(xiàn)了一個(gè)由16個(gè)處理器,共計(jì)64個(gè)處理器核組建的SMP集群,,通過高密度集成獲取較高的計(jì)算能力,。當(dāng)系統(tǒng)配置龍芯3B 處理器時(shí),可獲得接近2 T的峰值計(jì)算能力,。
參考文獻(xiàn)
[1] 王江.ATCA架構(gòu)中多網(wǎng)口后板的高效設(shè)計(jì)[J].電子技術(shù)應(yīng)用,,2013,39(1):391-396.
[2] 羅云,,陸安江,,張正華.基于嵌入式系統(tǒng)的RFID中間件設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2013,,39(1):280-285.
[3] 蔡路亭,,徐金甫,丁琦,,等.基于地址加擾的嵌入式系統(tǒng)安全防護(hù)研究[J].電子技術(shù)應(yīng)用,,2014,40(7):191-196.
[4] 孫凝暉,陳國良.PHPC:一種普及型高性能計(jì)算機(jī)[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),,2008,,38(7):745-752.
[5] 張俊霞,李春生,,張煥杰.KD-50-I-E:一臺(tái)增強(qiáng)型高性能計(jì)算機(jī)[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),,2009,39(8):894-896.
[6] 蔡曄,,劉剛,,毛睿,等.KD-90普及型個(gè)人高性能計(jì)算機(jī)系統(tǒng)設(shè)計(jì)與性能優(yōu)化[J].深圳大學(xué)學(xué)報(bào)(理工版),,2013,,30(2):138-143.
[7] Hu Weiwu, Wang Jian,, Gao Xiang,, et al. Godson-3: a scalable multicore RISC processor with x86 emulation [J]. IEEE Micro, 2009,,29(2):17-29.
[8] 張俊霞,,張煥杰,李會(huì)民.基于龍芯2F的國產(chǎn)萬億次高性能計(jì)算機(jī)KD-50-I的研制[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),,2008,,38(1):105-108.