摘 要: 基于ARM平臺提出了一種軟硬件結(jié)合的嵌入式系統(tǒng)軟件保護方案。利用加密算法AES和FS8826安全芯片,,以嵌入式實時操作系統(tǒng)VxWorks為例,在啟動過程中加入認證,、密鑰讀取和解密操作以保證系統(tǒng)的安全啟動,并進行周期性定時認證,。
關鍵詞: ARM平臺,; AES; FS8826安全芯片,; Vxworks
近年來,,從軟件到軟硬件聯(lián)合攻擊給嵌入式系統(tǒng)造成嚴峻的安全威脅。安全性已成為嵌入式系統(tǒng)設計中必不可少的一部分,,同時這又是一個折衷的過程,,不能單靠軟件來保證,而全硬件的解決方式很昂貴且不具有彈性[1],。很多產(chǎn)品開始從設計之初就從系統(tǒng)架構(gòu)上考慮了安全性,,如ARM公司的Trust Zone技術開辟了一片可信代碼區(qū),通過一個S比特來區(qū)分系統(tǒng)的安全狀態(tài),IBM的PowerPC中使用了多核單元寬帶引擎(BE)進行安全引導和物理隔離,。
需要注意的是目前使用的很多嵌入式系統(tǒng)都是基于沒有特別設計安全機制的硬件平臺,。本文以原ARM處理器平臺為例,通過增加1塊安全協(xié)處理器,,就可以實現(xiàn)低成本,、有實效的安全保護,并且能夠抵御兩類比較寬泛的攻擊:一類是在系統(tǒng)的啟動過程中的攻擊,,如果系統(tǒng)啟動過程中沒有安全保護措施,,很可能被非法用戶使用非授權的軟件。另一類是外部存儲器及總線攻擊,,當程序代碼保存在外部非易失存儲器上時,,可以輕易被黑客拷貝。另外,,片外存儲器與片上系統(tǒng)(SoC)之間的總線傳輸也容易受到攻擊,。
1 硬件結(jié)構(gòu)
本方案的硬件結(jié)構(gòu)如圖1所示。處理器平臺采用三星公司的S3C2442,,內(nèi)核為ARM920T,,外置1塊2 MB的NorFlash用以存放密文數(shù)據(jù),ARM通過總線方式對NorFlash進行訪問,,該硬件結(jié)構(gòu)中最重要的部分是添加了1塊安全協(xié)處理器:福華公司的嵌入式系統(tǒng)軟件保護芯片F(xiàn)S8826,。該芯片可通過I2C或SPI總線與SOC連接,,這里使用I2C方式。PC機能夠?qū)τ布脚_中的每個芯片進行編程控制:通過JTAG端口,、串口及網(wǎng)口與ARM進行通信,,通過專門的燒錄器對FS8826的硬件密鑰和安全存儲區(qū)進行寫入,。
2 軟件實現(xiàn)
軟件設計從兩個主要方面考慮,一是代碼加密,二是版權認證。前者主要通過AES(Advanced Encryptiong Standard)加解密算法實現(xiàn),其算法密鑰的管理以及版權認證將依靠FS8826來實現(xiàn),最終達到安全啟動嵌入式操作系統(tǒng)以及保護運行時的版權目的,。安全啟動方案基于Bootloader+Image的加載機制,,也是ARM處理器通用的引導機制,。首先采用AES加解密算法在PC機端將編譯完成Image加密,,利用FS8826安全存儲區(qū)存放AES算法密鑰,密文存儲在片外存儲器中,,ARM啟動時將密文加載入內(nèi)存,。然后在Bootloader啟動過程時加入與FS8826的認證操作,認證通過則在該過程中使用AES解密算法解密Image,,并用明文將原內(nèi)存中的密文覆蓋,,系統(tǒng)正常運行中加入與FS8826的實時通信監(jiān)測,確保在授權目標機上運行程序,。軟件實現(xiàn)流程如圖2所示,,相應的方案實現(xiàn)框圖如圖3所示。
2.1 AES算法
AES是美國國家標準和技術研究所(NIST)選定的高級加密標準,,是目前對稱加密領域內(nèi)的主流算法,。其數(shù)據(jù)分組固定為128 bit,密鑰分組可支持128 bit/192 bit/256 bit。核心過程為數(shù)據(jù)塊矩陣的Nr(10/12/14)次輪操作,。每一次輪操作都由S盒代換(SubBytes),、行移位(ShiftRows)、列混淆(MixColumns)和輪密鑰加(AddRoundKey)4個函數(shù)組成,,第Nr次輪操作不包含MixColumns 函數(shù),。密鑰擴展為每一輪變換提供輪密鑰[2]。本方案中加密在PC機端離線完成,,沒有時間和運行效率的特別要求,,但是解密在ARM9處理器中完成,其運行時間將作為系統(tǒng)啟動的一部分,,所以下面針對解密部分的算法程序結(jié)合其實現(xiàn)平臺進行優(yōu)化設計,。
直接的解密算法是將加密過程的每一步求逆并倒置次序得到,然而這樣并不利于優(yōu)化,。算法的創(chuàng)始人提出了一種等價解密過程,,在解密的輪變換中交換逆行移位和逆S盒代換,輪密鑰加和逆列混淆的順序,,只需要調(diào)整密鑰的編排方案即可,。在實現(xiàn)中等價解密過程可以將解密輪變換中的前3個步驟綜合生成1張4 KB的T表用于查詢,,即可快速準確地完成解密[2]。具體流程如圖4所示,。
加解密過程使用電碼本模式(ECB)運行,,即將消息段逐個分別加解密。實現(xiàn)采用移植性較好的標準C編程,。針對ARM處理器的特點,,C語言具有以下優(yōu)化的實現(xiàn)方式[3]:
(1) 數(shù)據(jù)類型設置:ARM處理器內(nèi)部是32 bit寄存器,如果變量長度與ARM內(nèi)部寄存器長度不一致,,將會使得變量的存取都需要附加其他指令[3],。AES算法中密鑰及數(shù)據(jù)都是以字節(jié)為單位運算,優(yōu)化時調(diào)整為32 bit,,僅在輸入輸出時進行位數(shù)變換,,可以帶來很大的速度改進。
(2) 循環(huán)展開:ARM處理器中每一次循環(huán)最少有4個周期的循環(huán)開銷[3],。解密輪變換涉及4個子函數(shù)調(diào)用,,循環(huán)執(zhí)行Nr-1次。在等價解密算法融合了3個子函數(shù)形成T表查詢,,于是可以把輪變換展開,,在不增加太多代碼量的基礎上,每一個數(shù)據(jù)分組解密減少4(Nr-1)個周期,。當密鑰位長,、密文數(shù)據(jù)量大時節(jié)省的循環(huán)開銷就比較可觀。
(3) 控制變量數(shù):為了高效執(zhí)行1個函數(shù),,應盡量限制函數(shù)內(nèi)部循環(huán)所用局部變量的數(shù)目,最多不超過12個,,確保最重要的和經(jīng)常用到的變量都被分配在寄存器里[3]。
(4) 宏定義函數(shù)實現(xiàn):有些簡單函數(shù)可以通過宏定義的方式實現(xiàn),,如域內(nèi)乘法等,。此種方式可以減少函數(shù)調(diào)用開銷。
2.2 FS8826功能實現(xiàn)
FS8826芯片自帶24 B硬件密鑰,,具有不可回讀,、不可在總線上傳輸?shù)奶攸c,主要用于芯片內(nèi)部的認證模塊運算(HASH&3DES)和安全數(shù)據(jù)傳輸,。芯片內(nèi)部開辟了1塊安全存儲區(qū)(96 B EEPROM),,讀寫都受硬件密鑰的保護,且具有CRC校驗功能,。在本方案中該芯片主要實現(xiàn)兩方面功能: SoC版權確認和AES密鑰管理,。前者通過認證實現(xiàn),具體流程如圖5 所示??偩€上發(fā)送的數(shù)據(jù)為硬件密鑰與用戶設置的認證區(qū)數(shù)據(jù)通過HASH運算得出的數(shù)組,,并加入了8 B隨機數(shù),能夠有效地防止重放攻擊(reply attack),。該項功能能夠提供代碼完整性驗證[4],,在一定程度上抵抗反匯編攻擊。后者通過將AES密鑰燒入FS8826的安全存儲區(qū),,由其硬件密鑰進行保護實現(xiàn),,認證通過后發(fā)送加密的讀取命令,算法密鑰以密文形式在總線上傳遞[4],。
2.3 Vxworks啟動,、運行
以上所述的加解密和認證過程將運行在嵌入式實時操作系統(tǒng)的啟動和監(jiān)測上,實現(xiàn)上以Vxworks為例,,該系統(tǒng)為風河系統(tǒng)公司(Wind River System)在業(yè)界最早推出的一款嵌入式實時多任務操作系統(tǒng),開發(fā)環(huán)境為Tornado,。
VxWorks操作系統(tǒng)的映像包括兩大類:VxWorks類型和Boorom類型[5]。本文對RAM中運行的VxWorks映像在PC機端進行AES加密,。選擇執(zhí)行格式的未壓縮Bootrom映像——bootrom_uncmp作為啟動映像,,并在其調(diào)用的初始化文件(bootConfig.c)中加入與FS8826的安全認證、密鑰傳輸以及解密運算,。bootrom_uncmp由仿真器燒入到目標板的norflash中,,上電后,bootrom_uncmp把自身拷貝到RAM_HIGH_ADRS地址上運行引導程序,。之后,,把VxWorks映像裝入到起始地址為RAM_LOW_ ADRS的RAM 中,接著跳轉(zhuǎn)到VxWorks映像裝入點運行[5],。如果認證通過,,引導程序?qū)腇S8826的安全存儲區(qū)獲取AES算法密鑰,進行解密,,否則在RAM_LOW_ADRS處的VxWorks映像將仍然為密文,,無法正常啟動。如圖6所示,。
在系統(tǒng)安全啟動后,,加載的明文映像開始運行,同時,隱藏在映像中認證程序也將開始運行,并定時與FS8826通信,,確保持有正確硬件密鑰的芯片運行正常,,以防黑客移植代碼非法使用。
3 實現(xiàn)結(jié)果及分析
按照ARM平臺下的優(yōu)化原則,AES解密算法通過直接解密和等價解密2種形式進行實現(xiàn),,并通過ADS的Debugger Internals工具從速度和內(nèi)存占用量兩方面衡量實現(xiàn)效率[2],。如表1所示為在ARM9處理器中2種算法所耗的匯編指令數(shù)和指令周期數(shù)。表 2為兩者占用的內(nèi)存資源對比。
從表中結(jié)果可以看出,,采用查表運算的等價解密過程具有速度上的優(yōu)勢,,且隨著密鑰位的增加其改進越明顯,。然而,,速度與內(nèi)存占用是相互矛盾的兩方面,運行速度越快的算法必然會以占用一部分資源占用為代價,。等價解密算法中使用了T表,且將循環(huán)展開造成了代碼量的增加,。所以在實際使用時,對內(nèi)存資源的要求高于速度要求時建議采用直接解密算法,,反之則可采用等價解密算法,。這里所用的ARM9有足夠的內(nèi)存空間,所以采用128 bit密鑰的等價解密算法,,以1 MB的Vxworks密文映像為對象進行啟動測試,。
正常啟動中先由NorFlash建立文件系統(tǒng),然后通過NandFlash加載文件,。實際測試中對1 MB密文的讀取耗時1.4 s,。可以對密文讀取方式進行優(yōu)化,,將密文燒入片外NorFlash中,,系統(tǒng)上電后,內(nèi)存從NorFlash中獲取密文的讀取方式,,時間為0.03 s,。這種差別的原因主要有2點:(1)文件系統(tǒng)訪問方式下用fopen和fread函數(shù)打開密文,解密后的數(shù)據(jù)還需寫回到文件中重新讀取,,且會受時鐘頻率及總線速度的限制,。而后者屬于內(nèi)存直接讀取,解密后直接從內(nèi)存啟動,;(2)NorFlash的讀取速度本身就比NandFlash要快,。
啟動過程各部分時間如表3所示。
需要注意的是,,在啟動過程中只開啟了指令cache,,且沒有MMU的支持,所以解密的執(zhí)行速度較之系統(tǒng)啟動后要慢很多,。經(jīng)測試,,在系統(tǒng)加載起來后1 MB的密文解密操作只需1.7 s。對啟動速度有特殊要求的應用可以對MMU和cache的使用進行進一步的調(diào)整設計,。
系統(tǒng)啟動后進行的定時認證,可以監(jiān)測與FS8826的正常通信,,保證主映像運行在授權目標機上。認證過程中的運算都在FS8826芯片內(nèi)進行,不會對主映像的運行速度造成影響,,經(jīng)過測試每次認證耗時0.16 s,,如果安全級別要求不是很高,也可以選擇采用復位芯片的方式進行監(jiān)測,,每次僅耗時0.01 s,。
本文的主要創(chuàng)新點是基于ARM9處理器平臺,針對其軟件安全提出了一套可行的解決方案,。本方案可以抵御兩類攻擊:(1)本文構(gòu)建的安全啟動過程,,如果脫離了FS8826的支持,將無法獲取密鑰,,無法通過認證,。并且可以設置不止一次的認證操作隱藏在啟動過程中,將其中的一部分用作FS8826的驗證區(qū)數(shù)據(jù),,即使黑客通過反匯編的手段,,找到認證代碼并予以忽略,也會因為篡改使其他部分的認證無法通過,從而達到防止軟件盜版的目的;(2)關鍵的代碼一開始就是以加密狀態(tài)存放在NorFlash中,,密鑰則存儲在FS8826的安全存儲區(qū)內(nèi),,合法用戶運行時將獲取密鑰,把密文解密到內(nèi)存中,,掉電數(shù)據(jù)丟失,。同時,F(xiàn)S8826與SOC之間的總線通信已經(jīng)過加密,,能夠防止黑客從總線竊取,。該方案成本低,效果好,,其成果具有一定的推廣性,。
參考文獻
[1] ALTSCHULER F,ZOPPIS B.嵌入式系統(tǒng)安全性(下)對攻擊狀況和防衛(wèi)策略的概述和分析.電子產(chǎn)品世界[J],,2008(7):102-105.
[2] DAEMEN J,,RIJMEN V.高級加密標準(AES)算法——Rijndael的設計[M].谷大武,徐勝波譯.北京:清華大學出版社,,2003.
[3] ANDREW N S, SYMES D, WRIGHT C. ARM嵌入式系統(tǒng)開發(fā)——軟件設計與優(yōu)化[M]. 沈建華譯. 北京:
北京航空航天大學出版社,2005.
[4] FS8806&FASP-8806 Introduction,,Version 2.14. www.FameG.com.2006-10-18.
[5] 陳智育,溫彥軍,,陳琪.Vxworks程序開發(fā)實踐[M].北京:人民郵電出版社, 2004.