摘 要: 本文從ARM結構的特點出發(fā),,根據(jù)程序優(yōu)化的基本原則,,闡述了面向ARM的C語言程序優(yōu)化設計的一些基本原則和方法及其在TCP/IP協(xié)議實現(xiàn)中的應用。
關鍵詞: 程序優(yōu)化 嵌入式系統(tǒng) ARM結構 TCP/IP協(xié)議
隨著嵌入式技術的發(fā)展,,人們對系統(tǒng)的智能化,、小型化的要求也越來越高?;贏RM結構的微處理器以其高性能、低功耗,、低價格等方面的優(yōu)勢被廣泛應用于各種電子產(chǎn)品,,特別是一些高端的嵌入式控制應用中,例如移動電話,、工業(yè)控制,、網(wǎng)絡通信等方面。ARM技術具有很好的性能和功效,,其合作伙伴包括許多世界頂級的半導體公司,。可以說ARM技術幾乎無處不在,。
TCP/IP互聯(lián)網(wǎng)協(xié)議族在全世界范圍內(nèi)已經(jīng)成為開放系統(tǒng)互聯(lián)的協(xié)議,,它提供了很好的交互操作能力,可兼容多種網(wǎng)絡技術,。嵌入式技術與TCP/IP技術的結合已經(jīng)展現(xiàn)出強勁的發(fā)展勢頭和巨大的市場潛力,。如何開發(fā)面向ARM的高效代碼,,尤其是提高類似于TCP/IP協(xié)議棧等基礎性的軟件模塊的執(zhí)行效率已成為每個從事基于ARM的嵌入式系統(tǒng)開發(fā)人員必須思考的問題。
1 面向ARM的程序優(yōu)化
開發(fā)高效的程序涉及很多方面,,包括優(yōu)秀的算法實現(xiàn),、良好的編程風格以及針對目標的程序優(yōu)化。程序優(yōu)化是指軟件編程基本結束后,,利用軟件開發(fā)工具對程序代碼進行調(diào)整和改進,,使程序能夠更加充分地利用有限的軟硬件資源,縮減代碼尺寸,,提高運行效率的過程[2],。
在實際的程序設計過程中,程序優(yōu)化的兩個目標(運行速度和代碼大?。┩腔ハ嗝艿?。為了提高程序運行效率,就要以犧牲存儲空間,、增加代碼量為代價,;而為了減少程序代碼量、壓縮存儲器空間,,可能又要以降低程序運行效率為代價,。按照優(yōu)化的側(cè)重點不同, 程序優(yōu)化可分為運行速度優(yōu)化和代碼尺寸優(yōu)化,。隨著微電子技術的不斷發(fā)展,,存儲空間已不再是制約系統(tǒng)集成的主要因素。面向ARM的程序優(yōu)化主要是討論如何在了解匯編語言和編譯規(guī)則的基礎上編寫出能夠高效運行的C語言程序,。
作為高性能,、低功耗的RISC芯片,ARM的C語言編譯器已經(jīng)非常成熟,。盡管如此,,在編寫面向ARM的C源程序時,對程序進行必要的優(yōu)化仍是提高程序運行效率的有效途徑,。以下是一些在實現(xiàn)TCP/IP協(xié)議過程中用到的比較典型的優(yōu)化原則和方法,,這些技術也適用于其他RISC指令集微處理器。
1.1 變量定義
32位ARM處理器的指令集支持有符號/無符號的8位,、16位,、32位整型和浮點型變量類型,這不僅可以節(jié)省代碼,,而且可以提高代碼的運行效率,。按照作用范圍的不同,C語言的變量可以劃分為全局變量和局部變量。ARM編譯器通常將全局變量定位在存儲空間中,,局部變量分配給通用寄存器,。
在全局變量聲明時,需要考慮最佳的存儲器布局,,使得各種類型的變量能以32位的空間位基準對齊,,從而減少不必要的存儲空間浪費,提高運行效率,。如:
char a,; char a;
short b,; char c,;
char c; short b,;
int d,; int d;
這里定義的四個變量形式相同,,只是次序不同,,卻導致了在最終映像中不同的數(shù)據(jù)布局,如圖1所示,。顯然第二種方式節(jié)約了更多的存儲器空間,。
對于局部變量,要盡量不使用32位以外的變量類型,。當一個函數(shù)的局部變量數(shù)目不多時,,編譯器會把局部變量分配給內(nèi)部寄存器,每個變量占一個32位的寄存器,。這樣short和char類型的變量不但起不到節(jié)省空間的作用,,反而會耗費更多的指令周期來完成short和char的存取操作。C語言代碼及其編譯結果如下所示:
1.2 條件執(zhí)行
條件執(zhí)行是程序中必不可少的基本操作,。典型的條件執(zhí)行代碼序列是由一個比較指令開始的,,接下來是一系列相關的執(zhí)行語句。ARM中的條件執(zhí)行是通過對運算結果標志位進行判斷實現(xiàn)的,,一些帶標志位的運算結果中,N和Z標志位的結果與比較語句的結果相同,。盡管在C語言中沒有帶標志位的指令,,但在面向ARM的C語言程序中,如果運算結果是與0作比較,,編譯器會移去比較指令,,通過一條帶標志位指令實現(xiàn)運算和判斷。例如:
因此,面向ARM的C語言程序設計的條件判斷應當盡量采用“與0比較”的形式,。C語言中,,條件執(zhí)行語句大多數(shù)應用在if條件判斷中,也有應用在復雜的關系運算(<,,==,,>等)及位操運算(&&,!,,and等)中的,。面向ARM的C語言程序設計中,有符號型變量應盡量采取x<0,、x>=0,、x==0、x!=0的關系運算,;對于無符號型的變量應采用x==0,、x!=0(或者x>0)關系運算符。編譯器都可以對條件執(zhí)行進行優(yōu)化,。
對于程序設計中的條件語句,,應盡量簡化if和else判斷條件。與傳統(tǒng)的C語言程序設計有所不同,,面向ARM的C語言程序設計中,,關系表述中類似的條件應該集中在一起,使編譯器能夠?qū)ε袛鄺l件進行優(yōu)化,。
1.3 循 環(huán)
循環(huán)是程序設計中非常普遍的結構,。在嵌入式系統(tǒng)中,微處理器執(zhí)行時間在循環(huán)中運行的比例較大,,因此關注循環(huán)的執(zhí)行效率是非常必要的,。除了在保證系統(tǒng)正確工作的前提下盡量簡化核循環(huán)體的過程以外,正確和高效的循環(huán)結束標志條件也非常重要,。按照以上所述的“與0 比較”原則,,程序中的循環(huán)結束條件應該是“減到0”的循環(huán),結束條件盡量簡單,。應盡可能在關鍵循環(huán)中采取上述的判斷形式,,這樣可以在關鍵循環(huán)中省去一些不必要的比較語句,減少不必要的開銷,,提高性能,。如下面二個示例:
fact1和fact2中通過定義局部變量a來減少對n的load/store操作。fact2函數(shù)遵循了“與0比較”原則,,省去了fact1編譯結果中的比較指令,,并且,變量n在整個循環(huán)過程不參與運算,也不需要保存,。由于省去了寄存器分配,,從而給其他部分程序的編譯帶來了方便,提高了運行效率,。
“減到0”的方法同樣適用于while和do語句,。
如果一個循環(huán)體只循環(huán)幾次,可以用展開的方法提高運行效率,。當循環(huán)展開后,,不需要循環(huán)計數(shù)器和相關的跳轉(zhuǎn)語句,雖然代碼的長度有所增加,,但是得到了更高的執(zhí)行效率,。
1.4 除法和求余
ARM指令集中沒有提供整數(shù)的除法,除法是由C語言函數(shù)庫中的代碼(符號型_rt_sdiv和無符號型的_rt_udiv)實現(xiàn)的,。一個32位數(shù)的除法需要20~140個周期,,依賴于分子和分母的取值。除法操作所用的時間是一個時間常量乘每一位除法所需要的時間:
Time(分子/分母)=C0+C1×log2(分子/分母)
=C0+C1×(log2(分子)-log2(分母))
由于除法的執(zhí)行周期長,,耗費的資源多,,程序設計中應當盡量避免使用除法。以下是一些避免調(diào)用除法的變通辦法:
(1)在某些特定的程序設計時,,可以把除法改寫為乘法,。例如:(x/y)>z,在已知y是正數(shù)而且y×z是整數(shù)的情況下,,就可以寫為x>(z×y),。
(2)盡可能使用2的次方作為除數(shù),編譯器使用移位操作完成除法,,如128就比100更加適合,。在程序設計中,使用無符號型的除法要快于符號型的除法,。
(3)使用求余運算的一個目的是為了按模計算,,這樣的操作有時可以使用if的判斷語句來完成,考慮如下的應用:
(4)對于一些特殊的除法和求余運算,,采用查找表的方法也可以獲得很好的運行效果,。
在除以某些特定的常數(shù)時,編寫特定的函數(shù)完成此操作會比編譯產(chǎn)生的代碼效率高很多,。ARM的C語言庫中就有二個這樣的符號型和無符號型數(shù)除以10的函數(shù),,用來完成十進制數(shù)的快速運算。在toolkit子目錄的examples\explasm\div.c和examples\thumb\div.c文件中,,有這二個函數(shù)的ARM和Thumb版本。
2 面向ARM的程序優(yōu)化在嵌入式TCP/IP協(xié)議實現(xiàn)中的應用
筆者采用ATMEL公司的AT91RM9200微處理器,配合以太網(wǎng)物理層驅(qū)動芯片(DM9161)構建面向網(wǎng)絡的嵌入式系統(tǒng)硬件平臺,,如圖2所示,。在此平臺上,實現(xiàn)基于ARM微處理器的嵌入式TCP/IP協(xié)議處理,。
基于ARM的嵌入式系統(tǒng)直接面向以太網(wǎng)數(shù)據(jù),,典型的以太網(wǎng)數(shù)據(jù)封裝格式如圖3所示。根據(jù)以上的優(yōu)化方法,,在變量定義時需要考慮最佳的存儲器布局,,使得各種類型的變量能以32位的空間位基準對齊,對于功能函數(shù)中參加運算的數(shù)據(jù)應盡量采用32位的數(shù)據(jù)進行處理,。
嵌入式TCP/IP協(xié)議的實現(xiàn)通常采用Linux中的TCP/IP網(wǎng)絡結構層次,。TCP/IP協(xié)議實現(xiàn)網(wǎng)絡層和控制層的ARP/RARP、IP,、ICMP,、TCP、UDP等協(xié)議,,直接為HTTP,、SMTP、FTP,、TELNET等這樣的應用層協(xié)議提供支持,。每個系統(tǒng)都需要具體定義應用層程序和協(xié)議軟件之間的接口。
協(xié)議處理的一般流程如圖4所示,。協(xié)議處理過程中需要多次條件判斷,,對IP地址和TCP數(shù)據(jù)的校驗和處理循環(huán)比較是無法避免的,因此可以充分利用“與0比較”的條件判斷和“減到0”的循環(huán)來優(yōu)化程序設計,。
3 結束語
除了以上所述的面向ARM的程序優(yōu)化的原則和方法以外,,C語言程序設計本身還有很多程序優(yōu)化的方法。在上述基于ARM嵌入式系統(tǒng)硬件平臺的系統(tǒng)開發(fā)過程中,,充分利用面向ARM的C程序優(yōu)化設計方法,,可將TCP/IP協(xié)議處理模塊的可執(zhí)行代碼減少5%以上,執(zhí)行效率有所提高,。實踐證明,,基于ARM的嵌入式系統(tǒng)設計中,在透徹了解ARM匯編指令的特性和編譯過程的基礎上,,合理地使用程序優(yōu)化的原則和方法可以有效地提高編譯效率和代碼執(zhí)行效率,。
參考文獻
1 竇振中.嵌入式處理器ARM技術及芯片.世界電子元器件,2003,;(3)
2 劉侃,,張永泰,,劉洛琨.ARM程序設計優(yōu)化策略與方法.單片機與嵌入式系統(tǒng)應用,2004,;(4)
3 杜春雷.ARM體系結構與編程.北京:清華大學出版社,,2003
4 劉崢嶸,張智超.嵌入式Linux應用開發(fā)詳解.北京:機械工業(yè)出版社,,2004
5 Comer D E,,Stevens D L.Internetworking With TCP/IP Vol Ⅱ:Design,Implementation,,and Internals.Pearson Prentice Hall,,USA,2000
6 Peter Van Der Linden.Expert C Programming:Deep C secret.Prentice Hall,,USA,,1994