本文通過一個真實的嵌入式項目進行說明。文中的嵌入式系統(tǒng)用的是arm處理器+WinCE" title="WinCE">WinCE平臺,,項目的目的是要把WinCE平臺從舊版本移植到WinCE6.0平臺上。但結(jié)果是這個WinCE系統(tǒng)在啟動的時候經(jīng)常會出現(xiàn)失敗,而且每次失敗的原因都莫明其妙和不盡相同,。這使到我們開發(fā)團隊每個人在啟動WinCE系統(tǒng)時都心驚肉跳,非常擔心系統(tǒng)又再一次出現(xiàn)讓人意想不到的失敗,。這種頻繁的啟動失敗對開發(fā)團隊來說顯然是一種讓人難以忍受的折磨,。
為什么會出現(xiàn)這種情況呢?經(jīng)過幾個晚上通宵達旦的加班分析和研究,原來主因是系統(tǒng)的引導過程,、內(nèi)核加載過程,、OAL啟動過程和硬件驅(qū)動加載過程時都存在可能導致的失敗的隱憂,。本文通過對以上因素進行分析,并提出相應的解決辦法,。但由于WinCE啟動失敗會非常取決于硬件平臺,,因此在具體應用時需要綜合考慮和分析。
一.什么是WinCE啟動過程?
WinCE系統(tǒng)在啟動時一般需要三個基本元素:引導初始化,、內(nèi)核加載和OAL初始化等,。它們的作用是要完成引導過程的初始化和操作系統(tǒng)執(zhí)行環(huán)境的初始化。其中引導初始化是由引導工具BootLoader完成,,主要是完成板級,、片級的初始化。例如,,通過設置寄存器來完成硬件的初始化,,如設置時鐘、設置中斷控制寄存器,、完成內(nèi)存映射和初始化MMU的工作方式等,。內(nèi)核加載是指將操作系統(tǒng)內(nèi)核映像從只讀存儲器加載或者拷貝到系統(tǒng)的RAM中并執(zhí)行。OAL(OEM Adaption Layer,,即原始設備制造商適配層)是位于操作系統(tǒng)的內(nèi)核與硬件之間的適配層,,也是連接系統(tǒng)內(nèi)核與硬件的樞紐,它具有屏蔽硬件設備細節(jié)以及抽象硬件功能的作用,。而OAL初始化則是指通過一組函數(shù)來體現(xiàn)出0AL屏蔽和抽象硬件設備的作用,。
此外,如果要WinCE系統(tǒng)成為完整的操作系統(tǒng),,還得加上硬件驅(qū)動程序,、硬件接口程序和應用程序組。因此,,即使在一個簡單的嵌入式系統(tǒng)里,,WinCE系統(tǒng)啟動時是需要加載內(nèi)核和加載許多組件或驅(qū)動程序。
現(xiàn)在讓我們來看看WinCE系統(tǒng)在啟動時調(diào)用函數(shù)的順序:①CPU執(zhí)行引導向量,,跳轉(zhuǎn)到硬件初始化代碼,,即Startup函數(shù)。②在start up函數(shù)完成最小硬件環(huán)境初始化后跳轉(zhuǎn)到KernelStart函數(shù),,來對內(nèi)核進行初始化,。③Kernelstart函數(shù)調(diào)用OEMInitDebugSerial完成對調(diào)試串口的初始化;同時調(diào)用0EMInit函數(shù)來完成硬件初始化工作以及設置時鐘、中斷;最后,,調(diào)用OEMGetExtensionDRAM函數(shù)來判斷是否還有另外一塊DRAM,。至此,內(nèi)核加載完畢,。由此可見,,WinCE系統(tǒng)啟動的重中之重是Startup函數(shù)的正確加載,,如果這個Startup函數(shù)調(diào)用失敗,則會使到系統(tǒng)在啟動頻繁出錯,。WinCE啟動時調(diào)用函數(shù)順序如下圖所示:
因此,,WinCE啟動失敗可能會存在于引導初始化失敗、內(nèi)核加載失敗,、0AL函數(shù)初始化失敗,、驅(qū)動程序加載失敗、組件加載失敗和應用程序加載失敗,。也就是說,,WinCE啟動失敗一方面可能是在Startup函數(shù)的處理上,例如引導初始化和OAL初始化,。另一方面還存在于驅(qū)動程序和組件自啟動的失敗上,,例如基本的驅(qū)動程序、注冊表配置或自運行的程序等,。
就不能被使用,。所以,當注冊表在啟動時加載錯誤或者注冊表配置有錯誤時,,也是會導致WinCE系統(tǒng)啟動失敗的,。
二.導致WinCE啟動失敗的主因分析
Windows CE在啟動時為什么會失敗呢?這個問題也一直讓我頭痛。因為Windows CE啟動失敗既有軟件因素,,也有硬件因素,。例如,可能是WinCE的啟動引導過程有問題,、也許是內(nèi)核加載時有問題,、也許是OAL函數(shù)調(diào)用的隱性問題或者硬件設備本身的問題造成的。所以,,解決起來比較麻煩和比較耗時間,,也是最讓我們頭疼的事情,。
一般來說,,解決和分析WinCE啟動失敗有一個原則,就是"先軟后硬"的原則,,也就是說要先分析軟件因素再到硬件因素,。本文主要是在arm微處理器和Windows CE 6.0平臺上進行分析軟件因素造成的失敗。
(1)引導程序BootLoader導致的失敗
在Windows CE系統(tǒng)中,,整個系統(tǒng)的加載啟動任務由BootLoader來完成,,BootLoader是在WinCE內(nèi)核運行之前運行的一段小程序。通過這段小程序,,可以初始化硬件設備,、建立內(nèi)存空間的映射圖和初始化MMU等,。從而將系統(tǒng)的軟硬件環(huán)境帶到一個合適的狀態(tài),為調(diào)用操作系統(tǒng)內(nèi)核準備好環(huán)境,。因此,,只有在引導程序正確的完成自己的任務后,才會將控制權(quán)移交給內(nèi)核,。
在WinCE平臺上,,引導裝載程序是在硬件上執(zhí)行的第一段代碼,通常將引導程序放置在不易丟失的存儲器的開始地址或者是系統(tǒng)冷啟動時PC寄存器的初始值,。如果這段小程序代碼編寫錯誤,,則系統(tǒng)無法完成第一步的引導操作,這是導致啟動系統(tǒng)失敗的第一個因素,。
?、貰ootLoader初始化硬件失敗
BootLoader第一個功能是要實現(xiàn)板級和片級初始化硬件,主要是把CPU初始化到一已知狀態(tài),。在BootLoader目錄下,,會發(fā)現(xiàn)一些.s文件,可能會是init.s或者是reset.s等,,這樣的文件是CPU加電后最先執(zhí)行的代碼,。StartUp 函數(shù)是BootLoader的入口函數(shù)。該函數(shù)一般是使用匯編語言編寫,,與CPU關(guān)系非常緊密,,能完成初始化CPU、內(nèi)存等核心硬件,。然后,,BootLoader在平臺初始化完畢后就可以在不用人工干預的情況下自動加載WinCE內(nèi)核了。但如果BootLoader在初始化硬件時失敗,,就會直接導致系統(tǒng)的啟動失敗了,。
②BootLoader加載內(nèi)核時失敗
一般在平臺調(diào)試完畢后,,BootLoader就會加載WinCE內(nèi)核映像,,這也是BootLoader的功能之一。WinCE內(nèi)核映像文件通常叫做nk.bin,,它是Windows CE二進制數(shù)據(jù)格式文件,,不僅包含了有效的程序代碼,還有按照一定規(guī)則加入的控制信息,。
在系統(tǒng)啟動時BootLoader可以通過兩種不同的方式來加載WinCE內(nèi)核文件nk.bin,。一種是下載模式,另一種是本地啟動模式,。本地啟動模式也稱為自主模式,,即 BootLoader 從目標機上的某個固態(tài)存儲設備上將操作系統(tǒng)加載到 RAM 中運行,,整個過程并沒有用戶的介入。而下載模式則是目標機上的 BootLoader 將通過串口連接或網(wǎng)絡連接等通信手段從主機(Host)下載文件,。當BootLoader正確的把nk.bin解壓到RAM后,,就會把CPU控制權(quán)交給CE內(nèi)核。因此,,如果Boot Loader處理不當,,就可能會造成加載和解壓nk.bin文件的失敗,這樣自然也就會造成系統(tǒng)啟動的失敗了,。
(2)OAL導致的啟動失敗
OAL(OEM Adaptation Layer)是指OEM 適配層,,它是位于Windows CE內(nèi)核和硬件之間的一層適配層,是OAL各個模塊代碼被編譯后(.lib)和其它內(nèi)核庫鏈接到一起形成Windows CE的內(nèi)核可執(zhí)行文檔NK.EXE,。OAL包括了和系統(tǒng)硬件通訊的最底層代碼,,內(nèi)核是通過OAL跟硬件進行交互。邏輯上,,OAL是介于CE內(nèi)核和設備硬件之間的一個代碼層,,是一個抽象的概念。物理上,,OAL和其它一些庫一起鏈接成可執(zhí)行文件,。
與以前的Win CE舊版本不同的是,在Win CE 6.0中內(nèi)核(Kenerl)和OEM代碼被分成oal.exe,、kernel.dll和kitl.dll三個部分,,其中啟動代碼(startup)和 OAL層的實現(xiàn)部分不再與內(nèi)核鏈接生成NK.exe,取而代之的是啟動代碼(startup)和硬件相關(guān)且獨立于內(nèi)核的OAL層的實現(xiàn)部分編譯成 oal.exe;而與內(nèi)核相關(guān)且獨立于硬件的OAL層代碼包含在kernel.dll中,,內(nèi)核無關(guān)傳輸層(KITL)的支持代碼從OAL層分離出來編譯成 kitl.dll,。因此,WinCE6.0的啟動只與oal.exe和kernel.dll有關(guān),。至于kitl.dll,,只有將操作系統(tǒng)編譯成具有 KITL功能時才用到。這樣做的好處是可以單獨升級OAL,,但整體的OAL結(jié)構(gòu)并沒有改變,。
①OAL初始化硬件時失敗
oal.exe是通過Startup函數(shù)來完成硬件的初始化,。一般來說,,OAL的啟動代碼(Startup.s)與該硬件平臺的Bootloader的啟動代碼(Startup.s)是可以共享的。例如,,其中PreInit 函數(shù)主要完成將arm處理器工作模式切換到管理員模式,同時關(guān)閉MMU,,并檢測系統(tǒng)啟動原因,。如果是熱啟動,,即在該函數(shù)調(diào)用之前已經(jīng)啟動過 Bootloader的啟動代碼(Startup.s),相當基本硬件初始化已經(jīng)完成,,則可直接跳轉(zhuǎn)到OALStartUp函數(shù)中;否則需要進行硬件中斷屏蔽,、內(nèi)存、系統(tǒng)時鐘頻率,、電源管理等硬件的基本初始化過程,。
在StartUp 函數(shù)初始化CPU等核心硬件并跳轉(zhuǎn)到Main函數(shù)后,系統(tǒng)就會轉(zhuǎn)入C語言代碼執(zhí)行環(huán)境,。這時Main函數(shù)分為3個模塊:BLCOMMON,、Download Function、FLASH Function,。其中BLCOMMON模塊是由微軟提供的,,執(zhí)行一些邏輯上的功能。而Download Function,、FLASH Function中的函數(shù)與硬件平臺息息相關(guān),。因此,對于每種硬件平臺都要將函數(shù)的實現(xiàn)進行適當修改,,這種修改是需要對硬件非常熟悉的,。當修改出現(xiàn)錯誤時,就會導致系統(tǒng)啟動失敗了,。
在硬件平臺初始化完成后,,oal.exe的啟動任務基本完成,余下的啟動工作由內(nèi)核相關(guān)且獨立于內(nèi)核的OAL層實現(xiàn)體kernel.dll接管,。也就是說,,這時Startup會調(diào)用OALStartUp函數(shù),OALStartUp函數(shù)主要完成將OEMAddressTable表傳遞給內(nèi)核,,然后調(diào)用KernelStart函數(shù)跳轉(zhuǎn)到內(nèi)核,。因此,如果此時OAL的啟動Startup函數(shù)調(diào)用失敗的話,,就也會導致系統(tǒng)的啟動失敗了,。
這里需要特別注意的是,Bootloader和OAL中均包含啟動Startup函數(shù),。它的功能大致相同,,都是要初始化最小硬件環(huán)境。Bootloader的啟動Startup函數(shù)是在為自己的執(zhí)行準備硬件環(huán)境,,OAL的啟動Startup函數(shù)則是為kernel的執(zhí)行準備硬件環(huán)境,。由于這兩種硬件環(huán)境要求基本相同,所以它們的代碼也有很大部分可以相互借鑒。但應該明白Bootloader與OAL在物理上是獨立的,,它們并不是同一段代碼,。當然,如果可以確定這一部分在Bootloader已經(jīng)初始化過如熱啟動,,則在OAL中不必重復執(zhí)行,。
②OAL入口位置定位失誤導致的失敗
從上述WinCE啟動流程可知,,在OAL初始化硬件后而在內(nèi)核啟動前,,系統(tǒng)是需要調(diào)用KernelStart函數(shù)來跳轉(zhuǎn)到內(nèi)核。因此,,這里有一個要點,,就是WinCE需要找到OAL的入口位置,然后才能調(diào)用入口函數(shù)與全局塊進行指針交換,,這樣內(nèi)核才能使用OAL層中的信息,,同樣OAL層也才能訪問內(nèi)核(kernel)導出的函數(shù)。
OAL入口位置函數(shù)的調(diào)用實際上是通過OEMGLOBAL結(jié)構(gòu)體實現(xiàn)的,,實際調(diào)用位置為OEMInitDebugSerial和OEMInit,。也就是說,OEMGLOBAL結(jié)構(gòu)體構(gòu)建了內(nèi)核和OAL層之間進行通信的橋梁,。OEMGLOBAL結(jié)構(gòu)體定義了OAL層所有必須的函數(shù),,該結(jié)構(gòu)體在oemglobal.c文件中被初始化,并會被編譯在OEMMain.lib和 OEMMain_StaticKITL.lib兩個庫中,。如果OAL鏈接這兩個庫,,則必須要有正確的該結(jié)構(gòu)體的函數(shù)實現(xiàn)體,同時還需要調(diào)用ARMSetup來設置物理地址和非緩沖的虛擬內(nèi)存地址的映像,、arm中斷向量以及內(nèi)核模式所需要的堆棧,、調(diào)用OEMInitDebugSerial函數(shù)初始化調(diào)試串口、調(diào)用OEMInit進行平臺初始化等,。否則,,如果OAL入口位置函數(shù)有誤,則內(nèi)核和OAL層之間的訪問就會失敗,,也就會導致系統(tǒng)在啟動時出錯和失敗,。
三.導致的WinCE啟動失敗的其它相關(guān)因素
(1)驅(qū)動程序加載錯誤導致的失敗
在調(diào)試中,我們還發(fā)現(xiàn)系統(tǒng)在啟動時執(zhí)行到OEMInit時也經(jīng)常會出現(xiàn)錯誤,。一般來說,,系統(tǒng)調(diào)用OEMInit運行完成之后,就會跳回Private或Public下的代碼繼續(xù)運行,,然后再啟動device.exe加載各個驅(qū)動程序,。由于這一段代碼是微軟提供的default代碼,,基本上不會有問題。所以,,我們就有理由懷疑如果加載的驅(qū)動程序出了問題,,是也會造成系統(tǒng)啟動失敗的,。一般來說,,這些加載的驅(qū)動程序主要是 BSP中的Audio、Display,、SDMMC,、Serial、USB等,。
(2)啟動時加載配置有誤的注冊表導致的失敗
在WinCE中注冊表在啟動過程中也扮演著非常重要的角色,。與桌面Windows一樣,WinCE注冊表(Registry)也是一個系統(tǒng)數(shù)據(jù)庫,用來保存應用程序,、驅(qū)動程序,、用戶的設定以及其它一些系統(tǒng)的配置信息,通常還存儲著操作系統(tǒng)運作和調(diào)用程序的狀態(tài)信息,。例如,,每個用戶的配置文件、安裝的應用程序以及每個應用程序可以創(chuàng)建的文檔類型,、文件夾和應用程序圖標的屬性表設置,、系統(tǒng)上存在哪些硬件以及正在使用哪些端口等。
因此,,對于硬件外設來說注冊表是一個記錄驅(qū)動程序設置和位置的數(shù)據(jù)庫,。當WinCE系統(tǒng)在啟動時需要啟動某些必要的硬件設備時,就會需要使用外設驅(qū)動程序,。但如果在WinCE中這個外設驅(qū)動是獨立于操作系統(tǒng)的,,WinCE系統(tǒng)就需要知道從哪里找到它們,例如文件名,、版本號,、其它設置和信息。因此,,注冊表上沒有此設備的記錄時,,它們就不能被使用。所以,,當注冊表在啟動時加載錯誤或者注冊表配置有錯誤時,,也是會導致WinCE系統(tǒng)啟動失敗的。