《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 解決方案 > 最小化ARM Cortex

最小化ARM Cortex

2018-06-04
關(guān)鍵詞: Thumb-2 控制器 節(jié)能

1 理解Thumb-2
首先,,讓我們從一個看起來并不明顯的起點開始討論節(jié)能技術(shù)—指令集,。所有Cortex-M CPU都使用Thumb-2指令集,,它融合了32位ARM指令集和16位Thumb指令集,,并且為原始性能和整體代碼大小提供了靈活的解決方案,。在Cortex-M內(nèi)核上一個典型的Thumb-2應(yīng)用程序與完全采用ARM指令完成的相同功能應(yīng)用程序相比,,代碼大小減小到25%之內(nèi),,而執(zhí)行效率達到90%(當針對運行時間進行優(yōu)化后),。
Thumb-2中包含了許多功能強大的指令,,能夠有效減少基礎(chǔ)運算所需的時鐘周期數(shù),。減少時鐘周期數(shù)意味著現(xiàn)在你能夠以更少的CPU功耗完成手頭的工作。例如,,假設(shè)要完成一個16位乘法運算(如圖1所示),。在一個8位8051內(nèi)核的MCU上執(zhí)行這個運算將需要48個時鐘周期,并占用48字節(jié)的Flash存儲空間,。使用一個16位內(nèi)核的MCU(例如C166)執(zhí)行相同的運算需要8個時鐘周期,,并占用8字節(jié)的Flash存儲空間。相比之下,,在使用Thumb-2指令集的Cortex-M3內(nèi)核中完成相同運算僅僅需要1個時鐘周期,,并占用2字節(jié)的Flash存儲空間。Cortex-M3內(nèi)核能夠通過使用更少時鐘周期完成相同任務(wù),,節(jié)省了能耗;同時也能夠通過占用極少的Flash存儲空間,,減少Flash存儲器訪問次數(shù),實現(xiàn)最終能耗節(jié)省的目標(除此之外,,更小的應(yīng)用代碼也使得系統(tǒng)可以選擇更小的Flash存儲器,,進一步降低整體系統(tǒng)功耗)。

46943af07e5f4e2c19a7ace2e4660409.jpg

2 中斷控制器節(jié)能技術(shù)
Cortex-M架構(gòu)中的中斷控制器(Nested Vectored Interrupt Controller or NVIC)在降低CPU功耗方面也起著關(guān)鍵作用,。以前的ARM7-TDMI需要“多達”42個時鐘周期,,Cortex-M3 NVIC從中斷請求發(fā)生到執(zhí)行中斷處理代碼僅需要12個時鐘周期的轉(zhuǎn)換時間,這顯然提高了CPU執(zhí)行效率,,降低了CPU時間浪費,。除了更快進入中斷處理程序之外,NVIC也使得中斷之間切換更加高效,。
在ARM7-TDMI內(nèi)核實現(xiàn)中,,需要先花費數(shù)個時鐘周期從中斷處理程序返回主程序,然后再進入到下一個中斷處理程序中,,中斷服務(wù)程序之間的“入棧和出棧(push-and-pop)”操作就要消耗多達42個時鐘周期。而Cortex-M NVIC采用更有效的方法實現(xiàn)相同任務(wù),,被稱為“末尾連鎖(tail-chaining)”,。這種方法使用僅需6個時鐘周期處理就能得到允許,進入下一個中斷服務(wù)程序的所需信息,。采用末尾連鎖,,不需要進行完整的入棧和出棧循環(huán),這使得管理中斷過程所需的時鐘周期數(shù)減少65%(如圖2所示)。
3 存儲器節(jié)能注意事項
存儲器接口和存儲器加速器能夠明顯影響CPU功耗,。代碼中的分支和跳轉(zhuǎn)可能會對為CPU提供指令的流水線產(chǎn)生刷新影響,,在這種情況下CPU需要延遲幾個時鐘周期以等待流水線重新完成填充。在Cortex-M3或Cortex-M4內(nèi)核中,,CPU配備了一條3級流水線,。刷新整條流水線將導(dǎo)致CPU延遲3個時鐘周期,如果有Flash存儲器等待狀態(tài)發(fā)生,,時間會更長,,以便完成重新填充過程。這些延遲完全浪費功耗,,沒有任何功用,。為了幫助減少延遲,Cortex-M3和M4內(nèi)核包括一個被稱為推測取指(Speculative Fetch)的功能,,即它在流水線中對分支進行取指的同時也取指可能的分支目標,。如果可能的分支目標命中,那么推測取指能夠把延遲降低到1個時鐘周期,。雖然這個特性是有用的,,但顯然不夠,許多Cortex-M產(chǎn)品供應(yīng)商都增加了自己的IP以增強這個能力,。
舉個例子,,即使在廣受歡迎的ARM Cortex-M類的MCU中指令緩沖的運行方法也有不同。采用簡單指令緩沖的MCU,,例如來自Silicon Labs的EFM32產(chǎn)品,,可以存儲128x32(512 bytes)的目前大多數(shù)當前執(zhí)行指令(通過邏輯判斷請求的指令地址是否在緩沖中)。EFM32參考手冊指出典型應(yīng)用在這個緩沖中將有超過70%的命中率,,這意味著極少的Flash存取,、更快的代碼執(zhí)行速度和更低的整體功耗。相比之下,,采用64x128位分支緩沖器的ARM MCU能夠存儲最初的幾條指令(取決于16位或32位指令混合,,每個分支最多為8條指令,最少為4條指令),。因此,,分支緩沖實現(xiàn)能夠在1個時鐘周期內(nèi)為命中緩沖的任何分支或跳轉(zhuǎn)填充流水線,從而消除了任何CPU時鐘周期延遲或浪費,。兩種緩沖技術(shù)與同類型沒有緩沖特性的CPU相比,,都提供了相當大的性能改善和功耗減少。
4 M0+內(nèi)核探究
對功耗敏感型應(yīng)用來說每個nano-watt都很重要,,Cortex-M0+內(nèi)核是一個極好的選擇,。M0+基于Von-Neumann架構(gòu)(而Cortex-M3和Cortex-M4內(nèi)核是Harvard結(jié)構(gòu)),,這意味著它具有更少的門電路數(shù)量實現(xiàn)更低的整體功耗,并且僅僅損失極小的性能(Cortex-M0+的0.93DMIPS/MHz對比Cortex-M3/M4的1.25DMIPS/MHz),。它也使用Thumb-2指令集的更小子集(如圖3所示),。幾乎所有的指令都有16位的操作碼(52x16位操作碼和7x32位操作碼;數(shù)據(jù)操作都是32位的),這使得它可以實現(xiàn)一些令人感興趣的功能選項以降低CPU功耗,。

b99ef3bbd3c86dea4fbc65488f517ec0.jpg

節(jié)能性功能選項首要措施就是減少Flash存儲訪問次數(shù),。一個主要的16位指令集意味著你可以交替時鐘周期訪問Flash存儲器(如圖4所示),并且可以在每一次Flash存儲訪問中為流水線獲取兩條指令,。假設(shè)你在存儲器中有兩條指令并對齊成一個32位字;在指令沒有對齊的情況下,,Cortex-M0+將禁止剩余的一半總線以節(jié)省每一點能耗。

7641e2271036522911659387242dd2d4.jpg

此外,,Cortex-M0+內(nèi)核也可以通過減少到兩級流水線而降低功耗,。在通常的流水線處理器中,下一條指令在CPU執(zhí)行當前指令時被取出,。如果程序產(chǎn)生分支,,并且不能使用下一條取出的指令,那么被用于取指(分支影子緩沖器)的功耗就被浪費了,。在兩級流水線中,,這個分支影子緩沖器縮小了,因此能耗得以節(jié)省(雖然僅有少量),,這也意味著在發(fā)生流水線刷新時,,僅需要不到一個時鐘周期就能重新填充流水線(如圖5所示)。

335a61dd569da5f067492b047d3270eb.jpg

5 利用GPIO端口節(jié)能
Cortex-M0+內(nèi)核提供節(jié)能特性的另一個地方是它的高速GPIO端口,。在Cortex-M3和Cortex-M4內(nèi)核中,,反轉(zhuǎn)一位或GPIO端口的過程是“讀-修改-寫”一個32位寄存器。雖然Cortex-M0+也可以使用這個方法,,但是它有一個專用的32位寬I/O端口,,可以采用單時鐘周期訪問GPIO,使得它能夠高效的反位/引腳反轉(zhuǎn),。注意:在Cortex-M0+上,,這是一個可選的特性,并不是所有供應(yīng)商都具備了這個有用的GPIO特性,。
6 CPU的休眠模式
減少CPU功耗的最有效方法之一是關(guān)閉CPU自身,。在Cortex-M架構(gòu)中有多種不同的休眠模式,每一種都在功耗和再次執(zhí)行代碼的啟動時間之間進行了折中考慮(如圖6所示),。它也能夠讓CPU在完成中斷服務(wù)后自動進入某個休眠模式,,而不需要執(zhí)行任何代碼去完成這個工作。這種方法可以為那些常見于超低功耗應(yīng)用中的任務(wù)節(jié)省CPU時鐘周期,。
在深度睡眠模式下,,也可以使用喚醒中斷控制器(WIC)來減輕NVIC負擔(dān)。在使用WIC時,,為實現(xiàn)低功耗模式下外部中斷喚醒CPU,,無需為NVIC提供時鐘。
7 自主型外設(shè)可減輕CPU負荷
自主型片上外設(shè)具有降低功耗的優(yōu)點,。大多數(shù)MCU供應(yīng)商已經(jīng)在本身產(chǎn)品架構(gòu)中實現(xiàn)了外設(shè)之間的自主型交互,,例如Silicon Labs的EFM32 MCU使用的外設(shè)反射系統(tǒng)(PRS)。自主型外設(shè)能夠?qū)崿F(xiàn)十分復(fù)雜的外設(shè)動作鏈(觸發(fā)而不是資料傳輸),,同時保持CPU處于休眠狀態(tài),。例如使用EFM32 MCU上的PRS功能,應(yīng)用能夠被配置為在CPU休眠的低功耗模式下,,當片上比較器檢測電壓值超過了其預(yù)設(shè)的門限值,,則觸發(fā)一個定時器去開始減數(shù)。當定時器到達0時,,觸發(fā)DAC去開始輸出 — 所有事件發(fā)生過程中CPU可以一直保持休眠狀態(tài),。
自動進行如此復(fù)雜的交互,這使得外設(shè)之間能夠完成大量工作而無需CPU參與,。此外,,帶有內(nèi)建智能的外設(shè)(例如傳感器接口或脈沖計數(shù)器)能夠通過預(yù)設(shè)的條件用于中斷喚醒CPU,例如在累積10個脈沖時中斷喚醒CPU,。在這個例子中,,當CPU被特定中斷喚醒時,它明確知道需要做什么,,而不需要檢查計數(shù)器或寄存器以判別發(fā)生了什么,,因此可以節(jié)省相當多的時鐘周期,更好的完成其他重要任務(wù),。
我們已經(jīng)介紹了多種易于實現(xiàn)的減輕Cortex-M設(shè)備上CPU功耗的方法,。當然,還有其他因素影響功耗,,例如用于加工設(shè)備的處理工藝或者用于存儲應(yīng)用代碼的存儲器技術(shù),。工藝和存儲技術(shù)能夠顯著影響運行時功耗和低功耗模式下的漏電,因此也應(yīng)當納入嵌入式開發(fā)人員的整體功耗設(shè)計考慮之中,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。