《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 解決方案 > Navigator Runtime幫助您最大限度提高多內(nèi)核效率

Navigator Runtime幫助您最大限度提高多內(nèi)核效率

2012-05-04
作者:德州儀器

作者:

Eric Biscondi  德州儀器系統(tǒng)與架構(gòu)經(jīng)理

Tom Flanagan  德州儀器技術戰(zhàn)略總監(jiān)

Frank Fruth  德州儀器軟件開發(fā)總監(jiān)

Zhihong Lin  德州儀器戰(zhàn)略市場營銷經(jīng)理

Filip Moerman   德州儀器通信基礎設施及多內(nèi)核高級系統(tǒng)架構(gòu)師

引言
   多內(nèi)核處理器給編程人員帶來了新的挑戰(zhàn),。在多內(nèi)核項目中,,半數(shù)以上的成本來自軟件開發(fā)。多內(nèi)核編程的具體挑戰(zhàn)是非對稱多內(nèi)核處理器 (AMP),,因為其中相同的器件中駐留著 RISCDSP 內(nèi)核等不同類型的處理單元,。這主要是因為操作系統(tǒng) (OS) 對資源管理與負載均衡的支持非常薄弱甚至根本沒有,導致可擴展性差與資源利用率低,。德州儀器 (TI) 創(chuàng)新型 KeyStone II 多內(nèi)核架構(gòu)提供專用硬件幫助實現(xiàn)調(diào)度與負載均衡功能,,可簡化多內(nèi)核可編程性。KeyStone II通過這些措施實現(xiàn)了多內(nèi)核編程的性能突破,。    

AMP 編程挑戰(zhàn)
    隨著多內(nèi)核技術的演進,,越來越多的 SoC 提供對稱多內(nèi)核架構(gòu)實現(xiàn)低成本以及更高的性能。典型的 AMP 具有運行在不同操作系統(tǒng)上的異構(gòu)內(nèi)核,、硬件加速器以及非所有內(nèi)核共享的分布式存儲器,。在對稱多內(nèi)核處理器 (SMP) 應用中,內(nèi)核完全相同并運行支持相同共享存儲器架構(gòu)的相同操作系統(tǒng),,因此使用操作系統(tǒng)帶來的內(nèi)核間通信,、調(diào)度以及負載均衡功能相對而言更為直接。AMP 器件的編程需要更高的并行編程技能,,才能通過控制和協(xié)調(diào)不同的內(nèi)核及操作系統(tǒng)實現(xiàn)可滿足單內(nèi)核或 SMP 編程需求的高穩(wěn)定性及高性能,。

    傳統(tǒng)非對稱多內(nèi)核處理要求在編譯時對多內(nèi)核資源進行靜態(tài)分區(qū)。這樣做難度往往較大,,因為運行時的軟件加載不能提前判別,,尤其是 4G LTE、LTE Advanced 以及云計算等尖端技術,。一般解決辦法是預留額外的空間,,以確保系統(tǒng)在最惡劣應用條件下也能正確運行。資源過度分配的不利影響是資源利用不足,,最終會導致產(chǎn)品成本上升,。另一方面,首次使用時或者引入新功能、需要現(xiàn)場強化或需求改更時,,手動重新分區(qū)及軟件優(yōu)化會帶來大量的軟件工作。

    同步性及處理器間通信 (IPC) 的效率在多內(nèi)核編程過程中至關重要,。缺乏對各種同步性與 IPC 機制的適當硬件支持,,會因過多的軟件開銷而導致多內(nèi)核利用低下,降低系統(tǒng)性能,。

    這對 AMP 多內(nèi)核系統(tǒng)而言尤為如此,,因為難以實現(xiàn)軟件可擴展性與靈活性。

多內(nèi)核導航器助力實現(xiàn)創(chuàng)新
多內(nèi)核導航器是一種基于數(shù)據(jù)包的創(chuàng)新基礎設施,,支持數(shù)據(jù)傳輸與多內(nèi)核控制,。TI 異構(gòu) KeyStone 架構(gòu)完美整合了 DSP Core-Pac、ARM® CorePac,、硬件 AccelerationPac 以及 I/O 外設,。它們不但可通過 TeraNet 進行物理互連,而且可通過多內(nèi)核導航器進行邏輯互連,。在 TI KeyStone II 架構(gòu)中,,多內(nèi)核導航器不但包含可容納 1.6 萬個硬件隊列的隊列管理器,通常存放指向各種數(shù)據(jù)包(由描述符及數(shù)據(jù)有效負載組成)的指針,,而且還包含 8 個 3,200 MIPS uRISC,、用于傳輸數(shù)據(jù)的數(shù)據(jù)包 DMA 以及支持 100 萬個描述符的硬件數(shù)據(jù)結(jié)構(gòu)。此外,,還可在 AccelerationPac 與 I/O 子系統(tǒng)中構(gòu)建數(shù)據(jù)包 DMA,,這樣多內(nèi)核導航器無需內(nèi)核干預,便可將數(shù)據(jù)從任何單元傳輸至任何端點,。

    多內(nèi)核導航器為 CorePac,、AccelerationPac 以及 I/O 提供統(tǒng)一接口,可將硬件隊列用于圖 1 所示的不同系統(tǒng)端點,。這可為所有 IP 塊提供支持通用通信方式的 AMP 系統(tǒng),。多內(nèi)核導航器可充分利用內(nèi)建在隊列管理器中的 uRISC 內(nèi)核來管理流量路由、IPC,、資源管理,、調(diào)度以及負載均衡,從而可優(yōu)化和加速數(shù)據(jù)流,。各種任務可由隊列管理器按需派送和分配給負載最輕的內(nèi)核或 IP 子系統(tǒng),。
 多內(nèi)核導航器子系統(tǒng)
圖 1:多內(nèi)核導航器子系統(tǒng)

    多內(nèi)核導航器可提供高效率內(nèi)核間通信機制。硬件隊列與數(shù)據(jù)包 DMA 是 IPC 的基本構(gòu)建塊,。某些隊列經(jīng)過精心設計,,可對 IPC 內(nèi)核產(chǎn)生中斷。多內(nèi)核導航器內(nèi)部的 uRISC 內(nèi)核使用可編程中斷通知功能實現(xiàn)自動隊列監(jiān)控與管理。多內(nèi)核導航器可充分限制軟件開銷,,降低同步時延,,并可提高 IPC 吞吐量。此外,,它還支持無鎖編程模型,。圖 2 是使用多內(nèi)核導航器的 IPC 示意圖。

使用多內(nèi)核導航器實現(xiàn)處理器間的通信
 
圖 2:使用多內(nèi)核導航器實現(xiàn)處理器間的通信

Navigator Runtime 幫助您最大限度提高多內(nèi)核效率                     

    雖然采用 TI KeyStone II 硅芯片架構(gòu)已經(jīng)解決了多內(nèi)核挑戰(zhàn),,但只有應用軟件開發(fā)人員充分發(fā)揮多內(nèi)核性能,,才能真正實現(xiàn)這種硬件架構(gòu)的各種優(yōu)勢。在軟件方面,,TI 正在投資標準編程方法,,讓支持多內(nèi)核導航器的 KeyStone II 的各項優(yōu)勢充分體現(xiàn)在應用中。行業(yè)中及學術界已經(jīng)涌現(xiàn)出大量有望成為標準的多內(nèi)核編程趨勢,。所有這些方法的共同之處在于應用軟件開發(fā)人員先通過語言表達,,采用特定手段描述其應用的并行性,然后再映射至底層運行時,。該運行時可掌控將過程映射至底層硬件架構(gòu),。

    Navigator Runtime 是一個可擴展薄軟件層,可幫助多內(nèi)核導航器實現(xiàn)更高水平的并行編程性能,,提高可擴展性,、移植性及效率。對 AMP 編程挑戰(zhàn)而言,,多內(nèi)核導航器和 Navigator Runtime 的完美結(jié)合是一款功能強大的獨特解決方案,。

    Navigator Runtime 的主要功能是將工作任務分配給多個內(nèi)核。先將工作任務放入待執(zhí)行的虛擬隊列,,然后由嵌入在多內(nèi)核導航器硬件中的 uRISC 內(nèi)核執(zhí)行中央調(diào)度,。調(diào)度器根據(jù)優(yōu)先級、原子性以及本地性選擇工作任務,,然后分配給軟件分配器,。軟件分配器是駐留在每一個內(nèi)核中的 Navigator Runtime 的必備部件。分配器隨即將每項工作任務發(fā)送至處理元件執(zhí)行,,處理元件可能是內(nèi)核,、AccelerationPac 或 I/O 端點中的線程。

充分發(fā)揮多內(nèi)核導航器的作用,,工作任務制定者及使用者的抽象可由 Navigator Runtime 完成,。將嵌入式 uRISC 內(nèi)核用于集中調(diào)度工作(無需消耗主 DSP 或 ARM® 內(nèi)核的 MIPS),可實現(xiàn)低開銷,、低時延以及每個內(nèi)核 25 萬個任務的高吞吐量,,實現(xiàn)無與倫比的并行編程性能。圖 3 主要展示 Navigator Runtime 概念及其與多內(nèi)核導航器的互動。


 Navigator Runtime 與多內(nèi)核導航器的互動
圖 3:Navigator Runtime 與多內(nèi)核導航器的互動

    多內(nèi)核性能可使用加速性進行測量,,加速性的定義是用單內(nèi)核串行執(zhí)行時間除以多內(nèi)核執(zhí)行時間,。在理想條件下,8 內(nèi)核系統(tǒng)的加速性等于 8,。但在實際中,,由于多內(nèi)核總線判優(yōu)、存儲器訪問時延,、高速緩存一致性管理、同步以及 IPC 等多內(nèi)核開銷的影響,,典型加速性與理想條件相距甚遠,。Navigator Runtime 消耗的開銷極少,以盡量接近理想加速性,,實現(xiàn)多內(nèi)核性能的最大化,。

    以 LTE 上行鏈路物理層處理為例,串行代碼可細分為 1,024 個工作任務用于實現(xiàn)天線數(shù)據(jù)處理,、通道估算以及均衡等,。平均每個工作任務有 4K 輸入數(shù)據(jù)及 2K 輸出數(shù)據(jù)駐留在共享存儲器中。Navigator Runtime 將用于調(diào)度這些工作任務并分配給 8 個不同的內(nèi)核,,故加速性的計算如下:

    8 內(nèi)核加速性 = 采用本地 L2 存儲器中的數(shù)據(jù)單內(nèi)核串行執(zhí)行代碼的時間 ÷ 采用共享 DDR3 存儲器中的數(shù)據(jù) 8 內(nèi)核并行執(zhí)行的時間

在并行 8 內(nèi)核執(zhí)行示例中,,在處理前可分配多個導航器數(shù)據(jù)包 DMA 通道將 DDR3 中的數(shù)據(jù)預加載到本地 L2 存儲器中,并在處理后將數(shù)據(jù)從 L2 返回至 DDR3,,就像為降低存儲器訪問時延的 CPU 高速緩存運行一樣,。結(jié)果所測得的 KeyStone 器件的加速性為:在 3.2 萬個周期的工作任務中,從 8 內(nèi)核 KeyStone 器件中測得的基準數(shù)據(jù)可實現(xiàn) 7.8 的加速性,,而在 1.6 萬個周期的工作任務中,,其則可實現(xiàn) 7.7 的加速性,非常接近理想的 8 加速性,。與 KeyStone I 相比,,KeyStone II 中的導航器已得到了明顯的改進:4倍uRISC 引擎數(shù)量可實現(xiàn)更多的調(diào)度資源,而數(shù)據(jù)包 DMA 通道,、硬件隊列以及描述符數(shù)量翻番,,則可提高執(zhí)行吞吐量。

圖 4 為 KeyStone Navigator Runtime 在各種工作任務量情況下,,2 至 8 內(nèi)核的實際加速性與理想加速性的比較,。
 
圖 4:采用 Navigator Runtime 實現(xiàn)的多內(nèi)核加速性


    此外,TI KeyStone II 架構(gòu)還可為所有異構(gòu)內(nèi)核提供 6MB 的片上共享存儲器(MSMC 存儲器)容量,。MSMC 的存儲器訪問性能非常接近 L2 存儲器訪問性能,。當數(shù)據(jù)存儲在 MSMC 中時,無需使用導航器預加載和后存儲數(shù)據(jù),便可實現(xiàn)與上面情況類似的加速性,。與其它可選解決方案相比,,大型片上共享存儲器可利用低系統(tǒng)時延為多內(nèi)核性能帶來獨特的優(yōu)勢。

   Navigator Runtime 不但可支持各種系統(tǒng)應用,,而且還能夠與 OpenMp 等高級多內(nèi)核編程范式集成,。

    OpenMP 是一款支持多平臺共享存儲器多處理編程的應用編程接口 (API),由編輯器指令,、運行時庫程序以   及環(huán)境變量構(gòu)成,。在 OpenMP 中,,用戶可使用語言指令(例如編譯器指令)來識別其軟件中的并行性,,也可使用工具幫助識別,。使用兼容 OpenMP 的編譯器可讀取編譯指令,,其可將編譯指令所注釋的串行代碼轉(zhuǎn)換成并行代碼,并在 OpenMP 運行時中插入調(diào)用,。對在特定器件上運行的應用而言,多內(nèi)核編程方法的運行時時延及開銷性能將會限制可實現(xiàn)的并行性,。更低的時延與開銷可在應用中實現(xiàn)并行化創(chuàng)造更好的條件,進而實現(xiàn)更高的多內(nèi)核效率,。

    開始已經(jīng)為共享存儲器架構(gòu)指定了 OpenMP,。我們現(xiàn)在討論分布式存儲器及異構(gòu)處理器架構(gòu)支持,。TI    Navigator Runtime 可用作 OpenMP 的運行時系統(tǒng),。多內(nèi)核同步與 IPC 可使用導航器中的數(shù)據(jù)包 DMA 引擎有效處理,。前面的基準顯示,將 Navigator Runtime 用作 OpenMP 運行時不但可顯著降低編譯器指令的構(gòu)建開銷,,而且還可顯著提升多內(nèi)核系統(tǒng)內(nèi)的并行性,,讓編程人員專注于識別并行任務,。調(diào)度及負載均衡由 Navigator Runtime 自動管理,,不但可簡化編程,而且還可最大限度地提高多內(nèi)核效率,。

    下頁圖 5 顯示的是使用 Navigator Runtime 與 OpenMP 的 KeyStone AMP 編程流程,。隨同 Code Composer Studio™ 集成開發(fā)環(huán)境提供的 Code Gen Tool 7.4 版是一款立即可用于 OpenMP 的編譯器,。該編程流程具有通用性,,不但可用于各種多內(nèi)核應用,而且還可通過擴展支持各種不同內(nèi)核及系統(tǒng)規(guī)模,。其目的是以單內(nèi)核編程的便捷性實現(xiàn)多內(nèi)核的高性能,。

 
圖 5:使用 Navigator Runtime 的 KeyStone AMP 編程流程

結(jié)論
     多內(nèi)核導航器是一款面向 KeyStone 器件的創(chuàng)新型智能芯片基礎設施,,可推動多內(nèi)核編程的發(fā)展,。多內(nèi)核導航器與 Navigator Runtime 可為每個硬件組件帶來抽象性,,通過資源管理、調(diào)度以及動態(tài)負載均衡功能實現(xiàn)平臺虛擬化,,從而可最大限度地提高多內(nèi)核效率,,以更低的系統(tǒng)成本實現(xiàn)更高的硬件利用率,。將 Navigator Runtime 與 OpenMP 等高級多內(nèi)核編程模式相結(jié)合,可簡化 AMP 多內(nèi)核軟件設計,,提高多內(nèi)核程序的可擴展性與靈活性,,并能夠以更低的成本快速部署新技術。
 

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]