摘 要: Intel公司的超線程" title="超線程">超線程技術(shù)(Hyper-Threading Technology)是一項新的微處理器體系結(jié)構(gòu)技術(shù),,它在傳統(tǒng)指令級并行的基礎(chǔ)上提供了線程級并行。分析了超線程技術(shù)" title="超線程技術(shù)">超線程技術(shù)的特點,,重點研究了Linux超線程感知調(diào)度優(yōu)化技術(shù),,解決了對Intel處理器的有效支持問題,,并且進行了相關(guān)的性能評測。
關(guān)鍵詞: 超線程技術(shù) 多處理器 Linux
隨著計算機應(yīng)用的日益普及,,用戶對計算機的處理能力的需求成指數(shù)級增長,。為了滿足用戶的需求,處理器生產(chǎn)廠商采用了諸如超流水,、分支預(yù)測,、超標量、亂序執(zhí)行及緩存等技術(shù)以提高處理器的性能,。但是這些技術(shù)的采用增加了微處理器的復(fù)雜性,,帶來了諸如材料、功耗,、光刻,、電磁兼容性等一系列問題。因此處理器設(shè)計人員開始尋找新的途徑來提高處理器的性能,。Intel公司于2002年底推出了超線程技術(shù),,通過共享處理器的執(zhí)行資源,提高CPU的利用率,,讓處理單元獲得更高的吞吐量,。
1 超線程技術(shù)背景
傳統(tǒng)的處理器內(nèi)部存在著多種并行操作方式。①指令級并行ILP(Instruction Level Paramllelism):同時執(zhí)行幾條指令,,單CPU就能完成,。但是,傳統(tǒng)的單CPU處理器只能同時執(zhí)行一個線程,,很難保證CPU資源得到100%的利用,,性能提高只能通過提升時鐘頻率和改進架構(gòu)來實現(xiàn)。②線程級并行TLP(Thread Level Paramllesim):可以同時執(zhí)行多個線程,,但是需要多處理器系統(tǒng)的支持,,通過增加CPU的數(shù)量來提高性能。
超線程微處理器將同時多線程技術(shù)SMT(Simultaneous Multi-Threading)引入Intel體系結(jié)構(gòu),,支持超線程技術(shù)的操作系統(tǒng)將一個物理處理器視為兩個邏輯處理器,,并且為每個邏輯處理器分配一個線程運行。物理處理器在兩個邏輯處理器之間分配高速緩存,、執(zhí)行單元,、總線等執(zhí)行資源,讓暫時閑置的運算單元去執(zhí)行其他線程代碼,,從而最大限度地提升CPU資源的利用率,。
Intel 超線程技術(shù)通過復(fù)制,、劃分、共享Intel的Netburst微架構(gòu)的資源讓一個物理CPU中具有兩個邏輯CPU,。(1)復(fù)制的資源:每個邏輯CPU都維持一套完整的體系結(jié)構(gòu)狀態(tài),,包括通用寄存器、控制寄存器,、高級可編程寄存器(APIC)以及一些機器狀態(tài)寄存器,,體系結(jié)構(gòu)狀態(tài)對程序或線程流進行跟蹤。從軟件的角度,,一旦體系結(jié)構(gòu)狀態(tài)被復(fù)制,,就可以將一個物理CPU視為兩個邏輯CPU。(2)劃分的資源:包括重定序(re-order)緩沖,、Load/Store緩沖,、隊列等。劃分的資源在多任務(wù)模式時分給兩個邏輯CPU使用,,在單任務(wù)模式時合并起來給一個邏輯CPU使用,。(3)共享的資源:包括cache及執(zhí)行單元等,邏輯CPU共享物理CPU的執(zhí)行單元進行加,、減,、取數(shù)等操作。
在線程調(diào)度時,,體系結(jié)構(gòu)狀態(tài)對程序或線程流進行跟蹤,,各項工作(包括加、乘,、加載等)由執(zhí)行資源(處理器上的單元)負責(zé)完成,。每個邏輯處理器可以單獨對中斷作出響應(yīng)。第一個邏輯處理器跟蹤一個線程時,,第二個邏輯處理器可以同時跟蹤另一個線程,。例如,當(dāng)一個邏輯處理器在執(zhí)行浮點運算時,,另一個邏輯處理器可以執(zhí)行加法運算和加載操作。擁有超線程技術(shù)的CPU可以同時執(zhí)行處理兩個線程,,它可以將來自兩個線程的指令同時發(fā)送到處理器內(nèi)核執(zhí)行,。處理器內(nèi)核采用亂序指令調(diào)度并發(fā)執(zhí)行兩個線程,以確保其執(zhí)行單元在各時鐘周期均處于運行狀態(tài),。
圖1和圖2分別為傳統(tǒng)的雙" title="的雙">的雙處理器系統(tǒng)和支持超線程的雙處理器系統(tǒng),。傳統(tǒng)的雙處理器系統(tǒng)中,每個處理器有一套獨立的體系結(jié)構(gòu)狀態(tài)和處理器執(zhí)行資源,,每個處理器上只能同時執(zhí)行一個線程,。支持超線程的雙處理器系統(tǒng)中,,每個處理器有兩套獨立體系結(jié)構(gòu)狀態(tài),可以獨立地響應(yīng)中斷,。
2 Linux超線程感知調(diào)度優(yōu)化
Linux從2.4.17版開始支持超線程技術(shù),,傳統(tǒng)的Linux O(1)調(diào)度器" title="調(diào)度器">調(diào)度器不能區(qū)分物理CPU和邏輯CPU,因此不能充分利用超線程處理器的特性,。Ingo Monlar編寫了“HT-aware scheduler patch”,,針對超線程技術(shù)對O(1)調(diào)度器進行了調(diào)度算法優(yōu)化:優(yōu)先安排線程在空閑的物理CPU的邏輯CPU上運行,避免資源競爭帶來的性能下降,;在線程調(diào)度時考慮了在兩個邏輯CPU之間進行線程遷移的開銷遠遠小于物理CPU之間的遷移開銷以及邏輯CPU共享cache等資源的特性,。這些優(yōu)化的相關(guān)算法被Linux的后期版本所吸收,具體如下:
(1)共享運行隊列
在對稱多處理SMP(Symmetrical Multi-Processing)環(huán)境中,,O(1)調(diào)度器為每個CPU分配了一個運行隊列,,避免了多CPU共用一個運行隊列帶來的資源競爭。Linux會將超線程CPU中的兩個邏輯CPU視為SMP的兩個獨立CPU,,各維持一個運行隊列,。但是這兩個邏輯CPU共享cache等資源,沒有體現(xiàn)超線程CPU的特性,。因此引入了共享運行隊列的概念,。HT-aware scheduler patch在運行隊列struct runqueue結(jié)構(gòu)中增加了nr_cpu和cpu兩個屬性,nr_cpu記錄物理CPU中的邏輯CPU數(shù)目,,CPU則指向同屬CPU(同一個物理CPU上的另一個邏輯CPU)的運行隊列,,如圖3所示。
在Linux中通過調(diào)用sched_map_runqueue( )函數(shù)實現(xiàn)兩個邏輯CPU的運行隊列的合并,。sched_map_runqueue( )首先會查詢系統(tǒng)的CPU隊列,,通過phys_proc_id(記錄邏輯CPU所屬的物理CPU的ID)判斷當(dāng)前CPU的同屬邏輯CPU。如果找到同屬邏輯CPU,,則將當(dāng)前CPU運行隊列的cpu屬性指向同屬邏輯CPU的運行隊列,。
(2)支持“被動的”負載均衡" title="負載均衡">負載均衡
用中斷驅(qū)動的均衡操作必須針對各個物理 CPU,而不是各個邏輯 CPU,。否則可能會出現(xiàn)兩種情況:一個物理 CPU 運行兩個任務(wù),,而另一個物理 CPU 不運行任務(wù);現(xiàn)有的調(diào)度程序不會將這種情形認為是“失衡的”,。在調(diào)度程序看來,,似乎是第一個物理處理器上的兩個 CPU運行1-1任務(wù),而第二個物理處理器上的兩個 CPU運行0-0任務(wù),。
在2.6.0版之前,,Linux只有通過load_balance( )函數(shù)才能進行CPU之間負載均衡。當(dāng)某個CPU負載過輕而另一個CPU負載較重時,系統(tǒng)會調(diào)用load_balance( )函數(shù)從重載CPU上遷移線程到負載較輕的CPU上,。只有系統(tǒng)最繁忙的CPU的負載超過當(dāng)前CPU負載的 25% 時才進行負載平衡,。找到最繁忙的CPU(源CPU)之后,確定需要遷移的線程數(shù)為源CPU負載與本CPU負載之差的一半,然后按照從 expired 隊列到 active 隊列,、從低優(yōu)先級線程到高優(yōu)先級線程的順序進行遷移,。
在超線程系統(tǒng)中進行負載均衡時,如果也是將邏輯CPU等同于SMP環(huán)境中的單個CPU進行調(diào)度,,則可能會將線程遷移到同一個物理CPU的兩個邏輯CPU上,,從而導(dǎo)致物理CPU的負載過重。
在2.6.0版之后,,Linux開始支持NUMA(Non-Uniform Memory Access Architecture)體系結(jié)構(gòu),。進行負載均衡時除了要考慮單個CPU的負載,還要考慮NUMA下各個節(jié)點的負載情況,。
Linux的超線程調(diào)度借鑒NUMA的算法,,將物理CPU當(dāng)作NUMA中的一個節(jié)點,并且將物理CPU中的邏輯CPU映射到該節(jié)點,,通過運行隊列中的node_nr_running屬性記錄當(dāng)前物理CPU的負載情況,。
Linux通過balance_node( )函數(shù)進行物理CPU之間的負載均衡。物理CPU間的負載平衡作為rebalance_tick( )函數(shù)中的一部分在 load_balance( )之前啟動,,避免了出現(xiàn)一個物理CPU運行1-1任務(wù),,而第二個物理CPU運行0-0任務(wù)的情況。balance_node( )函數(shù)首先調(diào)用 find_
busiest_node( )找到系統(tǒng)中最繁忙的節(jié)點,,然后在該節(jié)點和當(dāng)前CPU組成的CPU集合中進行 load_balance( ),,把最繁忙的物理CPU中的線程遷移到當(dāng)前CPU上。之后rebalance_tick( )函數(shù)再調(diào)用load_balance(工作集為當(dāng)前的物理CPU中的所有邏輯CPU)進行邏輯CPU之間的負載均衡,。
(3)支持“主動的”負載均衡
當(dāng)一個邏輯 CPU 變成空閑時,,可能造成一個物理CPU的負載失衡。例如:系統(tǒng)中有兩個物理CPU,,一個物理CPU上運行一個任務(wù)并且剛剛結(jié)束,,另一個物理CPU上正在運行兩個任務(wù),此時出現(xiàn)了一個物理CPU空閑而另一個物理CPU忙的現(xiàn)象,。
Linux中通過active_load_balance( )函數(shù)進行主動的負載均衡,,active_load_balance( )函數(shù)用于在所有的邏輯CPU中查詢該CPU的忙閑情況。如果發(fā)現(xiàn)由于超線程引起的負載不平衡(一個物理CPU的兩個邏輯CPU都空閑,,另一個物理CPU的兩個邏輯CPU都在運行兩個線程),,則喚醒一個需要遷移的線程,將它從一個忙的物理CPU遷移到一個空閑的物理CPU上,。
active_load_balance( )通過調(diào)用cpu_rq( )函數(shù)得到每一個邏輯CPU上的運行隊列。如果運行隊列上的當(dāng)前運行線程為idle線程,則說明當(dāng)前邏輯CPU為空閑,;如果發(fā)現(xiàn)一個物理CPU兩個邏輯CPU都為空閑,,而另一個物理CPU中的兩個邏輯CPU的運行隊列為繁忙的情況,則說明存在超線程引起的負載不均衡,。這時當(dāng)前CPU會喚醒遷移服務(wù)線程(migration_thread)來完成負載均衡的線程遷移,。
(4)支持超線程感知的任務(wù)挑選
在超線程處理器中,由于cache資源為兩個邏輯處理器共享,,因此調(diào)度器在選取一個新任務(wù)時,,必須確保同組的任務(wù)盡量共享一個物理CPU,從而減少cache失效的開銷,,提高系統(tǒng)的性能,。而傳統(tǒng)的調(diào)度器只是簡單地為邏輯CPU選取一個任務(wù),沒有考慮物理CPU的影響,。
Linux進行線程切換時會調(diào)用schedule( )函數(shù)進行具體的操作,。如果沒有找到合適的任務(wù)schedule()函數(shù),則會調(diào)度idle線程在當(dāng)前CPU上運行,。在超線程環(huán)境中Linux調(diào)度idle線程運行之前會查詢其同屬CPU的忙閑狀況,。如果同屬CPU上有等待運行的線程,則會調(diào)用一次load_balance( )函數(shù)在兩個同屬CPU之間作一次負載均衡,,將等待運行的線程遷移到當(dāng)前CPU上,,保證優(yōu)先運行同屬CPU上的任務(wù)。
(5)支持超線程感知的CPU喚醒
傳統(tǒng)的調(diào)度器只知道當(dāng)前CPU,,而不知道同屬的邏輯CPU,。在超線程環(huán)境下,一個邏輯CPU正在執(zhí)行任務(wù)時,,其上的一個線程被喚醒了,,此時,如果它的同屬邏輯CPU是空閑的,,則應(yīng)該在同屬邏輯CPU上運行剛剛喚醒的任務(wù),。
Linux通過wake_up_cpu( )函數(shù)實現(xiàn)CPU喚醒,在try_o_wakeup,、pull_task,、move_task_away加入了wake_up_cpu( )函數(shù)的相應(yīng)調(diào)用點。wake_up_cpu()首先查詢當(dāng)前CPU是不是空閑的,,如果當(dāng)前CPU為空閑,,則調(diào)用resched_cpu( )函數(shù)啟動調(diào)度器,將喚醒的線程調(diào)度到當(dāng)前CPU執(zhí)行,;否則查找其同屬邏輯CPU,。如果同屬邏輯CPU是空閑的,,則將喚醒的線程調(diào)度到同屬邏輯CPU上執(zhí)行;否則比較喚醒的線程和當(dāng)前CPU上運行的線程的優(yōu)先級,。如果喚醒的線程的優(yōu)先級高,,或者優(yōu)先級相等但是時間片多,則進行線程切換,,在當(dāng)前CPU上調(diào)度執(zhí)行喚醒的線程,。如果上述條件都不滿足,最后比較喚醒的線程和當(dāng)前CPU的同屬邏輯CPU上運行的線程的優(yōu)先級,,如果喚醒的線程的優(yōu)先級高,,或者優(yōu)先級相等但是時間片多,則在同屬邏輯CPU上調(diào)度執(zhí)行喚醒的線程,。
3 性能測試
Linux-2.6.0 HT-aware scheduler patch實現(xiàn)了上述超線程調(diào)度優(yōu)化,。這里根據(jù)linux-2.6.0 HT-aware scheduler patch對這幾種調(diào)度優(yōu)化進行了性能測試。
測試硬件環(huán)境:Xeon 2.2GHz處理器(支持超線程)×4,,2GB SDRAM內(nèi)存,。
Benchmark:(1)Volanomark是一個純Java的benchmark,專門用于測試系統(tǒng)調(diào)度器和線程環(huán)境的綜合性能,。它建立一個模擬Client/Server方式的Java聊天室,,通過獲取每秒平均發(fā)送的消息數(shù)來評測宿主機綜合性能(數(shù)值越大性能越好)。Volanomark測試與Java虛擬機平臺相關(guān),,本文使用Sun Java SDK 1.4.2作為測試用Java平臺,,Volanomark版本2.5.0.9。(2)LMBench是一個用于評價系統(tǒng)綜合性能的多平臺開源benchmark,,對其進行修改后實現(xiàn)了lat_thread_ctx接口,,用來測試線程的切換開銷。
圖4表明開啟超線程后Volanomark在Linux-2.6.0平臺下平均吞吐量提高了25.5%,。由于Linux的O(1)內(nèi)核調(diào)度器比較好地實現(xiàn)了SMP負載均衡算法,,所以在超線程環(huán)境下整個系統(tǒng)的性能也有了比較好的提升。
圖5顯示出Linux在進行了超線程調(diào)度優(yōu)化后,,在支持超線程的平臺上所獲得的性能加速比,。在Linux-2.6.0加入HT-aware scheduler patch后Volanomark的平均吞吐提高了 8.5%,分別實現(xiàn)主動負載均衡,、被動的負載均衡,、CPU喚醒和任務(wù)挑選的相關(guān)代碼后,吞吐量分別提高了1.8.%,、2.5%,、2.3%和2.1%。
?
使用Lmbench創(chuàng)建10~150個線程,,在不同的負載條件下測試線程的切換開銷,。表1的數(shù)據(jù)顯示HT-aware scheduler patch可以將線程的切換開銷減少3%~7%,。數(shù)據(jù)顯示:在輕負載情況下,系統(tǒng)可以獲得更多的加速比,。這是因為被動的負載均衡以及主動的負載均衡只有在系統(tǒng)有CPU空閑時才能發(fā)揮比較好的作用,。
4 相關(guān)工作和展望
采用支持超線程技術(shù)的Linux可以獲得較大的性能提升,。但是其調(diào)度算法還要根據(jù)實際的應(yīng)用進一步研究,。參考文獻[7]中提出了用“Symbiosis”概念來衡量多個線程在SMT環(huán)境中同時執(zhí)行的有效性。參考文獻[8]中提出了線程敏感的調(diào)度算法,,用一組硬件性能計數(shù)器計算兩個邏輯CPU上運行不同作業(yè)子集的執(zhí)行信息,,利用這些信息來預(yù)測不同作業(yè)子集的執(zhí)行性能,并選擇具有最好預(yù)測性能的作業(yè)子集調(diào)度同一個物理CPU執(zhí)行,。參考文獻[9]中主要研究了適合SMT 結(jié)構(gòu)并考慮作業(yè)優(yōu)先級的調(diào)度器,。研究結(jié)果表明,這些調(diào)度算法能有效地提高超線程系統(tǒng)的性能,。
Intel的超線程技術(shù)是其企業(yè)產(chǎn)品線中的重要特征,,并將會集成到越來越多的產(chǎn)品中,它標志著Intel微處理器一個新的時代:從指令級并行到線程級并行,,這樣可使微處理器運行模式與多線程應(yīng)用的運行模式更加接近,,應(yīng)用程序可以充分利用線程級并行和指令級并行進行優(yōu)化。隨著超線程處理器的發(fā)展,,可能會出現(xiàn)操作系統(tǒng)使用處理器系統(tǒng)中硬件性能監(jiān)視器估算系統(tǒng)在某一時間段的某些性能指標,,然后利用這些性能指標來指導(dǎo)線程的調(diào)度策略。
參考文獻
1 Vianney D.Hyper-Threading speeds Linux.http://www-106.ibm.com/developerworks/linux/library/l-htl/,,2003
2 Marr D T,,Binns F,Hill D L.Hyper-Threading technology architecture and microarchitecture.Intel Technology Journal,,2002
3 IntelXeonTM Processor Family for Servers with Hyper-Threading Technology.Intel white paper,,2002
4 Volano LLC.Volano Chat.http://www.volano.com/benchmarks.html
5 Larry M V.LMbench-Tools for Performance Analysis.http://www.bitmover.com/lmbench/
6 Bulusu P,Kumar J,,Shetty S.HyperThreading-A Voyage.Intel Technology Journal,,2002
7 Snavely A,Tullsen D M,,Voelker G.Symbiotic Jobscheduling with Priorities for a Simultaneous Multithreading Processor.In:Proc.of International Conference on Measurement and Modeling of Computer Systems,,June,2002
8 Parekh S S,,Eggers S J,,Levy H M et al.Thread-Sensitive Scheduling for SMT Processors.Technical Report,University of Washington,,2000
9 Bulpin J R,,Pratt L A.Hyper-Threading Aware Process Scheduling Heuristics.In:USENIX Annual Technical Confer-ence,,2005