《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 微波|射頻 > 設(shè)計(jì)應(yīng)用 > 一種高性能32位移位寄存器單元的設(shè)計(jì)
一種高性能32位移位寄存器單元的設(shè)計(jì)
摘要: 本文給出了一種可用于32位以上CPU執(zhí)行單元的移位寄存器電路,并針對(duì)CISC指令集INTELX86進(jìn)行了優(yōu)化(由于RISC指令集中移位類(lèi)指令實(shí)現(xiàn)比較簡(jiǎn)單,,故沒(méi)有在文中討論),;采用指令預(yù)處理的技術(shù)和通過(guò)冗余位,能很方便的實(shí)現(xiàn)帶進(jìn)位標(biāo)志CF移位和設(shè)置CF位,,并使得每條移位指令的平均執(zhí)行速度為兩個(gè)指令周期。
關(guān)鍵詞: 存儲(chǔ)器 移位寄存器 CISC CPU
Abstract:
Key words :

  1 引言

  隨著CPU設(shè)計(jì)位數(shù)與性能的不斷提高,,對(duì)CPU 執(zhí)行單元中專(zhuān)用硬件移位寄存器的要求也越來(lái)越高,。CPU移位寄存器的性能直接影響到所設(shè)計(jì)CPU 對(duì)移位類(lèi)指令的處理能力和執(zhí)行速度。傳統(tǒng)結(jié)構(gòu)的CPU中,,移位寄存器的設(shè)計(jì)一般采用矩陣結(jié)構(gòu)和樹(shù)狀結(jié)構(gòu),。當(dāng)CPU的位數(shù)達(dá)到32位,速度達(dá)到100M以上時(shí),,要在一個(gè)指令周期內(nèi)對(duì)32位的數(shù)據(jù)進(jìn)行32 位內(nèi)任意移位,,以前的設(shè)計(jì)方法已經(jīng)很難達(dá)到要求。曾經(jīng)有過(guò)對(duì)32位桶形移位寄存器的行為級(jí)描述,,但其只適用于RISC指令集,,并且作為CPU中的專(zhuān)用硬件為了達(dá)到功耗、速度和面積上的最佳,,通常硬件電路采用全定制設(shè)計(jì),。

  本文給出了一種可用于32位以上CPU執(zhí)行單元的移位寄存器電路,,并針對(duì)CISC指令集INTEL X86進(jìn)行了優(yōu)化(由于RISC指令集中移位類(lèi)指令實(shí)現(xiàn)比較簡(jiǎn)單,故沒(méi)有在文中討論),;采用指令預(yù)處理的技術(shù)和通過(guò)冗余位,,能很方便的實(shí)現(xiàn)帶進(jìn)位標(biāo)志 CF移位和設(shè)置CF位,并使得每條移位指令的平均執(zhí)行速度為兩個(gè)指令周期,。它有效地提高了CPU對(duì)移位類(lèi)指令的執(zhí)行性能,,并且作為一個(gè)基本的內(nèi)核單元能很方便地移植到不同指令集(RISC或 CISC)的CPU設(shè)計(jì)之中。

  2 32位CPU中執(zhí)行單元總體結(jié)構(gòu)

  我們所設(shè)計(jì)的32位CPU的執(zhí)行部分采用雙總線結(jié)構(gòu),,數(shù)據(jù)總線(Abus,,Bbus)的寬度是32位。由于移位類(lèi)指令如果用ALU進(jìn)行實(shí)現(xiàn)的話(huà),,必然會(huì)耗費(fèi)太多的CPU周期,,為實(shí)現(xiàn)在一個(gè)指令周期內(nèi)對(duì)32位數(shù)據(jù)進(jìn)行任意位的移位操作,因此有必要在執(zhí)行單元中設(shè)計(jì)專(zhuān)用硬件移位寄存器,,在執(zhí)行移位類(lèi)指令時(shí)由它進(jìn)行32位數(shù)據(jù)的移位,。

  圖1給出了32位CPU執(zhí)行單元總體結(jié)構(gòu)數(shù)據(jù)流結(jié)構(gòu)簡(jiǎn)圖,并省略了所有控制信號(hào),。圖中Abus為雙向32數(shù)據(jù)總線,,Bbus為單向32位數(shù)據(jù)總線。由于考慮到要實(shí)現(xiàn)INTEL X86系列所有的移位類(lèi)指令(RCR,,RCL,,ROR,ROL等),,所以移位寄存器在設(shè)計(jì)時(shí)采用雙輸入端,,即實(shí)際該移位寄存器最大能實(shí)現(xiàn)64位移位。通過(guò)特殊的指令預(yù)設(shè)置方法,,并通過(guò)增加冗余位實(shí)現(xiàn)標(biāo)志位的設(shè)置,。

32位CPU執(zhí)行單元總體結(jié)構(gòu)數(shù)據(jù)流結(jié)構(gòu)簡(jiǎn)圖

  3 移位寄存器單元的設(shè)計(jì)

  3.1 矩陣移位器和樹(shù)狀移位器

  在CPU中移位寄存器單元的設(shè)計(jì)一般采用的是矩陣結(jié)構(gòu)和樹(shù)狀結(jié)構(gòu)的移位器。

  3.1.1 矩陣結(jié)構(gòu)(Matrix Style)移位器

  它的結(jié)構(gòu)為一傳輸門(mén)組成的陣列,。行數(shù)等于操作數(shù)據(jù)寬度,,列數(shù)等于最多能移位數(shù)如圖2所示(以4位舉例)。

矩陣結(jié)構(gòu)移位器

  其中A3~A0是4位數(shù)據(jù)輸入線,,sh3~sh0是 4根控制信號(hào)線。每次進(jìn)行N位移位操作,,對(duì)應(yīng)的shN為高,,其它控制信號(hào)為低。

  這種結(jié)構(gòu)的優(yōu)點(diǎn)是:(1)數(shù)據(jù)傳輸?shù)乃俣瓤?,每個(gè)信號(hào)到達(dá)輸出端只經(jīng)過(guò)了一級(jí)傳輸,,不受移位器位數(shù)限制,;(2)版圖很規(guī)整。缺點(diǎn)是:(1)每根控制信號(hào)的負(fù)載太大,,如32位移位器,,每根信號(hào)線(sh0,sh1,……sh31)都要驅(qū)動(dòng)32個(gè)開(kāi)關(guān)管;(2)所需晶體管數(shù)目太多,,如n位移位器所需晶體管數(shù)為2× n×n=2n2 (傳輸門(mén)部分采用CMOS實(shí)現(xiàn)),,所帶來(lái)的功耗和芯片面積也會(huì)增加;(3)每一移位操作只需一根控制線為1,,所以需輔以額外的譯碼單元,。

  3.1.2 樹(shù)狀結(jié)構(gòu)(Tree Style)移位器

  這種結(jié)構(gòu)M位移位器所需的級(jí)數(shù)是log 2M每一級(jí)都由兩根信號(hào)線(shn和sh n#)控制數(shù)據(jù)的傳輸,數(shù)據(jù)在第i級(jí)要么移動(dòng)2 i位或者不移動(dòng),。 樹(shù)狀移位器如圖3所示,。

樹(shù)狀移位器

  這種結(jié)構(gòu)的優(yōu)點(diǎn)是:(1)晶體管數(shù)目少, n位移器所需晶體管數(shù)目為2×n×log n(傳輸門(mén)部分采用CMOS實(shí)現(xiàn)),,版圖面積小于矩陣移位器,;(2)控制信號(hào)shN~sh0本身就是二進(jìn)制表示,不需要額外的譯碼單元。缺點(diǎn)是:數(shù)據(jù)通路所需經(jīng)過(guò)的開(kāi)關(guān)管數(shù)目太多,,M位移位器所需的級(jí)數(shù)是log 2M,,因此導(dǎo)致延時(shí)太大。

  3.2 矩陣-樹(shù)狀結(jié)構(gòu)移位器

  由上面的分析我們可以看出,,如果所設(shè)計(jì)的處理器為16位以下CPU,,那其移位器不管采用上述哪種方案都能達(dá)到要求,但當(dāng)數(shù)據(jù)寬度到32位以上,,從功耗,,速度及版圖面積考慮以上方案的固有缺點(diǎn)就會(huì)顯得非常突出。在本設(shè)計(jì)中,,移位寄存器的實(shí)際輸入為64位,,為結(jié)合矩陣結(jié)構(gòu)的優(yōu)點(diǎn)(速度快、版圖規(guī)整)和樹(shù)狀結(jié)構(gòu)的優(yōu)點(diǎn)(晶體管數(shù)目少,、譯碼簡(jiǎn)單),,我們?cè)谠O(shè)計(jì)中采用矩陣-樹(shù)狀結(jié)構(gòu)整個(gè)移位寄存器的是由雙總線輸入,即輸入64位,,表1中列舉了不同級(jí)別比例的矩陣-樹(shù)狀結(jié)構(gòu)所需晶體管數(shù)目(n1為tree的級(jí)數(shù),,n2為matrix的控制線,n3為matrix中用的晶體管數(shù)目),。經(jīng)過(guò)綜合考慮,,我們采用第2行的矩陣-樹(shù)狀級(jí)別比例,即矩陣部分最大能實(shí)現(xiàn)8位移位,,樹(shù)狀部分最大能實(shí)現(xiàn)4位移位,。

不同級(jí)別比例的矩陣-樹(shù)狀結(jié)構(gòu)所需晶體管數(shù)目

  經(jīng)過(guò)各方面綜合考慮,,我們所設(shè)計(jì)的移位寄存器的前級(jí)為矩陣結(jié)構(gòu)部分(輸入數(shù)據(jù)為64位,控制信號(hào)8位),,由這一部分形成一36位的數(shù)據(jù)送入下一級(jí)樹(shù)狀結(jié)構(gòu)(輸入數(shù)據(jù)為36位,,控制信號(hào)2位)部分再完成剩余的4位移位,形成32位輸出數(shù)據(jù),。結(jié)構(gòu)簡(jiǎn)圖如圖4所示,。

 

結(jié)構(gòu)簡(jiǎn)圖

  在這個(gè)結(jié)構(gòu)中,后級(jí)的樹(shù)狀移位器最高實(shí)現(xiàn)3 位移位,。輸入的2bit信號(hào)為2進(jìn)制碼,,這兩位由移位計(jì)數(shù)器sh4~sh0直接將最低兩位送入(在后一節(jié)將介紹)。前級(jí)的矩陣結(jié)構(gòu)完成64位輸入36位輸出,,我們?cè)O(shè)64位數(shù)據(jù)輸入由Abus,Bbus提供,,如圖5所示。每一小格代表4位數(shù)據(jù),。這64位數(shù)據(jù)送入矩陣移位器后,,根據(jù)計(jì)數(shù)器的高三位sh4~sh2 進(jìn)行譯碼對(duì)其進(jìn)行4,8,,12,,16,20,,24,,28,32中的一種移位(對(duì)應(yīng)8bits中的一位為高),。形成36位的數(shù)據(jù)輸出送入下級(jí)樹(shù)狀移位器以完成剩余位數(shù)的移位,。36位數(shù)據(jù)輸出格式如圖6所示。其中COUNT表示總共移位數(shù),。

64位數(shù)據(jù)輸入格式

36位數(shù)據(jù)輸出格式

  4 指令的預(yù)處理及移位類(lèi)指令的實(shí)現(xiàn)

  在我們?cè)O(shè)計(jì)的這片CPU中,,需要對(duì)INTEL的 X86系列移位類(lèi)指令進(jìn)行兼容。因此移位寄存器單元需要在周?chē)g碼和鎖存單元的配合下,,要能在一個(gè)指令節(jié)拍內(nèi)實(shí)現(xiàn)ROL,,ROR,RCL,,RCR,, SHL,SHR,,SAR,,其中RCL,RCR實(shí)現(xiàn)了帶標(biāo)志位C的移位(指令說(shuō)明見(jiàn)文獻(xiàn)[4])。因此需由處理器的控制單元在每類(lèi)移位指令移位之前進(jìn)行指令的預(yù)處理,。

  4.1 移位寄存器單元總體結(jié)構(gòu)

  最終設(shè)計(jì)出的移位寄存器單元總體結(jié)構(gòu)如圖7 所示,其中其核心部分的矩陣-樹(shù)狀結(jié)構(gòu)的移位寄存器就是使用上一節(jié)所描述的結(jié)構(gòu),。記數(shù)器中的數(shù)據(jù)(sh4~sh0)在移位上一拍由Bbus寫(xiě)入,,并進(jìn)行譯碼,其中低兩位(sh1,,sh0)直接送樹(shù)狀結(jié)構(gòu)移位部分,,高三位(sh4,sh3,sh2)經(jīng)過(guò)譯碼產(chǎn)生8位控制信號(hào)送入矩陣移位部分。Abus和Bbus輸入鎖存器能鎖存32位數(shù)據(jù)輸入,,并根據(jù)不同指令的要求進(jìn)行操作,,對(duì)指令進(jìn)行預(yù)處理。移位結(jié)果送ALU輸出鎖存器,,并對(duì)CF寄存器進(jìn)行設(shè)置,。

移位寄存器單元總體結(jié)構(gòu)

  4.2 指令的預(yù)處理

  由于要對(duì)實(shí)現(xiàn)帶進(jìn)位CF的移位并在移位操作后對(duì)CF進(jìn)行設(shè)置,在一般情況下這需要CPU的控制單元提供多周期指令節(jié)拍來(lái)實(shí)現(xiàn),。在本設(shè)計(jì)中,,將 Abus和Bbus輸入鎖存器設(shè)計(jì)為能根據(jù)不同的指令實(shí)現(xiàn)清0和帶CF左移一位或右移一位的操作,以便為移位做好數(shù)據(jù)上的準(zhǔn)備,,使輸入數(shù)據(jù)的0~32位移位能在一個(gè)指令周期內(nèi)完成,。對(duì)不同的指令具體設(shè)置情況如圖8所示。圖中CF表示為進(jìn)位標(biāo)志位,;len為操作數(shù)長(zhǎng)度(如32位數(shù)據(jù)),; n為移位數(shù);DATA表示輸入鎖存輸出的數(shù)據(jù)為操作數(shù)據(jù)本身,; 0表示輸入鎖存輸出的數(shù)據(jù)為0,;CF:DATA(-1)表示輸入鎖存輸出的數(shù)據(jù)為操作數(shù)帶CF右移一位;DATA(-1):CF表示輸入鎖存輸出的數(shù)據(jù)為操作數(shù)帶CF左移一位,;SIGN_EXT表示輸入鎖存輸出的數(shù)據(jù)為操作數(shù)帶符號(hào)擴(kuò)展,。橫線下為移位前Abus和Bbus鎖存器中數(shù)據(jù)預(yù)處理完后的格式,橫線上方位移位完成后數(shù)據(jù)輸出及進(jìn)位CF所處位置,。

對(duì)不同的指令具體設(shè)置情況

  例:RCL AX , CL 指令

  設(shè)AX=0001H , CL="3" , CF=1

  Abus鎖存器輸出數(shù)據(jù)為操作數(shù)本0001H,;

  Bbus鎖存器輸出的數(shù)據(jù)為操作數(shù)帶CF右移一位為1000H;

  在輸出中,,CF在輸出結(jié)果的最左端為0,。

  5 驗(yàn)證及結(jié)論

  通過(guò)verilog的行為仿真及starsim的時(shí)序仿真顯示,性能完全符合要求,。對(duì)比INTEL X86指令集中移位類(lèi)指令標(biāo)準(zhǔn)執(zhí)行周期為4~7個(gè)機(jī)器周期,,本設(shè)計(jì)移位類(lèi)指令平均執(zhí)行時(shí)間為2個(gè)指令周期,因此大大提高了移位類(lèi)指令執(zhí)行效率。移位寄存器作為CPU中執(zhí)行單元的專(zhuān)用硬件,,其性能的好壞直接影響到CPU處理移位類(lèi)指令的速度和效率,。本文采用的矩陣-樹(shù)狀結(jié)構(gòu)移位寄存器,配合指令預(yù)處理技術(shù),,能有效實(shí)現(xiàn)32位數(shù)據(jù)的移位操作,,并兼容INTEL X86系列的所有移位類(lèi)指令還可作為通用硬件方便地移植到其他指令級(jí)別的CPU設(shè)計(jì)之中。

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。