JPEG2000 MQ編碼器的設(shè)計與實現(xiàn)-AET-電子技術(shù)應(yīng)用

JPEG2000 MQ編碼器的設(shè)計與實現(xiàn)

雷磊，羅桂娥

（中南大學(xué)，湖南長沙 410083）

摘要： 提出了一種JPEG2000 MQ編碼器的硬件設(shè)計方案。通過狀態(tài)更新超前預(yù)測、前導(dǎo)零檢測、重歸一化超前預(yù)測等方法以及字節(jié)輸出的改進處理，使MQ編碼器的工作速率可達1CxD/cycle。同時對各流水段中的路徑進行優(yōu)化改進，提高了系統(tǒng)的最高時鐘頻率。采用Verilog語言進行RTL級描述，并在Altera的FPGA上進行了仿真驗證。結(jié)果表明，在Altera的EP2S60F67214上，該MQ編碼器的最高工作時鐘頻率可達65.19 MHz。

關(guān)鍵詞： SoPC 圖像壓縮 JPEG2000 算術(shù)編碼流水線

Abstract：

Key words :

    JPEG2000是新一代的靜態(tài)圖像壓縮標準。與JPEG相比，JPEG2000不僅具有更為優(yōu)良的壓縮性能，而且提供了更多的新特性，例如支持質(zhì)量、分辨率的可伸縮性和感興趣域編碼等。JPEG2000編碼包括了小波變換、量化、位平面編碼和MQ編碼這4個主要的編碼流程。其中位平面編碼和MQ編碼是JPEG2000中復(fù)雜度較高的2個模塊。這2個模塊處理的時間花費了整個編碼時間的一半以上。而當(dāng)前的位平面編碼處理速度已經(jīng)遠超過MQ編碼的速度，也就是說MQ編碼器的編碼速率已經(jīng)成為了JPEG2000處理速度快慢的關(guān)鍵所在。
　 MQ編碼器是一種改進的自適應(yīng)算術(shù)編碼器。雖然MQ編碼器避免了乘法運算，但算法仍然比較復(fù)雜，同時采用串行處理方式的MQ編碼標準算法用硬件實現(xiàn)起來效率低下。而目前國內(nèi)外對MQ編碼硬件實現(xiàn)有不少有效的處理方法。本文對面向軟件的標準算法進行了改進以提高硬件實現(xiàn)的編碼速率：采用FIFO進行輸入輸出的緩存處理，優(yōu)化了狀態(tài)更新及A、C區(qū)間處理過程以提高處理速度，改進了字節(jié)輸出從而節(jié)約了資源面積。該設(shè)計方案采用了4級流水，能夠達到比較高的數(shù)據(jù)吞吐量。
１ MQ編碼器原理和算法流程
　 MQ編碼器可以理解為這樣一種機器：它將二進制數(shù)據(jù)判決位D和相關(guān)的上下文內(nèi)容CX所組成的序列映射成單個的壓縮碼字，即壓縮數(shù)據(jù)CD。當(dāng)數(shù)據(jù)判決位D和其上下文內(nèi)容CX組成的數(shù)據(jù)對（CX，D）從位平面編碼器輸出到達MQ編碼器后，由MQ編碼器產(chǎn)生壓縮數(shù)據(jù)位CD。
    MQ編碼器通過使用CX狀態(tài)表和概率估值表能夠?qū)崿F(xiàn)自適應(yīng)的功能。其中CX狀態(tài)表包括19個上下文，每個上下文都對應(yīng)著不同的狀態(tài)，每個狀態(tài)包括索引值（index）和大概率符號值（mps）。而概率估值表是一個可以對原始數(shù)據(jù)快速適應(yīng)的概率估計模型，包括47個索引值。每個索引都對應(yīng)著不同的狀態(tài)，這些狀態(tài)包括下一個狀態(tài)的索引值NMPS（6位）和NLPS（6位）、交換位SWITCH（1位）和小概率符號概率值Qe（15位）共28位。這２個表的具體內(nèi)容可以從參考文獻[2]中找到。
　 MQ編碼是基于自適應(yīng)的算術(shù)編碼改進而來的。而算術(shù)編碼的基本操作是遞歸地劃分當(dāng)前的子區(qū)間：當(dāng)編碼器接收到一個新的待壓縮碼，當(dāng)前子區(qū)間就被劃分成2個子區(qū)間，被劃分的邊界更新成為新的區(qū)間的左邊界，也即左區(qū)間值，子區(qū)間的間隔大小也更新成為新區(qū)間的間隔大小。
　因此，MQ編碼器采用一個A寄存器來存儲當(dāng)前子區(qū)間的間隔大小，而用一個C寄存器來存儲當(dāng)前子區(qū)間的左區(qū)間值。當(dāng)MQ編碼器接收到輸入數(shù)據(jù)對（CX，D），通過概率估計表和狀態(tài)表找到相應(yīng)的Qe值，根據(jù)當(dāng)前的情況來決定A和C如何進行更新，其中包括了A、C寄存器值與Qe值的加減操作及對A、C寄存器的左移重歸一化操作，同時伴隨著壓縮字節(jié)輸出等過程。
２ MQ編碼器的硬件設(shè)計
    本文設(shè)計的MQ編碼器采用4級流水線，并使用了一些加速技術(shù)對關(guān)鍵部分進行了改進，改進后的MQ編碼器流水線總體架構(gòu)如圖1所示。

第1階段：用一個ＲＡＭ對CX狀態(tài)進行存儲和更新。把從FIFO中輸出的（CX，D）數(shù)據(jù)對做為輸入，根據(jù)CX的值來得到概率估值表的索引和mps的值。然后由D值與mps值比較判斷是進行大概率編碼（mps）還是進行小概率編碼（lps）。要注意的是，要確保ＲＡＭ和ＲＯＭ輸出消耗的時間為1個時鐘，否則就達不到本設(shè)計的時序要求。同時，由于目標是1個時鐘輸入1對數(shù)據(jù)對，而在編碼過程中如果出現(xiàn)了連續(xù)2個輸入的CX具有相同的值并且編碼第1個數(shù)據(jù)發(fā)生了重歸一化時，就會產(chǎn)生時序紊亂。一個解決的辦法是對下一個索引值加入一個超前狀態(tài)分析，這樣就可以在編碼同一個CX的數(shù)據(jù)時不必等待ＲＡＭ的輸出而直接讀入由組合邏輯產(chǎn)生的下一個索引值，從而滿足了時序的要求。圖2所示為加入超前狀態(tài)分析的CX表。

　第2階段：用一個ＲＯＭ對概率估值表進行存儲和讀取。把從ＲAM中輸出的index和mps作為輸入數(shù)據(jù)，數(shù)據(jù)位由高到低排列。根據(jù)index的值導(dǎo)出相應(yīng)的Qe、NMPS、NLPS、SWITCH等值。本設(shè)計由于采用了超前狀態(tài)預(yù)測，沒必要把下一次的lps和mps的概率值加入到估值表中，而僅需添加前導(dǎo)零的個數(shù)，使得在第3階段發(fā)生重歸一化時能夠一步完成移位操作，避免了重復(fù)和循環(huán)過程，大大提高了編碼效率。具體的移位思想可以參看參考文獻[3]。
　第3階段：對A寄存器和C寄存器低17位進行更新處理。把28位的C寄存器分開處理可以有效縮短關(guān)鍵路徑，因此在這個階段先對C寄存器的低17位進行處理。另外，由于要對A和2Qe的大小進行比較從而判斷是否需要進行歸一化。為了減少路徑消耗，可以把A<2Qe替換成A[14:0]-Qe[14:0]，看是否有借位產(chǎn)生來處理，把它作為是否要進行重歸一化的判斷條件，同時把A和C寄存器的加減更新判斷邏輯簡化成2個由于1個時鐘輸入1對數(shù)據(jù)對的關(guān)系，A、C寄存器將在1個時鐘周期后進行數(shù)據(jù)更新替換，所以A、C的數(shù)據(jù)處理過程必須要在1個時鐘周期內(nèi)完成，因此本設(shè)計不能對這段路徑進行流水線分割處理。圖3為對A寄存器處理的優(yōu)化設(shè)計結(jié)構(gòu)。C寄存器的處理結(jié)構(gòu)和A類似。

　第4階段：Chigh的處理和字節(jié)輸出。按照標準的字節(jié)輸出算法流程，需要1個緩沖寄存器B和1個減法計數(shù)器來輔助處理：先把高8位賦給B寄存器，看其值是否是0xFF和有沒有進位位產(chǎn)生。如果為0xFF，則進行位填充處理，如果有進位位產(chǎn)生，則對B寄存器值進行加1處理，再看是否要進行位填充。這種處理方法具有很強的串行性，無法在1個時鐘周期內(nèi)完成全部的字節(jié)輸出過程，因此，有必要對這種方式進行改進。由于原算法加入了3位間隔位來限制輸出值的范圍，為了符合標準，至少要左移19（即8+3+8）位才輸出1個字節(jié)，同理，至少左移27位才輸出2個字節(jié)，而小于19位的則不輸出字節(jié)，處理好的數(shù)據(jù)全部放到剩余的數(shù)據(jù)存儲器bitbuf中去。而MQ編碼器的輸出方式是增量輸出的，因此可以把要左移處理的數(shù)據(jù)與上一次剩余的數(shù)據(jù)進行合并，這與標準算法的思想是完全一致的。
　首先把tempC中的數(shù)據(jù)進行掩膜處理得到包含左移數(shù)據(jù)位的Cmask，同時對Cmask進行左移17位，使Cresult的位數(shù)和augment的位數(shù)相同（augment為34位），再對其進行右移一定位數(shù)，使左移數(shù)據(jù)能夠正確地合并到編碼數(shù)據(jù)中去。Cresult可以表示為：
　Cresult={Cmask,17{1’b0}}>>CT-1
其中CT為一個5位的加法計數(shù)器，它對當(dāng)前剩余的數(shù)據(jù)進行位數(shù)計數(shù)。為了減少路徑開銷，可以把Cresult改成：
Cresult={Cmask，18{1’b0}}>>CT
　由于剩余的數(shù)據(jù)位最多為18位，因此bitbuf采用一個18位的寄存器作為處理空間。可以這樣把左移數(shù)據(jù)合并到數(shù)據(jù)流中：
　augment[33:16]=bitbuf+Cresult[33:16]
　augment[15:0]=Cresult[15:0]
　這是因為僅有高18位的Cresult需要進行相加，而后16位只進行簡單的復(fù)制即可。這樣做就可以不必考慮進位位的值及緩沖值B加1后是否需要進行位填充這幾個因素，可以在一個時鐘周期內(nèi)一步到位地進行字節(jié)輸出。同時，為了與標準輸出一致，把CT（5位）的初始值設(shè)為-1，即為11111。圖4為改進的字節(jié)輸出的bitbuf更新處理部分，圖5為字節(jié)輸出的計數(shù)更新處理部分。

最后，由于輸出的字節(jié)數(shù)可能為0、1、2這3種情況，有必要對輸出數(shù)據(jù)進行緩沖，因此需要在最后添加一個FIFO對輸出的數(shù)據(jù)進行緩沖。
3 實驗結(jié)果和性能比較
　本文的MQ編碼器采用Verilog語言進行RTL級描述，在Modelsim-Altera軟件下進行仿真，仿真結(jié)果和標準算法的計算結(jié)果一致，如圖6所示。在QuartusII中選用器件EP2S60F67214對代碼進行綜合、布局布線及時序分析。仿真結(jié)果表明，本設(shè)計結(jié)構(gòu)最大的時鐘頻率可達65.19 MHz，吞吐量可達65.19 MCxD/s。與參考文獻[5]中的方案的比較如表1所示。表2所示為MQ編碼器的資源使用情況。

　結(jié)果顯示，本設(shè)計占用資源很少的情況下，在最高時鐘頻率上不及參考文獻[5]，因為本設(shè)計結(jié)構(gòu)為了節(jié)省時鐘周期在關(guān)鍵路徑上沒有采用流水線分割，但在整體的處理速度上有較大的改進，可以滿足硬件高速編碼要求。
　本文針對JPEG2000MQ編碼器的硬件實現(xiàn)，提出了一種4級流水的設(shè)計方案。對MQ編碼器的原理和算法流程進行了分析，采用超前狀態(tài)分析避免了時序上的沖突，同時優(yōu)化了條件判斷邏輯以及改進了字節(jié)輸出的處理結(jié)構(gòu)，減少了路徑的開銷。最終通過Aletra的FPGA的驗證，處理速度可達65.19 MCxD/s。
參考文獻
[1] TAUBMAN D S, MARCELLIM M W. JPEG2000圖像壓縮基礎(chǔ)、標準和實踐[M]. 魏立江，柏正堯，譯. 北京：電子工業(yè)出版社,2005.
[2] ISO/IEC. FCD 1544421, final committee draft, JPEG2000 lmage coding systems[Z].
[3] HSIAO Y T, LIN H D, LEE K B, et al. High-speed memory-saving architecture for the embedded block coding in JPEG2000[C]//IEEE International Symposium on Circuits and Systems, 2002,5:133-136.
[4] DYER M, TAUBMAN D, NOOSHABADI S.Improved throughput arithmetic coder for JPEG2000[J]. Proc.Internation Conference on Image Processing(ICIP’04),2004.
[5] 周赟. 基于JPEG2000的高速MQ算術(shù)編碼器的研究與實現(xiàn)[A].Information technology, 2007(10):49-52.
[6] 王鎮(zhèn)道,章兢，曾云，等.一種高速JPEG2000 MQ編碼器的VLSI 實現(xiàn)[A].微計算機信息，2006,(9-3):232-233.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容