《電子技術(shù)應用》
您所在的位置:首頁 > 可編程邏輯 > 設(shè)計應用 > H.264/AVC中CAVLC編碼器的硬件設(shè)計與實現(xiàn)
H.264/AVC中CAVLC編碼器的硬件設(shè)計與實現(xiàn)
來源:電子技術(shù)應用2010年第7期
何騰波,,盛利元,,蔣文明
中南大學 物理科學與技術(shù)學院,,湖南 長沙410083
摘要: 設(shè)計了一種H.264標準的CAVLC編碼器,,對原有軟件流程進行部分改進,,提出了并行處理各編碼子模塊的算法結(jié)構(gòu),。重點對非零系數(shù)級(level)編碼模塊進行優(yōu)化,,采用并行處理和流水線相結(jié)合的結(jié)構(gòu),,減少了cavlc編碼的時鐘周期,,提供了穩(wěn)定吞吐量,。采用Xilinx公司VirtexⅡ系列的xc2v250 FPGA進行實現(xiàn)驗證,最高時鐘頻率可達158.1 MHz,,可滿足實時編碼H.264高清視頻要求,。
中圖分類號: TN919
文獻標識碼: A
文章編號: 0258-7998(2010)07-0066-03
Hardware design and implementation of CAVLC encoding in H.264/AVC
HE Teng Bo,SHENG Li Yuan,,JIANG Wen Ming
School of Physics Science and Technology, Central South University, Changsha 410083,,China
Abstract: This paper proposes an implementation of CAVLC encoding architecture for H.264. The original software flow is improved. The sub-coding modules work in parallel. The emphasis is on the optimization of non-zero coefficient level coding, using parallel processing and pipelining structure to reduce the cycles of cavlc coding and provide a stable throughput. The circuit is implemented and verified by VirtexⅡxc2v250 FPGA of Xilinx. The highest frequency reached 158.1 MHz. It is sure that the design meets the real - time processing requirement for H.264 HD video encoding.
Key words : H.264/AVC;VLC,;FPGA,;level coding

    H.264/AVC是ITU-T和ISO聯(lián)合發(fā)布的國際視頻壓縮標準[1],比特壓縮率分別是MPEG-4、H.263及MPEG-2的39%,、49%及64%[2],,是一種高壓縮比的新標準?;趦?nèi)容的自適應可變長編碼(CAVLC)是H.264中關(guān)鍵技術(shù)之一,,應用于H.264的基本檔次和擴展檔次對亮度和色度殘差數(shù)據(jù)塊進行編解碼,編碼效率高,,抗誤碼和糾錯能力強[3],,但計算復雜度大,用軟件編碼難以滿足高清視頻實時性要求,。H.264編碼過程不涉及任何浮點數(shù)運算,,特別適合硬件電路實現(xiàn)。文獻[4]提出的CAVLC編碼可分成掃描和編碼2部分,,掃描部分對殘差數(shù)據(jù)zig-zag逆序掃描后,,提取出run-level標志以及相關(guān)信息提供給編碼部分進行編碼。文獻[5]對掃描模塊進行了優(yōu)化,。編碼模塊中非零系數(shù)級(level)編碼計算量最大,,復雜度最高。本文充分利用FPGA高速實時特點,,采用并行處理及流水線設(shè)計,,通過優(yōu)化CAVLC編碼結(jié)構(gòu)和level編碼子模塊,提高CAVLC編碼器的性能,。
1 CAVLC原理
    CAVLC是一種依據(jù)4×4塊變換系數(shù)的zig-zag掃描順序進行的編碼算法,。塊系數(shù)的非零系數(shù)幅值較小,主要集中在低頻段,,經(jīng)過zig-zag掃描后,,連續(xù)零的個數(shù)較多,采用run-level游程編碼,,通過編碼5個語義元素能夠?qū)崿F(xiàn)高效無損壓縮,,編碼流程如圖1所示。zig-zag掃描后,,順序編碼系數(shù)標記(coeff_token),。尾1的符號(trailing_ones_sign_flag)、除尾1外非零系數(shù)的級(level),,最后一個非零系數(shù)前零的個數(shù)(total_zeros)和零的游程(run_before)。其中TC,、T1,、T0分別表示非零系數(shù)個數(shù)、尾1個數(shù)以及最后一個非零系數(shù)前零的個數(shù)。由于CAVLC編碼流程是串行的,,軟件容易實現(xiàn),,但執(zhí)行速度慢且效率低。

2 CAVLC編碼器硬件結(jié)構(gòu)設(shè)計
2.1 并行化編碼結(jié)構(gòu)

    為了提高運算速度和效率,,將圖1的CAVLC編碼流程并行化處理,,適合FPGA實現(xiàn)。根據(jù)文獻[4]提出的思路,,將CAVLC編碼分成掃描和編碼2部分,,見圖2。由zig-zag逆序掃描,、統(tǒng)計,、編碼、碼流整合4個模塊組成,。zig-zag模塊和統(tǒng)計模塊構(gòu)成掃描部分,,編碼模塊和碼流整合模塊構(gòu)成編碼部分,系統(tǒng)采用狀態(tài)機控制,。由于trailing_ones_sign_flag,、level和run_before都是從zig-zag掃描后序列的尾部開始編碼,所以本設(shè)計中zig-zag采用逆序掃描,。統(tǒng)計模塊用計數(shù)器統(tǒng)計zig-zag逆序掃描輸出序列的TC,、T1和T0,將尾1符號(T1_sign),、除尾1外的非零系數(shù)(coeffs)和零的游程(runbefore)存入緩存器并輸出,。編碼模塊分成6個子模塊:NC生成模塊、coeff_token模塊,、trailing_ones_sign_flag模塊,、level模塊、total_zeros模塊以及run_before模塊,。統(tǒng)計模塊給各編碼子模塊提供輸入數(shù)據(jù),,保證各編碼子模塊并行工作,減少了CAVLC編碼的時鐘周期,,提高了編碼器執(zhí)行效率,。由于CAVLC編碼是變長的,使得每個編碼子模塊的輸出碼流長度不確定,,各編碼子模塊的碼字寄存器寬度不同,。為了保證各編碼子模塊生成的碼字能夠緊湊無縫鏈接和有效存儲,在各編碼子模塊的碼字輸出中嵌入輸出標志信號和碼長信息,,當輸出標志信號為高電平時碼字與碼長有效,,低電平時則無效,,經(jīng)碼流整合模塊整合后輸出。

2.2 level編碼的優(yōu)化實現(xiàn)
    非零系數(shù)級編碼是CAVLC編碼中復雜度最高,、計算量最大,、編碼延時最長的部分也是CAVLC編碼器高速、高效運行的瓶頸之一,。根據(jù)H.264中CAVLC的level解碼步驟[6]可設(shè)計出相應的編碼流程,,如圖3所示。

    (1)初始化suffixlength為0,,如果TC>10,,并且T1<3,則初始化為1,。
    (2)計算中間變量levelcode[i]:
 
    (5)寫碼字,。
    非零系數(shù)級的碼字為&ldquo;前綴碼字+后綴碼字&rdquo;,前綴碼字為prefix個0后緊跟一個1(即前綴碼字為1,,碼長為prefix+1),,后綴碼字值為suffix,碼長為levelsuffixsize,。
    依據(jù)圖3編碼流程,,level編碼所需的時鐘周期與TC和T1之差有關(guān),不同的數(shù)據(jù)塊所需的時鐘周期不同,,而編碼前需經(jīng)過掃描和統(tǒng)計,。當非零系數(shù)較多時,level編碼采用傳統(tǒng)的串行方式所需的時鐘周期可能比統(tǒng)計模塊所耗要多,,導致不穩(wěn)定的吞吐量,。另一方面,獲得level的碼字需知道該系數(shù)的prefix,、suffix以及l(fā)evelsuffixsize,,而levelsuffixsize的大小是自適應變化的,與上一個已編碼系數(shù)的絕對值大小有關(guān),,這給并行處理帶來了一定困難,。為此,采用并行處理和兩級流水線相結(jié)合的結(jié)構(gòu)并行處理2個非零系數(shù),,如圖4所示,。第一級初始化suffixlength,求coeffs的絕對值及中間變量levelcode,;第二級更新suffixlength,,計算prefix,suffix和levelsuffixlength,。模塊coeffs SIPO buffer實現(xiàn)串行輸入并行輸出,,輸入輸出關(guān)系如圖5所示,。

3 實驗驗證分析
    Level編碼電路結(jié)構(gòu)采用Verilog HDL語言描述,在ModelSim SE 6.0上進行仿真,,使用Synplicity公司的Synplify Pro完成綜合過程。最后采用Xilinx公司VirtexⅡ系列的xc2v250 FPGA進行實現(xiàn)和驗證,。
    圖6給出了ModelSim的仿真波形,,其結(jié)果與JVT校驗軟件模型JM16.2[7]的值一致。從圖6可以看出,,并行編碼TC-T1個level值比串行方式節(jié)省(TC-T1)/2個時鐘周期,,當非零系數(shù)較多時,也能獲得穩(wěn)定的吞吐量,。表1給出了Synplify Pro綜合的硬件資源報告,。系統(tǒng)允許的最高時鐘頻率為158.1 MHz,硬件資源消耗如表1所示,。綜上所述,,本設(shè)計滿足H.264實時高清視頻編碼的要求。

參考文獻
[1] Joint Video Team(JVT) of ISO/IEC MPEG and ITU-T VCEG.Draft ITU-T Recommendation and Final Draft International Standard of Joint Video Specification(ITU-T Rec. H.264 | ISO/IEC 14496-10 AVC)[S].JVT-G050r1,,F(xiàn)airfax,,VA,2003.
[2] ANTHONY J,,F(xiàn)AOUZI K,,HEIKO S,et alo.Performance comparison of video coding standards using lagrangian coder control[J].IEEE Int.Conf.on Image Processing,,2002:501-504.
[3] THOMAS W,,GARY J.SULLIVAN,GISLE Bj,,AJAY L. Overview of the H.264/AVC video coding standard[J].IEEE Trans.on Circuits and Systems for Video Technology,,2003,13(7):560-576.
[4] CHEN Tung Chien,,HUANG Yu Wen,,TSAI Chuan Yung,et al.Architecture design of context-based adaptive variable-length coding for H.264/AVC[J].IEEE Trans.Circuits Syst.II,,2006,,53(9):832-836.
[5] LEE W,JUNG Y,,LEE S,,et al.High-speed CAVLC encoder  for H.264/AVC using parallel zig-zag scanning[J].IEEE  Electronics Letters,2009,,45(24):1226-1227.
[6] ITU-T,,H.264.Advanced Video Coding for Generic Audio visual Services,,2007.
[7] JointVideoTeam(JVT)referencesoftware,2009[Online].Available:http://iphome.hhi.de/suehring/tml/download/jm16.2.zip.

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。