【摘要】:本文介紹了有關數(shù)字電視信源編碼的一些主要技術和標準,包括數(shù)字演播室標準ITU--601,壓縮編碼的基本原理和方法,圖像壓縮編碼標準H261,JPEG和MPEG,以及作為數(shù)字電視信源編碼標準輸出的MPEG--2碼流的形成,。
準數(shù)字電視和數(shù)字高清晰度電視在內的數(shù)字電視體系的開發(fā)研究正加緊進行。美國已完成稱為GA的數(shù)字高清晰度電視的標準制定及其進入實用的時間表,歐洲則在開發(fā)獨立的數(shù)字電視方案,,并制定了數(shù)字電視廣播DVB的標準,。這一切都是以數(shù)字電視信源編碼的一系列技術與標準的成熟為基礎的,。信源編碼作為數(shù)字電視系統(tǒng)的核心構成部分,,直接決定了數(shù)字電視的基本格式及其信號編碼效率,決定了數(shù)字電視最終如何在實際的系統(tǒng)中實現(xiàn),。
一.數(shù)字電視的信源編碼
一個完整的數(shù)字電視系統(tǒng)包括數(shù)字電視信號的產生,、處理、傳輸,、接收和重現(xiàn)等諸多環(huán)節(jié),。數(shù)字電視信號在進入傳輸通道前的處理過程一般如圖1所示:
電視信號在獲取后經過的第一個處理環(huán)節(jié)就是信源編碼。信源編碼是通過壓縮編碼來去掉信號源中的冗余成分,,以達到壓縮碼率和帶寬,,實現(xiàn)信號有效傳輸?shù)哪康摹P诺谰幋a是通過按一定規(guī)則重新排列信號碼元或加入輔助碼的辦法來防止碼元在傳輸過程中出錯,,并進行檢錯和糾錯,,以保證信號的可靠傳輸。信道編碼后的基帶信號經過調制,,可送入各類通道中進行傳輸,。目前數(shù)字電視可能的傳輸通道包括衛(wèi)星,地面無線傳輸和有線傳輸?shù)取?br />
信源編碼的目的是通過在編碼過程中對原始信號冗余度的去除來壓縮碼率,,因此壓縮編碼的技術與標準成為信源編碼的核心,。九十年代以來,各種壓縮編碼的國際標準相繼推出,,其中MPEG-2是專為數(shù)字電視《包括標準數(shù)字電視和數(shù)字高清晰度電視》制定的壓縮編碼標準,。MPEG-2壓縮編碼輸出的碼流作為數(shù)字電視信源編碼的標準輸出碼流已被廣泛認可。目前數(shù)字電視系統(tǒng)中信源編碼以外的其他部分,,包括信道編碼,,調制器,解調器等,,大都以MPEG-2碼流作為與之適配的標準數(shù)字信號碼流,。
信源編碼的第一步首先要對模擬電視信號進行取樣和模數(shù)變換,,相應的需要一個統(tǒng)一的標準。數(shù)字演播室標準ITU-R601正是為此制定的國際標準,。
二.數(shù)字演播室標準ITU-R601
早在七十年代末,,英國廣播公司和索尼公司就分別展示了其各自開發(fā)的彩色數(shù)字錄像機,成為最早的數(shù)字電視編錄產品,,由此促成了電視信號模數(shù)轉換規(guī)范的產生。1980年,,國際無線電咨詢委員會CCIR提出了電視信號模數(shù)轉換標準的建議,,即稱為數(shù)字演播室標準的CCIR601。后來CCIR成為國際電信聯(lián)盟的無線電委員會,,稱為ITU-R,,相應的CCIR-601也改稱ITU-R601,成為模擬電視向數(shù)字電視轉變過程中的第一個標準規(guī)范,。
ITU-R601主要是一種取樣標準,。模擬電視信號據(jù)此取樣后進行8比特量化和線性PCM編碼,即可得到符合數(shù)字演播室標準的基帶數(shù)字信號,。但是,,由此得到的數(shù)字電視信號具有非常高的碼率和帶寬,難以進入實用,。雖然ITU-R601建議早在1980年已經制定,,但直到九十年代一系列有效的圖像數(shù)碼壓縮技術及相應的國際標準出現(xiàn)以后,數(shù)字電視才得到了迅速的發(fā)展,。
圖像數(shù)據(jù)的壓縮主要基于對各種圖像數(shù)據(jù)冗余度及視覺冗余度的壓縮,,包括如下一些方法:
1.統(tǒng)計冗余度的壓縮:對于一串由許多數(shù)值構成的數(shù)據(jù)來說,如果其中某些值經常出現(xiàn),,而另外一些值很少出現(xiàn),,則這種由取值上的統(tǒng)計不均勻性就構成了統(tǒng)計冗余度,可以對之進行壓縮,。具體方法是對那些經常出現(xiàn)的值用短的碼組來表示,,對不經常出現(xiàn)的值用長的碼組來表示,因而最終用于表示這一串數(shù)據(jù)的總的碼位,,相對于用定長碼組來表示的碼位而言得到了降低,,這就是熵編碼的思想。目前用于圖像壓縮的具體的熵編碼方法主要是霍夫曼編碼,,即一個數(shù)值的編碼長度與此數(shù)值出現(xiàn)的概率盡可能地成反比,。霍夫曼編碼雖然壓縮比不高,,約為1.6:1,,但好處是無損壓縮,,目前在圖像壓縮編碼中被廣泛采用。
視頻圖像在每一點的取值上具有任意性,。對于運動圖像而言,,每一點在一段時間內能取可能的任意值,在取值上具有統(tǒng)計均勻性,,難以直接運用熵編碼的方法,,但可以通過適當?shù)淖儞Q編碼的方法,如DCT變換,,使原圖像變成由一串統(tǒng)計不均勻的數(shù)據(jù)來表示,,從而利用霍夫曼編碼來進行壓縮。
2.空間冗余度的壓縮:一幅視頻圖像相鄰各點的取值往往相近或相同,,具有空間相關性,,這就是空間冗余度。圖像的空間相關性表示相鄰象素點取值變化緩慢,。從頻域的觀點看,,意味著圖像信號的能量主要集中在低頻附近,高頻信號的能量隨頻率的增加而迅速衰減,。通過頻域變換,,可以將原圖像信號用直流分量及少數(shù)低頻交流分量的系數(shù)來表示,這就是變換編碼中的正交余弦變換DCT的方法,。DCT是JPEG和MPEG壓縮編碼的基礎,,可對圖像的空間冗余度進行有效的壓縮。
視頻圖像中經常出現(xiàn)一連串連續(xù)的象素點具有相同值的情況,,典型的如彩條,,彩場信號等。只傳送起始象素點的值及隨后取相同值的象素點的個數(shù),,也能有效地壓縮碼率,,這就是行游程編碼。目前在圖像壓縮編碼中,,行游程編碼并不直接對圖像數(shù)據(jù)進行編碼,,主要用于對量化后的DCT系數(shù)進行編碼。
3.時間冗余度的壓縮:時間冗余度表現(xiàn)在電視畫面中相繼各幀對應象素點的值往往相近或相同,,具有時間相關性,。在知道了一個象素點的值后,利用此象素點的值及其與后一象素點的值的差值就可求出后一象素點的值,。因此,,不傳送象素點本身的值而傳送其與前一幀對應象素點的差值,也能有效地壓縮碼率,,這就是差分編碼DPCM,。在實際的壓縮編碼中,,DPCM主要用于各圖像子塊在DCT變換后的直流系數(shù)的傳送。相對于交流系數(shù)而言,,DCT直流系數(shù)的值很大,,而相繼各幀對應子塊的DCT直流系數(shù)的值一般比較接近,在圖像未發(fā)生跳變的情況下,,其差值同直流系數(shù)本身的值相比是很小的,。
由差分編碼進一步發(fā)展起來的預測編碼,是根據(jù)一定的規(guī)則先預測出下一個象素點或圖像子塊的值,,然后將此預測值與實際值的差值傳送給接收端,。目前圖像壓縮中的預測編碼主要用于幀間壓縮編碼,方法是先根據(jù)一個子塊的運動矢量求出下一幀對應子塊的預測值及其與實際值的差值,,接收端根據(jù)運動矢量及差值恢復出原圖像,。由于運動矢量及差值的數(shù)據(jù)量低于原圖像的數(shù)據(jù)量,,因而也能達到圖像數(shù)據(jù)壓縮的目的,。
4.視覺冗余度的壓縮:視覺冗余度是相對于人眼的視覺特性而言的。人眼對于圖像的視覺特性包括:對亮度信號比對色度信號敏感,,對低頻信號比對高頻信號敏感,,對靜止圖像比對運動圖像敏感,以及對圖像水平線條和垂直線條比對斜線敏感等,。因此,,包含在色度信號,圖像高頻信號和運動圖像中的一些數(shù)據(jù)并不能對增加圖像相對于人眼的清晰度作出貢獻,,而被認為是多余的,,這就是視覺冗余度。
壓縮視覺冗余度的核心思想是去掉那些相對人眼而言是看不到的或可有可無的圖像數(shù)據(jù),。對視覺冗余度的壓縮通常已反映在各種具體的壓縮編碼過程中,。如對于DCT系數(shù)的直流與低頻部分采取細量化,而對高頻部分采取粗量化,,使得DCT變換能借此壓縮碼率,,并能有效地進行行游程編碼。在幀間預測編碼中,,大碼率壓縮的預測幀及雙向預測幀的采用,,也是利用了人眼對運動圖像細節(jié)不敏感的特性。
圖像壓縮編碼的具體方法雖然還有多種,,但大都是建立在上述基本思想之上的,。DCT變換,行游程編碼,,DPCM,,幀間預測編碼及霍夫曼編碼等編碼方法,,因技術上的成熟,已被有關國際組織定為壓縮編碼的主要方法,。
三.圖像壓縮的主要技術與標準
目前有關圖像壓縮方面的主要標準包括CCITT的H.261,JPEG和MPEG,。是分別針對電視電話圖像,靜止圖像和活動圖像的壓縮編碼標準,。這幾種壓縮標準雖然各自針對性不同,,但壓縮編碼方法大體相似。
1 H.261
圖像壓縮編碼標準的提出最早源于通訊中對可視電話的研究,。經過多年努力,,至1980年,國際電報電話咨詢委員會CCITT所屬的視頻編碼專家組的H.261建議被通過,,成為可視電話和電話會議的國際標準,。H.261又稱Px64,傳輸碼率為Px64kbps,,其中P=1-30可變,,根據(jù)圖像傳輸清晰度的不同,碼率變化范圍在64kbps至1.92Mbps之間,,編碼方法包括DCT變換,,可控步長線性量化,變長編碼及預測編碼等,。其簡化的編碼原理框圖如圖2所示,。
圖中,DCT變換的輸入輸出選擇開關由幀內/幀間模式選擇電路控制,。在幀內模式時,,開關打到上面,輸入信號經DCT變換,,線性量化和變長編碼后輸出,,圖像只進行幀內壓縮。在幀間模式時,,開關打到下面,,前一幀圖像信號經過預測環(huán)中的運動補償后產生一個后幀的預測信號。后幀的實際輸入信號與其預測值相減后,,在進行一個幀內壓縮編碼的過程后輸出,。
圖中變長編碼器產生的控制信號送量化器以控制其量化步長。當變長編碼器的輸入中連續(xù)出現(xiàn)許多大數(shù)值的數(shù)據(jù),,導致集中出現(xiàn)長的碼組,,使緩存器接近溢出時,控制信號使量化器的量化步長加大,以降低大數(shù)值數(shù)據(jù)的出現(xiàn),;反之,,也可控制量化器以減小其量化步長。在預測環(huán)路中由于存在用于恢復前幀信號的反量化器,,量化步長控制信號也要送到預測環(huán)中的反量化器中,。
H.261所針對的可視電話信號最初考慮是在一般電話網(wǎng)中傳輸?shù)模瑤捄痛a率是其考慮的核心問題,。其每幀取樣點數(shù)比ITU-R601所規(guī)定的低許多,,且采取抽幀傳輸?shù)姆椒ǎ瑹o法滿足數(shù)字電視壓縮編碼的要求,,但H.261是此前壓縮編碼數(shù)十年研究的結果,,成為以后JPEG和MPEG編碼方法的重要基礎。
2 JPEG
1986年,,國際標準化組織ISO和國際電報電話咨詢委員會CCITT共同成立了聯(lián)合圖像專家組《Joint Photographic Experts Group》,,對靜止圖像壓縮編碼的標準進行了研究,JPEG小組于1988年提出建議書,,1992年成為靜止圖像壓縮編碼的國際標準,。JPEG是一個達到數(shù)字演播室標準的圖像壓縮編碼標準,其亮度信號與色度信號均按照ITU-R601的規(guī)定取樣后劃分為8x8子塊進行編碼處理,。
JPEG是一種不含幀間壓縮的幀內壓縮編碼方法,,其主要編碼過程與H.261的幀內編碼過程大致相同,。輸入信號經DCT變換后,,按固定的亮度與色度量化矩陣進行非線性量化。對量化后的DCT直流系數(shù)進行差分編碼,,交流系數(shù)進行行游程編碼,,再按霍夫曼碼表進行變長編碼后,送緩存器輸出,。
JPEG不含幀間壓縮,,壓縮比較幀內/幀間壓縮低。但因為不含幀間壓縮,,使得各幀在壓縮編碼后是各自獨立的,,這一點對于編輯來說是有利的,可以做到精確到逐幀的編輯,。所以對于活動畫面只進行幀內壓縮的Motion-JPEG,,目前仍然在一些數(shù)字電視編錄設備,如非線性編輯系統(tǒng)中得到應用,。
3 MPEG
1988年,,國際標準化組織ISO和國際電工委員會IEC共同組建了運動圖像專家組《Moving Picture Experts Group》,對運動圖像的壓縮編碼標準進行了研究。1992年和1994年分別通過了MPEG-1和MPEG-2壓縮編碼標準,。
MPEG-1主要是針對運動圖像和聲音在數(shù)字存儲時的壓縮編碼,,典型應用如VCD等家用數(shù)字音像產品,其編碼最高碼率為1.5Mbps,。MPEG-2則針對數(shù)字電視的視音頻壓縮編碼,,對數(shù)字電視各種等級的壓縮編碼方案及圖像編碼中劃分的層次作了詳細的規(guī)定,其編碼碼率可從3Mbps到100Mbps,。
MPEG的基本編碼過程與H.261相似,,即通過DCT進行幀間壓縮。除了在編碼語法上加進了一些特別規(guī)定外,,與H.261的一個重要不同是MPEG在預測編碼中加進了一個雙向預測幀B幀,,如圖3所示。
圖中,,I幀只進行幀內壓縮,,是作為預測基準的獨立幀,具有較小的壓縮比,。由I幀前向預測產生的P幀具有中等壓縮比,,并與I幀一起成為B幀的預測基準。由此產生的B幀則具有最高的壓縮比,。I幀出現(xiàn)的頻率及I,,B,P幀之間如何組合,,MPEG未作具體規(guī)定,,可由編碼器自行選擇。如索尼的數(shù)字Betacom錄像機,,為便于精確地編輯,,在壓縮編碼過程中抽掉了B幀,只有I幀與P幀的組合,。
在上述各種圖像壓縮編碼標準中,,MPEG-2是專門針對數(shù)字電視的。MPEG-2的壓縮編碼及其標準碼流的形成構成了數(shù)字電視信源編碼的核心,。
四.MPEG-2標準碼流的形成
符合MPEG-2格式的碼流成為數(shù)字電視信源編碼的標準輸出碼流,。數(shù)字電視信道編碼,DVB及MPEG-2解碼器等均認同和適應此標準,。為了形成統(tǒng)一標準的MPEG-2輸出碼流,,MPEG-2對其壓縮編碼的適用范圍和編碼語法,對碼流的打包與復用等作了詳細具體的規(guī)定,。
1.MPEG-2的類和級
在對數(shù)字電視信號進行壓縮編碼時,,MPEG-2可采用多種編碼工具并實現(xiàn)不同層次的清晰度,分別稱為MPEG-2的類《Profile》和級《Level》,具體分為五類四級,。
圖像清晰度由LOW到HIGH逐級提高,,使用的編碼工具從SIMPLE到HIGH依次遞增。20個可能的組合中有11個已獲通過,,稱為MPEG-2 適用點,,其中主類主級MP@ML適用于標準數(shù)字電視,主類高級MP@HL則用于高清晰度電視,。
2.MPEG-2的層
MPEG-2根據(jù)圖像塊和圖像幀的不同組合劃分為六層,。MPEG-2的層直接決定了編碼碼流的形成和結構。MPEG-2的層從下至上依次為:
象塊層:由8x8個象素點構成的DCT變換基本單元,;
宏塊層:在4:2:2取樣中,,一個宏塊由4個亮度象塊,2個Cr象塊和2個Cb 象塊構成,。另外還有4:2:0取樣和4:4:4取樣的兩種宏塊,;
像條層:一連串宏塊可構成一個像條;
圖像層:一系列像條可以構成一幅圖像,,圖像分為I,,B,P三類,;
圖像組層:由相互間相關的一組I,,B,P幀組成,,I幀為第一幀,;
視頻序列層:一系列圖像組構成了一個視頻序列;
從象塊開始從下至上依次編碼,,并在除象塊和宏塊外的每一層的開始處加上起始碼和頭標志,,就形成了MPEG-2基本碼流(Elementary Stream〕,。
3.MPEG-2基本碼流的打包與復用
分別從MPEG-2編碼器中輸出的視頻,,音頻和數(shù)據(jù)基本碼流無法直接送信道傳輸,需要經過打包和復用,,形成適合傳輸?shù)膯我坏腗PEG-2傳輸碼流,。
視頻,音頻及數(shù)據(jù)基本碼流ES先被打成一系列不等長的PES小包,,稱為打包的基本碼流,。每個PES小包帶有一個包頭,內含小包的種類,,長度及其他相關信息,。視頻,音頻及數(shù)據(jù)的PES小包,按照共同的時間基準,,經節(jié)目復用后形成單一的節(jié)目碼流,。多路節(jié)目碼流經傳輸復用后形成由定長傳輸小包組成的單一的傳輸碼流,成為MPEG-2信源編碼的最終輸出信號
在數(shù)字化電視信號的信源編碼中,,根據(jù)對圖像清晰度的不同要求及其他方面的考慮,,可分別采用JPEG、MPEG-1和MPEG-2作為編碼方法,。其中,,MPEG-2由于專門針對數(shù)字電視的信源編碼制定了一系列的語法和規(guī)范并被廣泛認可,已成為數(shù)字電視廣播信源編碼的核心技術與標準,。