IP網(wǎng)絡(luò)電話中常用的語(yǔ)音壓縮編碼技術(shù)的性能分析-AET-電子技術(shù)應(yīng)用

IP網(wǎng)絡(luò)電話中常用的語(yǔ)音壓縮編碼技術(shù)的性能分析

日期： 2008-12-02

作者：徐春秀武穆清

關(guān)鍵詞： 語(yǔ)音信號(hào) 激勵(lì)信號(hào) 壓縮編碼時(shí)延線性預(yù)測(cè)編碼

　　摘? 要: 從語(yǔ)音編碼技術(shù)中常用的三種編碼方法入手,由淺入深地引出了IP網(wǎng)絡(luò)電話中常用的幾種語(yǔ)音壓縮編碼" title="壓縮編碼">壓縮編碼方法,并對(duì)之進(jìn)行了性能分析和比較。

　　關(guān)鍵詞: IP網(wǎng)絡(luò)電話? 語(yǔ)音壓縮編碼? 線性預(yù)測(cè)(LP) 合成-分析法

　　隨著互聯(lián)網(wǎng)的迅速發(fā)展,最近幾年出現(xiàn)了一種在互聯(lián)網(wǎng)上提供電話服務(wù)的新業(yè)務(wù)——IP電話業(yè)務(wù)。一次IP電話呼叫的成本為本地市話費(fèi)、IP網(wǎng)絡(luò)使用費(fèi)以及遠(yuǎn)端市話費(fèi),與傳統(tǒng)長(zhǎng)途電話昂貴的長(zhǎng)途通信費(fèi)相比,可以極大地降低用戶的通信費(fèi)用。正是由于這種極大的價(jià)格優(yōu)勢(shì),使得它一出現(xiàn)便引起了世人充分的注意,同時(shí)互聯(lián)網(wǎng)的蓬勃發(fā)展,有效地利用現(xiàn)有的網(wǎng)絡(luò)資源,來(lái)緩解現(xiàn)有通信網(wǎng)的緊張局面,也是促成這項(xiàng)新技術(shù)迅速發(fā)展的另一原因。從另一個(gè)角度來(lái)看,互聯(lián)網(wǎng)的巨大成功,必將使IP成為未來(lái)信息網(wǎng)絡(luò)的支柱技術(shù),以IP為核心的分組化和以移動(dòng)通信為核心的無(wú)線化已成為電信網(wǎng)絡(luò)演進(jìn)的主流方向。基于TCP/IP的網(wǎng)絡(luò)技術(shù)不但無(wú)可置疑地成為數(shù)據(jù)領(lǐng)域的主導(dǎo)技術(shù),而且已經(jīng)開始進(jìn)入電信領(lǐng)域,其突破口就是電話業(yè)務(wù)。IP網(wǎng)絡(luò)電話的成功開發(fā)和應(yīng)用,預(yù)示了以IP為基礎(chǔ)的新一代信息網(wǎng)絡(luò)的出現(xiàn)。積極地探索和跟蹤這項(xiàng)新技術(shù)無(wú)疑是一項(xiàng)十分有必要和有意義的工作。

　　IP網(wǎng)絡(luò)電話是一項(xiàng)涉及計(jì)算機(jī)網(wǎng)絡(luò)、信令協(xié)議、數(shù)字信號(hào)處理等多個(gè)領(lǐng)域的綜合性技術(shù),它具有價(jià)格低廉、可以靈活地提供各種增值業(yè)務(wù)、有利于企業(yè)建立高效綜合服務(wù)內(nèi)部網(wǎng)、有利于運(yùn)營(yíng)商開拓新的市場(chǎng)、有助于和IP網(wǎng)絡(luò)新技術(shù)的融合、促進(jìn)網(wǎng)絡(luò)技術(shù)的發(fā)展等獨(dú)特的優(yōu)勢(shì)。其中價(jià)格低廉是IP電話能夠進(jìn)入市場(chǎng)的首要因素,其根本原因是IP電話均采用語(yǔ)音分組技術(shù)、語(yǔ)音壓縮編碼和統(tǒng)計(jì)復(fù)用,帶寬利用率高,完成一次通信所需的成本大幅度降低。IP網(wǎng)絡(luò)電話中的語(yǔ)音處理主要需要解決兩個(gè)問題,一是在保證一定話音質(zhì)量的前提下盡可能地降低編碼比特率,二是在IP網(wǎng)絡(luò)環(huán)境下保證一定的通話質(zhì)量。前者正是我們剛剛提到的語(yǔ)音編碼技術(shù)。

1 語(yǔ)音編碼技術(shù)的分類

　　語(yǔ)音處理的研究是和通信技術(shù)的發(fā)展密切相關(guān)的。人們?yōu)樘岣咄ㄐ畔到y(tǒng)的效率而研究語(yǔ)音編碼方法,為滿足低碼率的通信要求,而研究語(yǔ)音分析合成系統(tǒng)——聲碼器。研究語(yǔ)音編碼就是要解決傳輸速率和語(yǔ)音質(zhì)量的矛盾。最早的標(biāo)準(zhǔn)化語(yǔ)音編碼系統(tǒng)是速率為64kb/s的PCM波形編碼器。到二十世紀(jì)90年代中期,速率為4kb/s~8kb/s的波形與參數(shù)混合編碼器,在語(yǔ)音質(zhì)量上已逼近前者的水平且已達(dá)到實(shí)用化階段。根據(jù)語(yǔ)音編碼的發(fā)展過程,我們把該技術(shù)歸納為以下三類:

??? (1) 波形編碼(或稱為非參數(shù)編碼)

　　波形編碼方式是能夠忠實(shí)地表現(xiàn)波形的編碼方式。語(yǔ)音信號(hào)" title="語(yǔ)音信號(hào)">語(yǔ)音信號(hào)的波形編碼力圖使重建的語(yǔ)音波形保持原語(yǔ)音信號(hào)的波形形狀。這類編碼器通常是將語(yǔ)音信號(hào)作為一般的波形信號(hào)來(lái)處理,比如:脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM或△M編碼)、自適應(yīng)差分編碼(ADPCM)、自適應(yīng)預(yù)測(cè)編碼(APC)、自適應(yīng)子帶編碼(ASBC)、自適應(yīng)變換編碼(ATC)等都屬于這類編碼器。以上幾種波形編碼方式分別在64kb/s~16kb/s的速率上能給出高的編碼質(zhì)量。當(dāng)速率進(jìn)一步降低時(shí),其性能會(huì)下降較快。由于這類編碼器通常將語(yǔ)音信號(hào)作為一般的波形信號(hào)來(lái)處理,所以它具有適應(yīng)能力強(qiáng)、話音質(zhì)量好、抗噪抗誤碼的能力強(qiáng)等特點(diǎn),但所需的編碼速率高,其中64kb/s PCM的語(yǔ)聲質(zhì)量成為一個(gè)編碼質(zhì)量的參照標(biāo)準(zhǔn)。

　　(2)參數(shù)編碼(或稱為模型編碼或聲碼化編碼)

　　參數(shù)編碼是根據(jù)聲音的形成模型,把聲音變換成參數(shù)的編碼方式。其基本方法是通過對(duì)語(yǔ)音信號(hào)特征參數(shù)的提取及編碼,力圖使重建語(yǔ)音信號(hào)具有盡可能的可懂性,即保持原語(yǔ)音的語(yǔ)義。而重建的信號(hào)的波形同原語(yǔ)音信號(hào)的波形可能會(huì)有相當(dāng)大的差別。參數(shù)編碼的典型例子語(yǔ)音信號(hào)的線性預(yù)測(cè)編碼" title="線性預(yù)測(cè)編碼">線性預(yù)測(cè)編碼(LPC)已被公認(rèn)為是目前參數(shù)編碼中最有效的方法,它能夠在2.4kb/s的低比特速率下獲得清晰、可懂的合成音。并且易于硬件實(shí)現(xiàn)。這種方法的優(yōu)點(diǎn)是不但能極為精確地估計(jì)參數(shù),還在于它的計(jì)算速度比較快。另外多帶激勵(lì)(MBE)編碼,余弦變換編碼(STC)均屬參數(shù)編碼。

　　由于參數(shù)編碼是依據(jù)語(yǔ)聲模型,重建清晰可識(shí)別的語(yǔ)聲,而不注重波形的擬合,所以這類編碼技術(shù)實(shí)現(xiàn)的是合成語(yǔ)聲質(zhì)量下的低速或極低速的編碼。參數(shù)編碼的優(yōu)點(diǎn)是:編碼速率低,編碼速率通常小于4.8kb/s,可以低至600b/s至2.4kb/s。缺點(diǎn)是:合成語(yǔ)音質(zhì)量差,特別是自然度較低,連熟人之間都不一定能聽出講話人是誰(shuí);另外,這類編碼器對(duì)講話環(huán)境噪聲較敏感,需要安靜的講話環(huán)境才能給出較高的可懂度,且時(shí)延" title="時(shí)延">時(shí)延大。

　　(3) 混合編碼

　　混合編碼是將波形編碼與參數(shù)編碼結(jié)合而產(chǎn)生的一種編碼方式。使語(yǔ)音編碼技術(shù)有了突破性的進(jìn)展。其中提出了一些非常有效的處理方法,產(chǎn)生了新一代的參數(shù)編碼算法,構(gòu)成了新一代的聲碼器。

　　混合編碼結(jié)合了以上兩種編碼方式的優(yōu)點(diǎn),采用線性技術(shù)構(gòu)成聲道模型,不只傳輸預(yù)測(cè)參數(shù)和清濁音信息,而是將預(yù)測(cè)誤差信息和預(yù)測(cè)參數(shù)同時(shí)傳輸,在接收端構(gòu)成新的激勵(lì)源去激勵(lì)預(yù)測(cè)參數(shù)構(gòu)成的合成濾波器,使得合成濾波器輸出的信號(hào)波形與原始語(yǔ)聲信號(hào)的波形最大程度的擬合,從而獲得自然度較高的語(yǔ)聲。這種編碼技術(shù)的關(guān)鍵是:如何高效地傳輸預(yù)測(cè)誤差信息。依據(jù)對(duì)激勵(lì)信息的不同處理,這類編碼主要有:多脈沖線性預(yù)測(cè)編碼(MPLPC)、規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPELPC)、碼激勵(lì)線性預(yù)測(cè)編碼(CELPC)、低時(shí)延的碼激勵(lì)線性預(yù)測(cè)編碼(LD-CELPC)。

　　混合編碼克服了原有波形編碼器與聲碼器的弱點(diǎn),而結(jié)合了它們的優(yōu)點(diǎn),在4~16kb/s速率上能夠得到高質(zhì)量合成語(yǔ)音。在本質(zhì)上也具有波形編碼的優(yōu)點(diǎn)，有一定抗噪和抗誤碼的性能,但時(shí)延較大。

2 語(yǔ)音壓縮編碼的原理

　　IP網(wǎng)絡(luò)電話中的語(yǔ)音處理需要解決的兩個(gè)問題之一是在保證一定話音質(zhì)量的前提下,盡可能降低編碼比特率。這主要依靠語(yǔ)音編碼技術(shù)來(lái)解決。IP網(wǎng)絡(luò)電話宜使用ITU-T定義的低比特率編碼標(biāo)準(zhǔn),其比特率為5.3～16kbit/s，均為低復(fù)雜度編碼算法,話音分組長(zhǎng)度在30ms以下,話音質(zhì)量較好。從前面列舉的幾種編碼方法也可看出,同一段語(yǔ)音信號(hào),采用不同的編碼方式,其編碼后的比特率各不相同。那么為什么我們能夠?qū)φZ(yǔ)音信號(hào)進(jìn)行壓縮編碼從而達(dá)到降低語(yǔ)音信號(hào)的比特率呢?

　　(1) 利用了語(yǔ)音信號(hào)的相關(guān)性

　　語(yǔ)音信源是相關(guān)信源,因此經(jīng)過采樣和量化的信號(hào)之間還有很強(qiáng)的相關(guān)性,為了降低編碼速率,人們就希望盡可能多地去除語(yǔ)音信號(hào)之間的相關(guān)性。線性預(yù)測(cè)編碼技術(shù)(LPC)就是一種用來(lái)去除語(yǔ)音信號(hào)之間相關(guān)性的常用技術(shù)。語(yǔ)音信號(hào)中存在兩種類型的相關(guān)性:其一是在樣點(diǎn)之間的短時(shí)相關(guān)性。語(yǔ)音信號(hào)在某些短時(shí)段中呈現(xiàn)出隨機(jī)噪聲的特性,在另一些短時(shí)段中,則呈現(xiàn)出周期信號(hào)的特性,其它一些是二者的混合。簡(jiǎn)而言之,語(yǔ)音信號(hào)的特征是隨時(shí)間而變化的,只是在一短段時(shí)間中,語(yǔ)音信號(hào)才保持相對(duì)穩(wěn)定一致的特征,也就是語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性。其二是相鄰基音周期之間存在的長(zhǎng)時(shí)相關(guān)性。由于語(yǔ)音信號(hào)中的短時(shí)相關(guān)性和長(zhǎng)時(shí)相關(guān)性很強(qiáng),通過減弱這些相關(guān)性,使語(yǔ)音信號(hào)之間的相關(guān)性降低,然后再進(jìn)行編碼,這樣就可以實(shí)現(xiàn)語(yǔ)音壓縮編碼,降低比特率。例如差分脈沖編碼(DPCM)就是利用了語(yǔ)音信號(hào)的相關(guān)性來(lái)降低比特率的。所謂語(yǔ)音信號(hào)的相關(guān)性,就是相鄰樣點(diǎn)之差很小,其包含的信息量遠(yuǎn)小于抽樣值本身,對(duì)差值編碼而不是對(duì)抽樣值本身進(jìn)行編碼,這樣所需的比特率必然下降,這就是DPCM能夠降低比特率的原因。

　　(2) 利用了人耳的聽覺特性

　　利用人耳的掩蔽效應(yīng)也可以進(jìn)行語(yǔ)音壓縮編碼,降低比特率。兩個(gè)響度不等的聲音作用于人耳時(shí),則響度較高的頻率成份的存在會(huì)影響到對(duì)響度較低的頻率成份的感覺,使其變得不易被察覺,這就是我們所說(shuō)的掩蔽效應(yīng)。在語(yǔ)音頻譜中,能量較高的頻段即共振峰處的噪聲相對(duì)于能量較低頻段的噪聲而言不易被感知。因此在度量原始語(yǔ)音與合成語(yǔ)音之間的誤差時(shí)可計(jì)入這一因素。在語(yǔ)音能量高的頻段,允許二者的誤差大一些,從而進(jìn)一步降低編碼比特率。為此引入一個(gè)頻域感覺加權(quán)濾波器W(f)來(lái)計(jì)算二者的誤差。感覺加權(quán)濾波器的頻率響應(yīng)中的峰、谷值正好與語(yǔ)音譜中相反。所以感覺加權(quán)濾波器的作用就是使實(shí)際誤差信號(hào)的譜不再平坦,而是有著與語(yǔ)音信號(hào)譜具有相似的包絡(luò)形狀。這就使誤差度量的優(yōu)化過程與感覺上的共振峰對(duì)誤差的掩蔽效應(yīng)相吻合,產(chǎn)生較好的主觀聽覺效果。

　　(3) 線性預(yù)測(cè)分析-合成編碼方法

　　IP網(wǎng)絡(luò)電話中所使用的語(yǔ)音信號(hào)壓縮編碼方法大多數(shù)是基于合成-分析法的線性預(yù)測(cè)編碼(AbS-LPC)方法,這是一種混合編碼方法。線性預(yù)測(cè)技術(shù)就是用過去樣點(diǎn)的線性組合來(lái)預(yù)測(cè)當(dāng)前樣點(diǎn)。假如用s(n)代表原始語(yǔ)音信號(hào),用線性預(yù)測(cè)的方法求出預(yù)測(cè)器的系數(shù)ai,構(gòu)成線性預(yù)測(cè)逆濾波器,s(n)通過該濾波器后得到了去除短時(shí)相關(guān)性的語(yǔ)音信號(hào)。再將其進(jìn)行基音預(yù)測(cè),建立基音逆濾波器,去除它的長(zhǎng)時(shí)相關(guān)性后,就可得到最后的殘差信號(hào)。殘差信號(hào)是完全隨機(jī)的、不可預(yù)測(cè)的部分。根據(jù)速率的不同要求,可對(duì)殘差信號(hào)采用不同的量化方法,從而得到不同的編碼速率,讓量化后的殘差信號(hào)作為激勵(lì)信號(hào)" title="激勵(lì)信號(hào)">激勵(lì)信號(hào)依次通過基音濾波器與線性預(yù)測(cè)濾波器后,便得到了合成語(yǔ)音信號(hào),見圖1。

　　編碼的過程就是不斷改變模型參數(shù),使模型更好地適應(yīng)原始語(yǔ)音信號(hào)。為此又引入了合成分析的概念。同時(shí),利用人耳的掩蔽效應(yīng),引入了感覺加權(quán)濾波器。綜合以上兩方面,可以得到圖2所示的線性預(yù)測(cè)分析-合成編碼的方框圖。

　　合成-分析法的基本原理可以概括如下:假定一原始信號(hào)可以用一個(gè)模型來(lái)表示,這個(gè)模型又是由一組參數(shù)來(lái)決定的,隨著這組參數(shù)的變化,模型所產(chǎn)生的合成信號(hào)也就不一樣,原始信號(hào)與合成信號(hào)之間的誤差也隨之而變化。為了使模型參數(shù)能更好地適應(yīng)原始信號(hào),可以規(guī)定一個(gè)誤差準(zhǔn)則:當(dāng)誤差越小,模型合成信號(hào)就和原始信號(hào)越接近。這樣總能找到一組參數(shù),使誤差最小,此時(shí)這組參數(shù)決定的模型就可以用來(lái)表示原始信號(hào)。根據(jù)合成-分析法進(jìn)行語(yǔ)音編碼時(shí),一般在編碼端配備編碼和本地解碼兩個(gè)部分,配備本地解碼的目的是完成合成功能,以便計(jì)算原始語(yǔ)音信號(hào)與合成語(yǔ)音信號(hào)之間的誤差值。為了獲得較好的語(yǔ)音效果,在分析合成語(yǔ)音與原始語(yǔ)音的誤差時(shí),經(jīng)常采用感覺加權(quán)均方差技術(shù),即將合成語(yǔ)音與原始語(yǔ)音的差值通過一個(gè)感覺加權(quán)濾波器,找出使得均方誤差最小的一組語(yǔ)音參數(shù)。原理圖2中之所以采用反饋控制,是為了求出最佳模型參數(shù),使合成語(yǔ)音與原始語(yǔ)音在某種準(zhǔn)則下最為接近。

　　基于合成-分析法的線性預(yù)測(cè)編碼的過程實(shí)質(zhì)上就是不斷地改變模型參數(shù),使模型更好地適應(yīng)原始語(yǔ)音信號(hào)的過程。原始語(yǔ)音信號(hào)被分成幀,幀的長(zhǎng)度和模型參數(shù)決定了編碼速率。

3 IP網(wǎng)絡(luò)電話中常用的幾種語(yǔ)音壓縮編碼算法的性能分析

　　IP網(wǎng)絡(luò)電話應(yīng)用主要使用ITU定義的三個(gè)標(biāo)準(zhǔn):G.723.1、G.728、G.729。它們采用的都是線性預(yù)測(cè)分析-合成編碼和碼本激勵(lì)矢量量化技術(shù),即混合編碼的方法。

3.1 G.723協(xié)議

　　G.723協(xié)議是一個(gè)雙速率語(yǔ)音編碼建議,其兩種速率分別是5.3kb/s和6.3kb/s。此協(xié)議是一個(gè)數(shù)字傳輸系統(tǒng)概況協(xié)議,適用于低速率多媒體服務(wù)中語(yǔ)音或音頻信號(hào)的壓縮算法。它作為完整的H.324系列標(biāo)準(zhǔn)的一部分,是其中語(yǔ)音編碼建議,主要配合低速率圖象編碼H.263標(biāo)準(zhǔn)。在IP電話網(wǎng)關(guān)中,G.723協(xié)議被用來(lái)實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音編解碼處理。

　　G.723.1協(xié)議的編解碼算法中兩種速率的編解碼基本原理是一樣的,只是激勵(lì)信號(hào)的量化方法有差別。對(duì)高速率(6.3 kbit/s)編碼器,其激勵(lì)信號(hào)采用多脈沖最大似然量化(MP-MLQ)法進(jìn)行量化，對(duì)低速率(5.3kbit/s)編碼器,其激勵(lì)信號(hào)采用代數(shù)碼激勵(lì)線性預(yù)測(cè)(ACELP)法量化。

　　編碼過程是首先將速率為64kbit/s的PCM語(yǔ)音信號(hào)轉(zhuǎn)化成均勻量化的PCM信號(hào),然后把輸入語(yǔ)音信號(hào)的每240個(gè)樣點(diǎn)組成一個(gè)幀,也就是30ms的幀長(zhǎng)。每個(gè)幀通過高通濾波器后再分為4個(gè)子幀。對(duì)于每個(gè)子幀,計(jì)算出10階線性預(yù)測(cè)濾波器的系數(shù)。為了適于矢量量化,把預(yù)測(cè)系數(shù)轉(zhuǎn)化為線性頻譜對(duì)(LSP-Line Spectrum Pair),然后進(jìn)行矢量量化。量化前的系數(shù)構(gòu)成短時(shí)感覺加權(quán)濾波器,原始語(yǔ)音信號(hào)經(jīng)過該濾波器得到感覺加權(quán)語(yǔ)音信號(hào)。對(duì)于每?jī)蓚€(gè)子幀,編碼器用感覺加權(quán)語(yǔ)音信號(hào)求得開環(huán)基音周期,基音周期范圍從18個(gè)樣點(diǎn)到142個(gè)樣點(diǎn)。此后編碼器所進(jìn)行的操作都是基于60個(gè)樣點(diǎn)進(jìn)行的。由開環(huán)基音周期和感覺加權(quán)濾波器的沖激響應(yīng)求得閉環(huán)基音周期,閉環(huán)基音周期是在開環(huán)基音周期點(diǎn)周圍的一定范圍內(nèi)求得的。最后,激勵(lì)信號(hào)被量化,然后把這些參數(shù)和激勵(lì)信號(hào)量化結(jié)果傳送到解碼器。由于幀長(zhǎng)為30ms,并存在另外的7.5ms的前向延遲,導(dǎo)致37.5ms總的編碼延遲。

　　G.723.1協(xié)議是為了低速可視會(huì)議業(yè)務(wù)而設(shè)計(jì)的。由于可視會(huì)議業(yè)務(wù)每秒鐘只傳輸很少數(shù)量的幀,而且又有比較大的時(shí)延,這就是G.723.1允許有30ms幀長(zhǎng)的原因。這個(gè)幀長(zhǎng)比較大,卻正好適合可視會(huì)議這種情況。而且它的編碼速率比較低,可以把盡可能多的比特用到圖象傳輸上。

3.2 G.728協(xié)議

　　G.728建議是16kb/s速率的語(yǔ)音編碼標(biāo)準(zhǔn),是H.323協(xié)議中有關(guān)音頻編碼的標(biāo)準(zhǔn),采用的編碼算法是LD-CELP,即低時(shí)延-碼激勵(lì)線性預(yù)測(cè)的算法。G.728協(xié)議有一般CELP編碼器的共同點(diǎn):利用合成-分析、感覺加權(quán)、矢量量化和線性預(yù)測(cè)技術(shù),從碼本中搜索出最佳矢量,把它乘以最佳增益,代替余量信號(hào)作為激勵(lì)信號(hào)。不同之處在于:一般的CELP編碼器采用前向自適應(yīng)預(yù)測(cè)器(Forword Adaptive Predictor)來(lái)去除語(yǔ)音信號(hào)的冗余度,而LD-CELP采用后向自適應(yīng)預(yù)測(cè)器(Backword Adaptive Predictor)對(duì)短時(shí)譜包絡(luò)和增益進(jìn)行預(yù)測(cè)。LD-CELP編碼器發(fā)送的只是激勵(lì)矢量在碼本中的地址標(biāo)號(hào),而解碼端的濾波器參數(shù)和增益參數(shù)都是在解碼端計(jì)算得來(lái)的。在大多數(shù)編碼系統(tǒng)中,這類參數(shù)都是在編碼端求得,然后傳輸?shù)浇獯a端。

　　LD-CELP的一個(gè)幀只有5個(gè)樣點(diǎn),因此編碼器只要等5個(gè)樣點(diǎn)就可以開始計(jì)算最佳激勵(lì)矢量。它的線性預(yù)測(cè)周期是20個(gè)樣點(diǎn),但編碼器不必等20個(gè)樣點(diǎn)的語(yǔ)音信號(hào)才開始進(jìn)行線性預(yù)測(cè),它用以前已經(jīng)量化的語(yǔ)音信號(hào)來(lái)進(jìn)行預(yù)測(cè)分析。它不用象前向自適應(yīng)預(yù)測(cè)器中必須等一幀語(yǔ)音信號(hào)到齊后才能進(jìn)行預(yù)測(cè)分析。因此LD-CELP的延遲很小,為0.625ms,一路編解碼時(shí)延不超過2ms,完全達(dá)到了進(jìn)入公眾網(wǎng)的標(biāo)準(zhǔn)。這種在低時(shí)延下還能保證很高語(yǔ)音質(zhì)量的系統(tǒng)有很好的實(shí)用價(jià)值,付出的代價(jià)是算法計(jì)算復(fù)雜度很高,約為25MIPS左右。編碼過程是首先將速率為64kb/s的PCM輸入信號(hào)轉(zhuǎn)化成均勻量化的PCM信號(hào),接著由5個(gè)連續(xù)的語(yǔ)音樣點(diǎn)組成一個(gè)5維矢量,激勵(lì)碼本中共有1024個(gè)5維矢量。對(duì)每一個(gè)輸入矢量,編碼器利用合成-分析法從碼本中搜索出最佳碼本矢量,然后將10bits的碼本標(biāo)號(hào)傳給對(duì)方。每20個(gè)樣點(diǎn)構(gòu)成一個(gè)復(fù)幀,一個(gè)復(fù)幀構(gòu)成一個(gè)自適應(yīng)周期,每復(fù)幀更新一次LP系數(shù)。最佳碼本矢量通過增益加權(quán)和合成濾波器后形成合成語(yǔ)音,該合成語(yǔ)音用來(lái)更新濾波器狀態(tài),以便繼續(xù)為下一個(gè)輸入矢量進(jìn)行編碼。合成濾波器系數(shù)和增益分別通過各自的后向自適應(yīng)單元進(jìn)行周期性地更新。

　　G.728建議最大的優(yōu)點(diǎn)是它能提供高質(zhì)量和低時(shí)延的語(yǔ)音。為此,它也要付出一定的代價(jià),也就是在實(shí)現(xiàn)中和在實(shí)際應(yīng)用中有其它方面的麻煩,如在誤差疊加、計(jì)算復(fù)雜度(它的線性預(yù)測(cè)階數(shù)是50階,而一般的編碼器是10階)、計(jì)算量的分配、互連問題等方面存在問題。

3.3 G.729協(xié)議

　　G.729協(xié)議是一個(gè)能在8kb/s速率上實(shí)現(xiàn)高質(zhì)量語(yǔ)音編碼的建議,也是H.323協(xié)議中有關(guān)音頻編碼的標(biāo)準(zhǔn)。在IP電話網(wǎng)關(guān)中,G.729協(xié)議被用來(lái)實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音編解碼處理。G.729協(xié)議采用的是CS-ACELP即共軛結(jié)構(gòu)算術(shù)碼激勵(lì)線性預(yù)測(cè)的算法。CS-ACELP以CELP編碼模型為基礎(chǔ),它把語(yǔ)音分成幀,每幀10ms,也就是80個(gè)采樣點(diǎn)。對(duì)于每一幀語(yǔ)音,編碼器從中分析出CELP模型參數(shù),其中包括線性預(yù)測(cè)系數(shù),自適應(yīng)碼本和隨機(jī)碼本的索引值和增益。然后把這些參數(shù)傳送到解碼端,解碼器利用這些參數(shù)構(gòu)成激勵(lì)源和合成濾波器,從而重現(xiàn)原始語(yǔ)音。

　　編碼過程是首先將速率為64kbit/s的PCM語(yǔ)音信號(hào)轉(zhuǎn)化成均勻量化的PCM信號(hào),通過高通濾波器后,把輸入語(yǔ)音信號(hào)的每80個(gè)樣點(diǎn)組成一個(gè)幀,也就是10ms的幀長(zhǎng)。對(duì)于每個(gè)幀,用線性預(yù)測(cè)法求得LP濾波器系數(shù),為了適于矢量量化,把預(yù)測(cè)系數(shù)轉(zhuǎn)化為線譜對(duì)(LSP-Line Spectrum Pair),然后進(jìn)行矢量量化。利用合成-分析方法,使原始語(yǔ)音和合成語(yǔ)音之間的誤差最小,來(lái)獲得最佳激勵(lì)信號(hào)。激勵(lì)信號(hào)的量化是通過兩個(gè)碼本來(lái)實(shí)現(xiàn)的,即自適應(yīng)碼本和隨機(jī)碼本。自適應(yīng)碼本反映的是長(zhǎng)時(shí)預(yù)測(cè)結(jié)果,也就是基音預(yù)測(cè)結(jié)果。隨機(jī)碼本反映的是經(jīng)過長(zhǎng)時(shí)預(yù)測(cè)和短時(shí)預(yù)測(cè)后的殘留信號(hào)。

3.4 幾種語(yǔ)音壓縮編碼方法的共同之處

　　它們都是采用的把參數(shù)編碼和波形編碼結(jié)合起來(lái)所形成了混合編碼。混合編碼有一個(gè)共同的特點(diǎn),就是都有一個(gè)相同的處理過程:先進(jìn)行線性預(yù)測(cè)分析,去掉語(yǔ)音的短時(shí)相關(guān)性,然后再用合成-分析法和感覺加權(quán)均方誤差最小準(zhǔn)則分析出合適的替代余量信號(hào)的最佳激勵(lì)信號(hào),最后對(duì)激勵(lì)信號(hào)和線性預(yù)測(cè)參數(shù)進(jìn)行編碼傳送。

　　混合編碼中把激勵(lì)模型和語(yǔ)音的時(shí)域波形結(jié)合到了一起,從而改善了合成語(yǔ)音的質(zhì)量。以上三種語(yǔ)音壓縮編碼算法的主要區(qū)別在于激勵(lì)模型的不同。

　　雖然IP網(wǎng)絡(luò)電話目前正處于蒸蒸日上的階段,但它也存在這樣或那樣一些不盡如人意的方面。如何提高IP分組話音通信的質(zhì)量,或者更一般地說(shuō),如何在IP網(wǎng)絡(luò)上實(shí)現(xiàn)包括實(shí)時(shí)通信業(yè)務(wù)在內(nèi)的綜合業(yè)務(wù)通信,這正是我們需要進(jìn)一步研究的熱點(diǎn)。

參考文獻(xiàn)

1 Telecommunication Standardization Sector of ITU-T Recommendation G.723.1、G.728、G.729

2 胡光銳.語(yǔ)音處理與識(shí)別.上海科學(xué)技術(shù)文獻(xiàn)出版社，1994

3 楊行峻，遲惠生.語(yǔ)音信號(hào)數(shù)字處理. 電子工業(yè)出版社，1995

4 陳永彬，王仁華.語(yǔ)音信號(hào)處理.中國(guó)科學(xué)技術(shù)出版社，1990

5 中興IP電話網(wǎng)關(guān)ZXITG-1000的特點(diǎn).中興通訊技術(shù).1999 總第40期

6 IP與現(xiàn)代通信發(fā)展《中興通訊技術(shù)》.1999 總第48期

7 IP電話的關(guān)鍵技術(shù)《中興通訊技術(shù)》 1999 總第50期

8 Three New Speech Coders from the ITU Cover a　Range of Applications. Richard V.Cox? IEEE Comm. Sep.1997

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

IP網(wǎng)絡(luò)電話中常用的語(yǔ)音壓縮編碼技術(shù)的性能分析

日期： 2008-12-02

作者：徐春秀 武穆清

相關(guān)內(nèi)容

作者：徐春秀武穆清