《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于定點DSP的MP3間頻編碼算法研究
基于定點DSP的MP3間頻編碼算法研究
摘要: MP3是MPEG-1國際標準中音頻壓縮層3的簡稱,,單聲道比特率一般取64kbps,,在采樣率44.1kHz的情況下,其壓縮比可達12倍以上,,被廣泛應用于互聯(lián)網(wǎng)等許多場合,。由于解碼比編碼過程簡單很多,,MP3播放機或隨身聽已隨處可見,,但MP3編碼在單片機定點DSP上實現(xiàn),并要保證音質(zhì),,則鮮有耳聞,。考慮到心理聲學模型在整個MP3音頻編碼算法中所占比例巨大,,筆者從簡化該模型入手,,采用快速算法減少了帶編碼的運算量和數(shù)據(jù)量,盡可能少量化編碼的迭代循環(huán)次數(shù),,從而在一片美國德州儀器公司的TMS320C549芯片上實現(xiàn)了MP3的實時壓縮,,用標準解碼軟件回放,主觀評定,,對于通常的音頻能達到接近CD的音質(zhì),。
Abstract:
Key words :

    MP3是MPEG-1國際標準中音頻壓縮層3的簡稱,單聲道比特率一般取64kbps,,在采樣率44.1kHz的情況下,,其壓縮比可達12倍以上,被廣泛應用于互聯(lián)網(wǎng)等許多場合,。由于解碼比編碼過程簡單很多,,MP3播放機或隨身聽已隨處可見,但MP3編碼在單片機定點DSP上實現(xiàn),,并要保證音質(zhì),,則鮮有耳聞??紤]到心理聲學模型在整個MP3音頻編碼算法中所占比例巨大,,筆者從簡化該模型入手,采用快速算法減少了帶編碼的運算量和數(shù)據(jù)量,,盡可能少量化編碼的迭代循環(huán)次數(shù),,從而在一片美國德州儀器公司的TMS320C549芯片上實現(xiàn)了MP3的實時壓縮,用標準解碼軟件回放,,主觀評定,,對于通常的音頻能達到接近CD的音質(zhì)。

 
  1 MP3編碼算法及處理
  圖1是MP3編碼器的系統(tǒng)方框圖,。每聲道以1152個采樣值為一幀進行處理,。首先,分析子帶濾波器采用正交鏡像濾波器組,,將20kHz左右?guī)挼男盘杽澐殖上嗟葞挼?2個子帶,。然后對子樣值作MDCT以補償子帶濾波的不足,主要是為提高頻率分辨率,、消除由子帶濾波引起的帶間混迭,。 同時采樣值通過心理聲學模型計算出各頻帶的掩蔽閾值。

 
  失真控制循環(huán)和非歸一化量化控制循環(huán)是量化編碼循環(huán)過程,,它通過量化減少各MDCT系數(shù)的精度,,使編碼比特數(shù)得以降低。不同系數(shù)采用不同的量化階,,從耳敏感的頻率量化精度高,,不敏感的頻率量化精度低,量化誤差則不會被人耳察覺,。選擇量化階的依據(jù)就是心理聲學模型計算出的掩蔽閥值,。 

  最后將量化階等信息以及霍夫曼碼打包成比特流,供解碼用,。

  那么為什么掩蔽閾值能反映人耳的聽覺特點呢,?

  人耳的聽覺特性涉及生理聲學和心理聲學方面的問題。例如人耳對不同頻率的聲音感覺不同就是生理方面的問題,,其中對2kHz~4kHz的聲音最敏感,,且低頻較高頻敏感。敏感程度具體體現(xiàn)為靜態(tài)掩蔽閾值,,如圖2虛線所示,,表示在安靜的情況下,各種頻率的聲音剛好被聽到的音量,。與人的心理知覺有關的有掩蔽效應等,。掩蔽效應指一個聲音的聽覺感受受到另一個聲音影響的現(xiàn)象,分為時間掩蔽(前向,、后向掩蔽)和頻率掩蔽(同時掩蔽),。例如,當一個較強的聲音停止后,,要過一會兒才能聽到另一個較強的聲音,,這就是時間掩蔽效應。頻率掩蔽是指一個聲音對與其同時存在的臨近頻率的聲音產(chǎn)生的影響,,如圖2實線所示,。其中標志1的實線表示:當1kHz的掩蔽聲音為60dB時,不同頻率的聲音剛好被聽到的分貝值,,可見越臨近頻率被掩蔽得越厲害,,且低頻更易掩蔽高頻。

  因此心理聲學模型就先用FFT分析信號中包含的頻率分量,,將每個頻率處受到其他所有頻率分量掩蔽的值加起來,,連線得到的曲線就是掩蔽閾值,是頻率的函數(shù),。當某頻率分量的能量處曲線下方時,,不能被人耳感覺到,,則該頻率分量可用零比特編碼;另一方面,,選擇量化階時若能保證量化噪聲低于掩蔽曲線,,也不被人耳察覺,所以掩蔽值越大的頻率分量量化階可以越大,。因此用掩蔽閾值作為量化編碼的依據(jù),,就能夠信證壓縮后的聲音質(zhì)量。由于聲音信號隨時間改變,,因此每幀信號都要計算兩次心理聲學模型,,其中要用到大量的實驗測試數(shù)據(jù),運算量之在是可想而知的,。

  2 算法的簡化和優(yōu)化
  2.1 分析子帶濾波器的快速算法

  分析子帶濾波器的輸入是32個采樣值,,輸出是32個頻率等間隔的子帶樣值。它首先將32個采樣值放入一個長度512的先進先出(FIFO)緩存,;對該緩存加窗,;然后512個緩存中每8個值累加,轉(zhuǎn)換成64個中間值,;最后通過(1)或?qū)?4個中間值變換成32個采樣值:

    
  尋找快速算法的關鍵就是這最后一步,。將系數(shù)設數(shù)組:

可以發(fā)現(xiàn)該數(shù)組具有如下的對稱性: c[16+n]=c[16-n],n=0,1,…,16 (3) c[48+n]=-c[48-n],n=0,1,…,,15 (4) 所以合并系數(shù)相等或相反的項,,(1)式變成:

  其中, 


  可見用(5)式代替(1)式可以減少一半的乘法運算,。又發(fā)現(xiàn)(5)式和標準的IDCT非常相似,,可以將Lee提出的快速IDCT算法稍加改動推導(5)式的快速算法。所以又將32點變換分解成以下的兩個16點變換: 

  其中,,

 
  最終的子帶樣值是如下的蝶形組合: X[K]=Xe[k]+(1/cos[(2k+1)π/64]Xo[k],k=0,1,…,,15 (11) X[31-k]=Xe[k]-(1/cos[(2k+1)π/64])Xo[k],k=0,1,…,15 (12) 直接計算(1)式需要32次乘法和32次加法,,采用快速算法需2次乘法和15次加法,,運算量原來的1/4,而且數(shù)據(jù)表格所占用的存儲空間也減少為原來的1/8左右,。

  2.2 心理聲學模型的簡化

  根據(jù)試驗觀察發(fā)現(xiàn)每幀的掩蔽閾值曲線大致相同,,所以考慮采用靜態(tài)聲學心理模型,具體做法是:首先對某一具有代表性的音頻幀,, 


  根據(jù)心理聲學模型計算出掩蔽閾值曲線,,在壓縮其它音頻源時,不再計算每幀的心理聲學模型,,而是認為每幀信號與上述被分析過的代表幀具有相同的掩蔽特性,。這樣,,雖然不是很準確,但通常情況下,,誤差不會太大,,不易被人耳察覺,省去心理學模型需的巨大運算量和存儲空間,。實踐證明編碼效果令人滿意,而且對于要求不是很高的應用場合,,可以認為掩蔽閾值是頻率的常數(shù)函數(shù),,每個頻帶采用相同的量化階,也聽不出聲音質(zhì)量的明顯下降,。

  2.3 量化編碼迭代循環(huán)的簡化

  量化編碼迭代是兩重循環(huán)過程,,圖3是外迭代循環(huán)流圖,迭代的目的是在可用比特數(shù)的限制之內(nèi),,以各頻帶的掩蔽值為依據(jù),,確定全局增益(體現(xiàn)了全局量化階)和各頻帶的縮放因子(體現(xiàn)了局部量化階)。內(nèi)循環(huán)逐步增加量化器步長,,即全局增益,,直到MDCT系數(shù)量化后可被可用比特進行霍夫曼編碼,即通過增加全局量化階以降低編碼比特數(shù),;外循環(huán)依據(jù)掩蔽閾值檢測各縮放因子帶的失真,,若超過允許失真,則擴大該帶的MDCT系數(shù),,即增大該帶的縮放因子,,以降低局部失真;最后一次迭代的結(jié)果作為最終的霍夫曼碼,。每一次循環(huán)都要用當前量化階量化并霍夫曼編碼一次,,運算量相當大。從外循環(huán)可以看出掩蔽閾值最終決定縮放因子,,為了能省去外控代循環(huán),,將代表幀的縮放因子作成表格,供每幀采用,。 由于上述三個模塊是最主要并且運算量最大的模塊,,通過對它們的簡化和優(yōu)化,程序大小和運算量可得到極大的減少,。

  3 用定點DSP實現(xiàn)MP3壓縮算法

  為了實現(xiàn)MP3的實時編碼,,必須采用高速DSP芯片。采用美國德州儀器(TI)公司的主流定點DSP芯片TMS320C549,,其運算速度100MIPS,,調(diào)試開發(fā)的環(huán)境是TI公司的第三方Spectrum Digital公司的EVM評估板,,板上除了TMS320C549自帶32K字片上內(nèi)存外,還有128K字片外內(nèi)存,,數(shù)模轉(zhuǎn)換采用TI的TLC320AD55,,與PC機通過JTAG口實現(xiàn)數(shù)據(jù)與程序的加載和調(diào)試。 由于評估板與主機的接口速度太慢,,即使能做到實時壓縮,,將比特流傳給PC機存盤的速度也會跟不上。因此筆者采用的辦法是:將原始PCM音頻數(shù)據(jù)從PC機的硬盤文件加載到板上的片外內(nèi)存,,壓縮后的數(shù)據(jù)傳給PC機存盤,,再加載后續(xù)文件,壓縮存盤,,直到整個音頻文件全部壓縮完,,最后用C語言程序?qū)⒏鲾?shù)據(jù)塊拼成MP3文件,用軟件解碼程序回放,。是否能達到實時要求只能通過測試每幀運行的指令數(shù)判斷,。

  在運用快速算法計算子帶分析濾波器時,考慮到DSP芯片的特點,,每分解一次,,要作一次加(10)式的加法,勢必降低精度,,另外(11)和(12)式的系數(shù)動態(tài)范圍太大,,精度也會受到影響,因此,,只分解到16點DCT運算,。

  采用靜態(tài)心理聲學模型,心理聲學模型和量化編碼外循環(huán)所需的運算量就為零,。代表幀的心理聲學模型和縮放因子采用C語言或MATLAB語言編程計算,,或者將網(wǎng)上下載MP3文件中的縮放因子信息破譯出來加以利用,子帶分析濾波器之后的MDCT全部采用長塊,。表1是靜態(tài)縮放因子比特數(shù)和縮放因子的一種設置方案,。 表1 縮放因子數(shù)據(jù)表格 縮放因子帶 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 縮放因子比特數(shù) 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 縮放因子 1 1 0 0 1 1 4 5 3 7 5 3 0 3 0 1 0 7 5 0 3 另外在內(nèi)循環(huán)中,首先初步選擇一個全局增益使最大量化值小于碼表可編碼的最大值,,標準推薦的作法是全局增益從小開始,,每循環(huán)一次量化后,比較最大量化值,,并調(diào)整一次全局增益,,直到滿足要求為止。本程序省去了這一循環(huán),事先根據(jù)最大譜線值計算出應有的全局增益,,作成數(shù)據(jù)表格,,程序中只需根據(jù)最大譜線值查表即可。初始化全局增益確定后,,要分區(qū),、量化、編碼并計算編碼比特數(shù),,如果比特數(shù)太大或太小都還要調(diào)整全局增益,。對這一迭代循環(huán)過程,采用折半搜索的辦法實現(xiàn),,也就是說第一次循環(huán)時全局增益取上述初始化值的一半,,若編碼比特數(shù)超出要求,則再取一半作為新的全局增益,,否則增大一半,如此不斷循環(huán)直到無法折半為止,。這種折半搜索的方法比逐一搜索要快很多,。 采用了這些簡化、優(yōu)化措施以及編程技巧,,整個編碼程序運算量僅需74MIPS左右,,片上存儲空間占用27K字左右。用標準的MP3回放軟件解碼,,通過主觀測評,,音質(zhì)接收CD。

  由于本系統(tǒng)對心理聲學模型進行了大量的簡化,,對于一般的音樂,,這種簡化帶來的聲音質(zhì)量的下降并不明顯,尤其是在要求不高的應用場合完全可行,。但是當應用到某些編碼難度較高的音頻信號,,例如響板時,聲音質(zhì)量下降較明顯,。因此如果采用更高運算速度的DSP,,可在該編碼系統(tǒng)中加入一個完備的或簡化的動態(tài)心理聲學模型,編碼質(zhì)量可進一步提高,,至于簡化的動態(tài)心理聲學模型還有待進一步摸索,。
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。