定點DSP的MP3間頻編碼算法研究-AET-電子技術(shù)應用

定點DSP的MP3間頻編碼算法研究

摘要： 定點DSP的MP3間頻編碼算法研究,MP3是MPEG-1國際標準中音頻壓縮層3的簡稱，單聲道比特率一般取64kbps，在采樣率44.1kHz的情況下，其壓縮比可達12倍以上，被廣泛應用于互聯(lián)網(wǎng)等許多場合。由于解碼比編碼過程簡單很多，MP3播放機或隨身聽已隨處可見，

關(guān)鍵詞： DSP MP3 編碼

Abstract：

Key words :

MP3是MPEG-1國際標準中音頻壓縮層3的簡稱，單聲道比特率一般取64kbps，在采樣率44.1kHz的情況下，其壓縮比可達12倍以上，被廣泛應用于互聯(lián)網(wǎng)等許多場合。由于解碼比編碼過程簡單很多，MP3播放機或隨身聽已隨處可見，但MP3編碼在單片機定點DSP上實現(xiàn)，并要保證音質(zhì)，則鮮有耳聞。考慮到心理聲學模型在整個MP3音頻編碼算法中所占比例巨大，筆者從簡化該模型入手，采用快速算法減少了帶編碼的運算量和數(shù)據(jù)量，盡可能少量化編碼的迭代循環(huán)次數(shù)，從而在一片美國德州儀器公司的TMS320C549芯片上實現(xiàn)了MP3的實時壓縮，用標準解碼軟件回放，主觀評定，對于通常的音頻能達到接近CD的音質(zhì)。

MP3編碼器原理框圖　　
　　尋找快速算法的關(guān)鍵就是這最后一步。將系數(shù)設數(shù)組：

其中，
　　最終的子帶樣值是如下的蝶形組合： X[K]=Xe[k]+(1/cos[（2k+1）π/64]Xo[k],k=0,1,…，15 （11） X[31-k]=Xe[k]-(1/cos[(2k+1)π/64])Xo[k],k=0,1,…，15 （12）直接計算（1）式需要32次乘法和32次加法，采用快速算法需2次乘法和15次加法，運算量原來的1/4，而且數(shù)據(jù)表格所占用的存儲空間也減少為原來的1/8左右。2.2 心理聲學模型的簡化
　　根據(jù)試驗觀察發(fā)現(xiàn)每幀的掩蔽閾值曲線大致相同，所以考慮采用靜態(tài)聲學心理模型，具體做法是：首先對某一具有代表性的音頻幀，

　　根據(jù)心理聲學模型計算出掩蔽閾值曲線，在壓縮其它音頻源時，不再計算每幀的心理聲學模型，而是認為每幀信號與上述被分析過的代表幀具有相同的掩蔽特性。這樣，雖然不是很準確，但通常情況下，誤差不會太大，不易被人耳察覺，省去心理學模型需的巨大運算量和存儲空間。實踐證明編碼效果令人滿意，而且對于要求不是很高的應用場合，可以認為掩蔽閾值是頻率的常數(shù)函數(shù)，每個頻帶采用相同的量化階，也聽不出聲音質(zhì)量的明顯下降。
　　2.3 量化編碼迭代循環(huán)的簡化
　　量化編碼迭代是兩重循環(huán)過程，圖3是外迭代循環(huán)流圖，迭代的目的是在可用比特數(shù)的限制之內(nèi)，以各頻帶的掩蔽值為依據(jù)，確定全局增益（體現(xiàn)了全局量化階）和各頻帶的縮放因子（體現(xiàn)了局部量化階）。內(nèi)循環(huán)逐步增加量化器步長，即全局增益，直到MDCT系數(shù)量化后可被可用比特進行霍夫曼編碼，即通過增加全局量化階以降低編碼比特數(shù)；外循環(huán)依據(jù)掩蔽閾值檢測各縮放因子帶的失真，若超過允許失真，則擴大該帶的MDCT系數(shù)，即增大該帶的縮放因子，以降低局部失真；最后一次迭代的結(jié)果作為最終的霍夫曼碼。每一次循環(huán)都要用當前量化階量化并霍夫曼編碼一次，運算量相當大。從外循環(huán)可以看出掩蔽閾值最終決定縮放因子，為了能省去外控代循環(huán)，將代表幀的縮放因子作成表格，供每幀采用。由于上述三個模塊是最主要并且運算量最大的模塊，通過對它們的簡化和優(yōu)化，程序大小和運算量可得到極大的減少。
　　3 用定點DSP實現(xiàn)MP3壓縮算法
　　為了實現(xiàn)MP3的實時編碼，必須采用高速DSP芯片。采用美國德州儀器（TI）公司的主流定點DSP芯片TMS320C549，其運算速度100MIPS，調(diào)試開發(fā)的環(huán)境是TI公司的第三方Spectrum Digital公司的EVM評估板，板上除了TMS320C549自帶32K字片上內(nèi)存外，還有128K字片外內(nèi)存，數(shù)模轉(zhuǎn)換采用TI的TLC320AD55，與PC機通過JTAG口實現(xiàn)數(shù)據(jù)與程序的加載和調(diào)試。由于評估板與主機的接口速度太慢，即使能做到實時壓縮，將比特流傳給PC機存盤的速度也會跟不上。因此筆者采用的辦法是：將原始PCM音頻數(shù)據(jù)從PC機的硬盤文件加載到板上的片外內(nèi)存，壓縮后的數(shù)據(jù)傳給PC機存盤，再加載后續(xù)文件，壓縮存盤，直到整個音頻文件全部壓縮完，最后用C語言程序?qū)⒏鲾?shù)據(jù)塊拼成MP3文件，用軟件解碼程序回放。是否能達到實時要求只能通過測試每幀運行的指令數(shù)判斷。
　　在運用快速算法計算子帶分析濾波器時，考慮到DSP芯片的特點，每分解一次，要作一次加（10）式的加法，勢必降低精度，另外（11）和（12）式的系數(shù)動態(tài)范圍太大，精度也會受到影響，因此，只分解到16點DCT運算。
　　采用靜態(tài)心理聲學模型，心理聲學模型和量化編碼外循環(huán)所需的運算量就為零。代表幀的心理聲學模型和縮放因子采用C語言或MATLAB語言編程計算，或者將網(wǎng)上下載MP3文件中的縮放因子信息破譯出來加以利用，子帶分析濾波器之后的MDCT全部采用長塊。表1是靜態(tài)縮放因子比特數(shù)和縮放因子的一種設置方案。表1 縮放因子數(shù)據(jù)表格縮放因子帶 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 縮放因子比特數(shù) 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 縮放因子 1 1 0 0 1 1 4 5 3 7 5 3 0 3 0 1 0 7 5 0 3 另外在內(nèi)循環(huán)中，首先初步選擇一個全局增益使最大量化值小于碼表可編碼的最大值，標準推薦的作法是全局增益從小開始，每循環(huán)一次量化后，比較最大量化值，并調(diào)整一次全局增益，直到滿足要求為止。本程序省去了這一循環(huán)，事先根據(jù)最大譜線值計算出應有的全局增益，作成數(shù)據(jù)表格，程序中只需根據(jù)最大譜線值查表即可。初始化全局增益確定后，要分區(qū)、量化、編碼并計算編碼比特數(shù)，如果比特數(shù)太大或太小都還要調(diào)整全局增益。對這一迭代循環(huán)過程，采用折半搜索的辦法實現(xiàn)，也就是說第一次循環(huán)時全局增益取上述初始化值的一半，若編碼比特數(shù)超出要求，則再取一半作為新的全局增益，否則增大一半，如此不斷循環(huán)直到無法折半為止。這種折半搜索的方法比逐一搜索要快很多。采用了這些簡化、優(yōu)化措施以及編程技巧，整個編碼程序運算量僅需74MIPS左右，片上存儲空間占用27K字左右。用標準的MP3回放軟件解碼，通過主觀測評，音質(zhì)接收CD。
　　當應用到某些編碼難度較高的音頻信號，例如響板時，聲音質(zhì)量下降較明顯。因此如果采用更高運算速度的DSP，可在該編碼系統(tǒng)中加入一個完備的或簡化的動態(tài)心理聲學模型，編碼質(zhì)量可進一步提高，至于簡化的動態(tài)心理聲學模型還有待進一步摸索。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容