華平多路音頻的混音方法-AET-電子技術(shù)應(yīng)用

華平多路音頻的混音方法

CCTIME飛象網(wǎng)

摘要： 目前，隨著視頻會(huì)議及監(jiān)控的迅速發(fā)展，視頻和音頻的應(yīng)用技術(shù)已經(jīng)相對(duì)成熟。在實(shí)際應(yīng)用中，音頻的交互處理仍然處于最基本和最核心的部分，人們對(duì)音頻的實(shí)時(shí)性要求更為苛刻，因此，在網(wǎng)絡(luò)帶寬允許的條件下，當(dāng)不同地點(diǎn)的多個(gè)終端，需要進(jìn)行實(shí)時(shí)音頻交互時(shí)，需要將多路音頻按照一定的策略進(jìn)行混合，并最終編碼發(fā)送給另外的終端。

關(guān)鍵詞： 華平多路音頻混音方法

Abstract：

Key words :

背景及問(wèn)題

目前，隨著視頻會(huì)議及監(jiān)控的迅速發(fā)展，視頻和音頻的應(yīng)用技術(shù)已經(jīng)相對(duì)成熟。在實(shí)際應(yīng)用中，音頻的交互處理仍然處于最基本和最核心的部分，人們對(duì)音頻的實(shí)時(shí)性要求更為苛刻，因此，在網(wǎng)絡(luò)帶寬允許的條件下，當(dāng)不同地點(diǎn)的多個(gè)終端，需要進(jìn)行實(shí)時(shí)音頻交互時(shí)，需要將多路音頻按照一定的策略進(jìn)行混合，并最終編碼發(fā)送給另外的終端。

多路音頻交互的核心問(wèn)題就是混音，而提供資源使用率相對(duì)低且音頻交互質(zhì)量更高的混音方法，以提升用戶的實(shí)際體驗(yàn)效果，已成為本領(lǐng)域技術(shù)人員需要解決的技術(shù)難題。

傳統(tǒng)多路音頻混音方法分析

為解決此類問(wèn)題，傳統(tǒng)的方法是采用多點(diǎn)控制單元(MCU)將多路音頻信號(hào)混音為一路，如此可以有效降低網(wǎng)絡(luò)數(shù)據(jù)的傳輸量。MCU混音的方式是：根據(jù)信號(hào)線性疊加的原理，將多路音頻信號(hào)的采樣量化數(shù)據(jù)疊加。隨著終端數(shù)量的增多，此種方式會(huì)導(dǎo)致MCU的運(yùn)算負(fù)荷和上傳帶寬急劇增大，所以此方式只能適用在較小規(guī)模的會(huì)議系統(tǒng)中。

將混音處理都集中在一臺(tái)服務(wù)器來(lái)進(jìn)行，對(duì)服務(wù)器的上傳帶寬和CPU處理能力要求很高，由此衍生出了分布式處理方式，即由多個(gè)終端來(lái)進(jìn)行混音處理，而分布式的混音方法遇到的最主要問(wèn)題就是對(duì)終端的下載帶寬要求較高，同時(shí)也需要終端具有較高的多路音頻解碼和混音的處理能力，此外還需要終端配置良好的混音算法以獲得高質(zhì)量的混音效果。

目前，諸多的混音算法，用于處理4路以內(nèi)的音頻，還能獲得較好的混音效果，然而對(duì)于4路以上的音頻，混音后音質(zhì)會(huì)急劇下降，而且極易出現(xiàn)量化溢出等問(wèn)題(如圖1所示效果)。為了確保各路音頻的波形盡量能夠在混音后保持原始的形態(tài)，以達(dá)到聲音真實(shí)還原和音質(zhì)更佳的效果，就必須解決數(shù)據(jù)疊加溢出的問(wèn)題。

常見(jiàn)的幾種解決溢出問(wèn)題的方式如下：

1.平均化時(shí)域線性疊加的方法；

此法最為簡(jiǎn)單，但是混音效果很不好，存在混音后各路的音頻衰減太多，音量偏小，不利于實(shí)時(shí)的溝通。

2.基于變換域的混音方法：

將各路音頻轉(zhuǎn)化為頻域并做覆蓋性差值，最后轉(zhuǎn)換回時(shí)域得到混音數(shù)據(jù)的方法。此類方法雖然能很好解決溢出問(wèn)題，但實(shí)現(xiàn)四路以上的混音難度較高，不具備普遍應(yīng)用的優(yōu)勢(shì)。

圖1現(xiàn)有直接疊加混音后的效果圖(6路音頻輸入)

華平多路音頻混音方法分析

華平提供的多路音頻幀的混音方法是一種基于時(shí)域信號(hào)疊加的自適應(yīng)的多路音頻混合方法，能夠混合超過(guò)4路以上的音頻，實(shí)現(xiàn)方法：先將多路音頻幀中相應(yīng)采樣點(diǎn)的值分別疊加以獲得至少一個(gè)樣點(diǎn)數(shù)據(jù)，且當(dāng)有疊加后的結(jié)果超出預(yù)設(shè)范圍時(shí)，對(duì)當(dāng)前幀增益因子進(jìn)行調(diào)整，當(dāng)一幀疊加完成后，將所得的當(dāng)前幀增益因子與前一幀增益因子進(jìn)行比較，根據(jù)比較后的結(jié)果再次調(diào)整當(dāng)前幀增益因子，接著，再根據(jù)再次調(diào)整后的當(dāng)前幀增益因子、及音量強(qiáng)度的初始值計(jì)算當(dāng)前幀的音量強(qiáng)度等級(jí)，并判斷音量強(qiáng)度等級(jí)是否等于預(yù)設(shè)值，如果是，則將疊加后獲得的各樣點(diǎn)數(shù)據(jù)形成的幀作為混音幀，如果否，則根據(jù)音量強(qiáng)度等級(jí)對(duì)各樣點(diǎn)數(shù)據(jù)進(jìn)行處理，以使處理后的各樣點(diǎn)數(shù)據(jù)都處于預(yù)設(shè)范圍內(nèi)，并將處理后的各樣點(diǎn)數(shù)據(jù)所形成的幀作為混音幀。

本多路音頻幀的混音方法通過(guò)對(duì)線性疊加后的混音數(shù)據(jù)進(jìn)行溢出判斷，當(dāng)溢出時(shí)，對(duì)當(dāng)前幀增益因子做一定的調(diào)整和計(jì)算，然后通過(guò)對(duì)混音后每幀數(shù)據(jù)進(jìn)行對(duì)比分析，根據(jù)對(duì)比前后幀的相關(guān)參數(shù)來(lái)不斷調(diào)整增益調(diào)節(jié)因子，并當(dāng)混音出現(xiàn)溢出的時(shí)候自動(dòng)將當(dāng)前幀做飽和處理，能夠避免混音后產(chǎn)生的溢出的噪音，并保持原始波形基本不變，音量大小基本不會(huì)受影響（如圖2所示效果）。

圖2華平多路音頻混音方法混音后效果圖(6路音頻輸入)

綜上所述，及對(duì)比圖1和圖2效果可知：現(xiàn)有直接疊加混音方法在超過(guò)6路的音頻輸入后，不能保持波形的原始形態(tài)，且出現(xiàn)采樣過(guò)載和溢出等問(wèn)題，導(dǎo)致聲音不能完全再現(xiàn)其原始的效果。華平的混音方法在超過(guò)6路音頻輸入后，可以保持波形的原始形態(tài)，完全解決了多路混音后存在的采樣疊加溢出的問(wèn)題，使溝通更加順暢。

華平多路音頻混音方法的其他特點(diǎn)及應(yīng)用

² 混音出現(xiàn)溢出的時(shí)候能自動(dòng)將當(dāng)前幀做飽和處理，能夠徹底避免混音產(chǎn)生的不同程度的噪音問(wèn)題。

² 實(shí)現(xiàn)方法相對(duì)簡(jiǎn)單，基于定點(diǎn)更易于應(yīng)用在便攜設(shè)備和低功耗設(shè)備上。

² 可以用于集中式或分布式的各種環(huán)境中，在超過(guò)5路以上音頻混音的總體輸出效果，超過(guò)了其他方法。

² 相比現(xiàn)有的方法，在保持了音頻的波形質(zhì)量的同時(shí)，可以混合更多路數(shù)的音頻作為混音輸出。完全可以應(yīng)用在更大型的指揮監(jiān)控系統(tǒng)中，實(shí)現(xiàn)更多點(diǎn)的音頻實(shí)時(shí)交互功能。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容