背景及問題
目前,,隨著視頻會議及監(jiān)控的迅速發(fā)展,,視頻和音頻的應用技術已經(jīng)相對成熟。在實際應用中,,音頻的交互處理仍然處于最基本和最核心的部分,,人們對音頻的實時性要求更為苛刻,因此,,在網(wǎng)絡帶寬允許的條件下,,當不同地點的多個終端,需要進行實時音頻交互時,,需要將多路音頻按照一定的策略進行混合,,并最終編碼發(fā)送給另外的終端,。
多路音頻交互的核心問題就是混音,而提供資源使用率相對低且音頻交互質量更高的混音方法,,以提升用戶的實際體驗效果,,已成為本領域技術人員需要解決的技術難題。
傳統(tǒng)多路音頻混音方法分析
為解決此類問題,,傳統(tǒng)的方法是采用多點控制單元(MCU)將多路音頻信號混音為一路,,如此可以有效降低網(wǎng)絡數(shù)據(jù)的傳輸量。MCU混音的方式是:根據(jù)信號線性疊加的原理,,將多路音頻信號的采樣量化數(shù)據(jù)疊加,。隨著終端數(shù)量的增多,此種方式會導致MCU的運算負荷和上傳帶寬急劇增大,,所以此方式只能適用在較小規(guī)模的會議系統(tǒng)中,。
將混音處理都集中在一臺服務器來進行,對服務器的上傳帶寬和CPU處理能力要求很高,,由此衍生出了分布式處理方式,,即由多個終端來進行混音處理,而分布式的混音方法遇到的最主要問題就是對終端的下載帶寬要求較高,,同時也需要終端具有較高的多路音頻解碼和混音的處理能力,,此外還需要終端配置良好的混音算法以獲得高質量的混音效果。
目前,,諸多的混音算法,,用于處理4路以內的音頻,還能獲得較好的混音效果,,然而對于4路以上的音頻,,混音后音質會急劇下降,而且極易出現(xiàn)量化溢出等問題(如圖1所示效果),。為了確保各路音頻的波形盡量能夠在混音后保持原始的形態(tài),,以達到聲音真實還原和音質更佳的效果,就必須解決數(shù)據(jù)疊加溢出的問題,。
常見的幾種解決溢出問題的方式如下:
1.平均化時域線性疊加的方法,;
此法最為簡單,但是混音效果很不好,,存在混音后各路的音頻衰減太多,,音量偏小,不利于實時的溝通,。
2.基于變換域的混音方法:
將各路音頻轉化為頻域并做覆蓋性差值,,最后轉換回時域得到混音數(shù)據(jù)的方法。此類方法雖然能很好解決溢出問題,,但實現(xiàn)四路以上的混音難度較高,,不具備普遍應用的優(yōu)勢。
圖1現(xiàn)有直接疊加混音后的效果圖(6路音頻輸入)
華平多路音頻混音方法分析
華平提供的多路音頻幀的混音方法是一種基于時域信號疊加的自適應的多路音頻混合方法,,能夠混合超過4路以上的音頻,,實現(xiàn)方法:先將多路音頻幀中相應采樣點的值分別疊加以獲得至少一個樣點數(shù)據(jù),且當有疊加后的結果超出預設范圍時,,對當前幀增益因子進行調整,,當一幀疊加完成后,將所得的當前幀增益因子與前一幀增益因子進行比較,,根據(jù)比較后的結果再次調整當前幀增益因子,,接著,再根據(jù)再次調整后的當前幀增益因子,、及音量強度的初始值計算當前幀的音量強度等級,,并判斷音量強度等級是否等于預設值,如果是,,則將疊加后獲得的各樣點數(shù)據(jù)形成的幀作為混音幀,,如果否,則根據(jù)音量強度等級對各樣點數(shù)據(jù)進行處理,,以使處理后的各樣點數(shù)據(jù)都處于預設范圍內,,并將處理后的各樣點數(shù)據(jù)所形成的幀作為混音幀。
本多路音頻幀的混音方法通過對線性疊加后的混音數(shù)據(jù)進行溢出判斷,,當溢出時,,對當前幀增益因子做一定的調整和計算,然后通過對混音后每幀數(shù)據(jù)進行對比分析,,根據(jù)對比前后幀的相關參數(shù)來不斷調整增益調節(jié)因子,,并當混音出現(xiàn)溢出的時候自動將當前幀做飽和處理,能夠避免混音后產(chǎn)生的溢出的噪音,,并保持原始波形基本不變,,音量大小基本不會受影響(如圖2所示效果)。
圖2華平多路音頻混音方法混音后效果圖(6路音頻輸入)
綜上所述,,及對比圖1和圖2效果可知:現(xiàn)有直接疊加混音方法在超過6路的音頻輸入后,,不能保持波形的原始形態(tài),且出現(xiàn)采樣過載和溢出等問題,,導致聲音不能完全再現(xiàn)其原始的效果,。華平的混音方法在超過6路音頻輸入后,可以保持波形的原始形態(tài),,完全解決了多路混音后存在的采樣疊加溢出的問題,,使溝通更加順暢。
華平多路音頻混音方法的其他特點及應用
² 混音出現(xiàn)溢出的時候能自動將當前幀做飽和處理,,能夠徹底避免混音產(chǎn)生的不同程度的噪音問題,。
² 實現(xiàn)方法相對簡單,,基于定點更易于應用在便攜設備和低功耗設備上。
² 可以用于集中式或分布式的各種環(huán)境中,,在超過5路以上音頻混音的總體輸出效果,,超過了其他方法。
² 相比現(xiàn)有的方法,,在保持了音頻的波形質量的同時,,可以混合更多路數(shù)的音頻作為混音輸出。完全可以應用在更大型的指揮監(jiān)控系統(tǒng)中,,實現(xiàn)更多點的音頻實時交互功能,。