一種基于時域解相關(guān)的雙通道語音分離算法-AET-電子技術(shù)應(yīng)用

一種基于時域解相關(guān)的雙通道語音分離算法

日期： 2008-07-30

作者：夏秀渝，何培宇，周激流

關(guān)鍵詞： 語音信號卷積混合語音分離盲分離算法分離系統(tǒng)

??? 摘要： 提出了一種基于時域解相關(guān)的卷積混合" title="卷積混合">卷積混合語音盲分離時域算法。該算法利用相關(guān)系數(shù)對語音信號" title="語音信號">語音信號進(jìn)行時域去相關(guān)處理，同時基于二階統(tǒng)計量完成雙通道語音分離" title="語音分離">語音分離。該算法充分考慮了語音信號本身的相關(guān)性及不平穩(wěn)性，收斂速度快，穩(wěn)定性好，為減小計算量提出了該算法的遞推改進(jìn)算法。仿真實(shí)驗(yàn)表明，在對卷積混合雙通道語音信號進(jìn)行盲分離時，該算法是非常有效的。
??? 關(guān)鍵詞： 語音分離; 卷積混合; 去相關(guān)

　　人耳具有很強(qiáng)的分離聲音的能力，即所謂的“雞尾酒會效應(yīng)”。如何讓機(jī)器也具備這種自動分離語音的能力是目前的一個熱點(diǎn)研究問題。瞬時混合語音信號的盲分離研究已比較成熟并且產(chǎn)生了很好的分離效果[1]，但在實(shí)際場合,對多個麥克風(fēng)接收到的混合語音信號進(jìn)行盲分離時,因語音信號本身的相關(guān)性及不平穩(wěn)性,尤其是延遲和反射造成的卷積,使卷積混合語音信號的盲分離變得十分困難。
　　盲分離算法" title="盲分離算法">盲分離算法有時域和頻域算法之分，時域算法能獲得獨(dú)立性一致的分離信號，但有計算量大、對于語音信號算法收斂性差等缺點(diǎn)。頻域算法是把時域的卷積混合變換到頻域用瞬時混合盲分離算法對其進(jìn)行分離，由于信號順序倒轉(zhuǎn)、功率歸一化等問題，這些算法的復(fù)雜程序大大增加,分離效果也不是太好,而且其為分幀處理,有延遲效應(yīng)。
本文研究卷積混合語音信號的盲分離方法。綜合考慮了語音信號既是非平穩(wěn)信號又是有色信號(強(qiáng)相關(guān)信號)的特點(diǎn)，提出了基于時域解相關(guān)和空域解相關(guān)同時進(jìn)行的語音盲分離時域算法,仿真實(shí)驗(yàn)證明此算法收斂快，穩(wěn)定性好，在對卷積混合語音信號進(jìn)行盲分離時，獲得了非常好的效果。
1 雙通道語音卷積混合分離簡化模型
　　設(shè)麥克風(fēng)1收到的信號為x₁(t)，令其中來自聲源1的部分記做s₁(t)，麥克風(fēng)2收到的信號為x₂(t)，令其中來自聲源2的部分記做s₂(t), 則在一定條件下，得到簡化的卷積混合及分離模型^[2]。
　　在簡化模型中，分別用兩個嚴(yán)格因果的FIR濾波器來逼近混合濾波器h₁₂和h₂₁。所謂嚴(yán)格因果的濾波器是指濾波器的零延遲項系數(shù)為零。當(dāng)源信號位于麥克風(fēng)陣列法線兩側(cè)時，基本可認(rèn)為h₁₂和h₂₁為嚴(yán)格因果系統(tǒng)。若此時的分離模型采用圖1所示結(jié)構(gòu)，且規(guī)定w₁₂和w₂₁也為嚴(yán)格因果的，則可分析出只有當(dāng)h₁₂=w₁₂,h₂₁=w₂₁，這種情況才能成功分離出混合語音。這種混合分離模型情況下，分離工作本質(zhì)是一個系統(tǒng)盲辯識的過程，h₁₂和w₁₂以及h₂₁和w₂₁的接近程度決定了分離效果的好壞，他們越接近，分離效果越好。當(dāng)源信號處于麥克風(fēng)陣列同側(cè)時，在相應(yīng)分離濾波器引入延遲，以上方法也適用，當(dāng)然延遲的多少須由源信號的方位確定。

2 算法提出
　　非嚴(yán)格的理論分析顯示二階統(tǒng)計量可以用于非平穩(wěn)的語音分離。實(shí)踐證明采用二階統(tǒng)計量比采用高階統(tǒng)計量在實(shí)際中能得到更好的語音分離效果和更小的計算量。
　　Kawamoto針對非平穩(wěn)信號提出了基于二階統(tǒng)計量的卷積混合盲分離算法^[3]。
　　

　　P_i代表輸出信號yi在不同時段的能量。該算法實(shí)現(xiàn)簡單，已在TMS320C6701 EVM板上實(shí)時實(shí)現(xiàn)了語音分離，有不錯的效果^[4]。但研究發(fā)現(xiàn)對于語音信號該算法收斂還是較慢，且收斂穩(wěn)定性差。
　　在仔細(xì)分析了實(shí)驗(yàn)結(jié)果后，筆者認(rèn)為收斂慢的根本原因是由于語音信號時間上的強(qiáng)相關(guān)性導(dǎo)致學(xué)習(xí)的權(quán)向量相互影響而收斂慢，收斂不穩(wěn)定是由語音信號的非平穩(wěn)性造成的。傳統(tǒng)基于二階統(tǒng)計量的盲分離算法進(jìn)行的是空域去相關(guān)處理，考慮到語音信號時間上的強(qiáng)相關(guān)性，對于分離濾波器的盲辨識還應(yīng)同時考慮對信號進(jìn)行時域解相關(guān)處理。
　　Doherty 與Porayath于1997年提出解相關(guān)的LMS算法（簡稱DLMS算法）^[5]，對于強(qiáng)相關(guān)性的語音信號該算法收斂速度大大加快。其基本思想是用信號解相關(guān)的結(jié)果作為更新方向向量：
　　定義輸入信號向量x(n)和x(n-1)的相關(guān)系數(shù)為：
　　

　　令v(n)=x(n)-ρ(n)x(n-1)，為x(n)解相關(guān)的結(jié)果， DLMS算法權(quán)的調(diào)整則利用e(n)v(n)來代替LMS算法中的e(n)x(n)完成，即：
???

??? 根據(jù)上述思想，本文提出時域解相關(guān)的語音盲分離算法：將Kawamoto算法中權(quán)的調(diào)整由y_j(n-k)改變?yōu)?A target=_blank>。
　　新算法（D_BSS1）迭代步驟如下：

　　(1) 初始化：w_ij(0)=0?????? i≠j∈{1,2}
　　(2) 更新：n=1,2,3…

???
　　新算法中由于采用解相關(guān)的結(jié)果v(n)作為更新方向向量，盲辨識h₁₂時不僅對y₁(n)(相當(dāng)于系統(tǒng)激勵信號)作了時間解相關(guān)處理,加快算法收斂速度,而且對y₂(n)(相當(dāng)于自適應(yīng)系統(tǒng)辯識中參考信號中的噪聲)經(jīng)解相關(guān)處理幅度大大降低,算法收斂的穩(wěn)定性大大提高，盲辨識h₂₁同樣。
　　為了減小上述算法中的計算量，做如下改進(jìn)：相關(guān)系數(shù)的計算采用迭代算法，其中β取0～1的數(shù)，向量v_i(n)每次只計算更新最新的一個元素v_i(n)，　具體算法如下：
　　改進(jìn)算法（D_BSS2）如下：
???

??? 從上面迭代公式看,與Kawamoto算法比較, D_BSS2僅增加了一次相關(guān)系數(shù)的迭代和元素v_i(n)的計算量,所增加的計算量相對于幾百甚至幾千階的分離系統(tǒng)" title="分離系統(tǒng)">分離系統(tǒng)來說幾乎可以忽略。
3 仿真結(jié)果
3.1 算法收斂性能及語音分離情況
　　以上面簡化模型為基礎(chǔ)完成如下仿真，兩聲源信號各為一段長60 000點(diǎn)的中文朗讀的女聲和男聲,采樣率為11.025kHz。h12和h21采用如圖2所示的實(shí)測房間聲通道特性，濾波器長度取500點(diǎn)。

　　另在x1，x2處加入信噪比為-30dB的白噪聲，算法調(diào)整步長?滋取0.000 05。輸入語音波形、Kawamoto算法和新算法D_BSS1失配曲線如圖3所示。

　　失配(misalignment)定義如下：
　　

??? 失配越小，說明w_ij和h_ij越接近。圖3中虛線為Kawamoto算法的失配變化曲線，實(shí)線為新算法的失配變化曲線。可見，新算法在迭代過程中的失配曲線收斂比Kawamoto算法快，且穩(wěn)定性好得多，具有良好的跟蹤性能。按照現(xiàn)在語音盲分離常采取的辦法，讓盲分離算法運(yùn)行一段時間，收斂后停止迭代，用權(quán)進(jìn)行語音分離，采用提高信號干擾比SIR來反映算法性能，信干比定義如下：
???

??? 其中s′i(n)表示麥克風(fēng)接收信號x_i(n)或分離輸出端y_i(n)中與源信號s_i(n)相關(guān)的部分。當(dāng)運(yùn)行60 000點(diǎn)停止迭代時，測得新算法信干比為： SIR_x₁=4.2dB,SIR_y₁=12.4dB, SIR_x₂=0.3dB,SIR_y₂=12.6dB, 平均提高了10dB。同樣條件下，Kawamoto算法平均提高了5dB，由于Kawamoto算法失配曲線收斂的不穩(wěn)定性不能保證停止迭代時兩路權(quán)都最佳，所以Kawamoto算法有分離效果不穩(wěn)定的現(xiàn)象。
3.2 改進(jìn)算法D_BSS2的性能
??? 在上面相同的實(shí)驗(yàn)條件下，進(jìn)行了D_BSS1和D_BSS2算法性能的對比實(shí)驗(yàn)，得到兩種算法失配曲線如圖4所示。
可見，改進(jìn)算法D_BSS2收斂性能比D_BSS1稍微差一點(diǎn)，但計算量卻大大降低，D_BSS2和Kawamoto算法的計算量相差不多。

3.3 實(shí)際混迭語音分離實(shí)驗(yàn)
??? 仿真實(shí)驗(yàn)在一虛擬聲學(xué)實(shí)驗(yàn)室進(jìn)行，房間長、寬、高為(5，4，3)(m)，房間混響時間為0.2s，兩聲源位于(1.5，2，1)和(3.5，2，1)處，兩麥克風(fēng)分別位于(2，1，1)和(3，1，1)處。信號采樣率為11.025kHz，分離濾波器階數(shù)取500階，由于無法得到對應(yīng)簡化模型中的h12和h21（其本質(zhì)為聲源到兩麥克風(fēng)的差異沖擊響應(yīng)），所以不能用失配來反映分離性能，采用D_BSS2，測得信干比平均提高11dB，算法一直迭代情況下，試聽分離系統(tǒng)的兩路輸出，算法收斂很快，明顯聽到每通道聲音由兩個聲音很快變?yōu)橐粋€聲音，語音得到成功分離。
　　本文提出針對非平穩(wěn)強(qiáng)相關(guān)語音信號的雙通道語音分離時域算法，該算法基于二階統(tǒng)計量進(jìn)行混合語音的分離，采用時域解相關(guān)處理來降低語音的時間相關(guān)性，從而具有計算量小，收斂速度快，穩(wěn)定性好的優(yōu)點(diǎn)，能較好完成卷積混合語音的實(shí)時分離工作。

參考文獻(xiàn)
[1] ?BELL A J, SEJNOWSKI T J. An information-maximization?approach to blind separation and blind deconvolution [J].Neural Computation, 1995,(7):1129-1159.
[2] ?何培宇，殷斌.一種有效的語音盲信號分離簡化混合模型[J].電子學(xué)報, 2002，30(10):1438-1440.
[3]?KAWAMOTO M, BARROS A K, MANSOUR A, et al.?Real world blind separation of convolved non-stationary?signals. ICA 1999:347-352.
[4]?張玲,何培宇.一種時域盲信號分離系統(tǒng)的DSP實(shí)現(xiàn) [C].全國第二屆DSP應(yīng)用技術(shù)會議,2004,8(23):222-224.
[5] ?DOHERTY J, PORAYATH R.? A robust echo canceler for ?acoustic environments[J]. IEEE Trans, Circuits and Sys??temsⅡ1997,(44):389-398.

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

一種基于時域解相關(guān)的雙通道語音分離算法

日期： 2008-07-30

作者：夏秀渝， 何培宇， 周激流

相關(guān)內(nèi)容

作者：夏秀渝，何培宇，周激流