《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動(dòng)態(tài) > 一種基于時(shí)域解相關(guān)的雙通道語音分離算法

一種基于時(shí)域解相關(guān)的雙通道語音分離算法

2008-07-30
作者:夏秀渝,, 何培宇, 周激流

??? 摘 要: 提出了一種基于時(shí)域解相關(guān)的卷積混合" title="卷積混合">卷積混合語音盲分離時(shí)域算法,。該算法利用相關(guān)系數(shù)對語音信號" title="語音信號">語音信號進(jìn)行時(shí)域去相關(guān)處理,,同時(shí)基于二階統(tǒng)計(jì)量完成雙通道語音分離" title="語音分離">語音分離,。該算法充分考慮了語音信號本身的相關(guān)性及不平穩(wěn)性,,收斂速度快,,穩(wěn)定性好,,為減小計(jì)算量提出了該算法的遞推改進(jìn)算法,。仿真實(shí)驗(yàn)表明,,在對卷積混合雙通道語音信號進(jìn)行盲分離時(shí),該算法是非常有效的,。
??? 關(guān)鍵詞: 語音分離; 卷積混合; 去相關(guān)

?

  人耳具有很強(qiáng)的分離聲音的能力,,即所謂的“雞尾酒會(huì)效應(yīng)”。如何讓機(jī)器也具備這種自動(dòng)分離語音的能力是目前的一個(gè)熱點(diǎn)研究問題,。瞬時(shí)混合語音信號的盲分離研究已比較成熟并且產(chǎn)生了很好的分離效果[1],,但在實(shí)際場合,對多個(gè)麥克風(fēng)接收到的混合語音信號進(jìn)行盲分離時(shí),因語音信號本身的相關(guān)性及不平穩(wěn)性,尤其是延遲和反射造成的卷積,使卷積混合語音信號的盲分離變得十分困難。
  盲分離算法" title="盲分離算法">盲分離算法有時(shí)域和頻域算法之分,,時(shí)域算法能獲得獨(dú)立性一致的分離信號,,但有計(jì)算量大、對于語音信號算法收斂性差等缺點(diǎn),。頻域算法是把時(shí)域的卷積混合變換到頻域用瞬時(shí)混合盲分離算法對其進(jìn)行分離,,由于信號順序倒轉(zhuǎn)、功率歸一化等問題,,這些算法的復(fù)雜程序大大增加,分離效果也不是太好,而且其為分幀處理,有延遲效應(yīng),。
本文研究卷積混合語音信號的盲分離方法。綜合考慮了語音信號既是非平穩(wěn)信號又是有色信號(強(qiáng)相關(guān)信號)的特點(diǎn),提出了基于時(shí)域解相關(guān)和空域解相關(guān)同時(shí)進(jìn)行的語音盲分離時(shí)域算法,仿真實(shí)驗(yàn)證明此算法收斂快,,穩(wěn)定性好,在對卷積混合語音信號進(jìn)行盲分離時(shí),,獲得了非常好的效果,。
1 雙通道語音卷積混合分離簡化模型
  設(shè)麥克風(fēng)1收到的信號為x1(t),令其中來自聲源1的部分記做s1(t),,麥克風(fēng)2收到的信號為x2(t),,令其中來自聲源2的部分記做s2(t), 則在一定條件下,得到簡化的卷積混合及分離模型[2],。
  在簡化模型中,,分別用兩個(gè)嚴(yán)格因果的FIR濾波器來逼近混合濾波器h12和h21。所謂嚴(yán)格因果的濾波器是指濾波器的零延遲項(xiàng)系數(shù)為零,。當(dāng)源信號位于麥克風(fēng)陣列法線兩側(cè)時(shí),,基本可認(rèn)為h12和h21為嚴(yán)格因果系統(tǒng)。若此時(shí)的分離模型采用圖1所示結(jié)構(gòu),,且規(guī)定w12和w21也為嚴(yán)格因果的,,則可分析出只有當(dāng)h12=w12,h21=w21,這種情況才能成功分離出混合語音,。這種混合分離模型情況下,,分離工作本質(zhì)是一個(gè)系統(tǒng)盲辯識的過程,h12和w12以及h21和w21的接近程度決定了分離效果的好壞,,他們越接近,,分離效果越好。當(dāng)源信號處于麥克風(fēng)陣列同側(cè)時(shí),,在相應(yīng)分離濾波器引入延遲,,以上方法也適用,當(dāng)然延遲的多少須由源信號的方位確定,。

?


2 算法提出
  非嚴(yán)格的理論分析顯示二階統(tǒng)計(jì)量可以用于非平穩(wěn)的語音分離,。實(shí)踐證明采用二階統(tǒng)計(jì)量比采用高階統(tǒng)計(jì)量在實(shí)際中能得到更好的語音分離效果和更小的計(jì)算量。
  Kawamoto針對非平穩(wěn)信號提出了基于二階統(tǒng)計(jì)量的卷積混合盲分離算法[3],。
  


  Pi代表輸出信號yi在不同時(shí)段的能量,。該算法實(shí)現(xiàn)簡單,已在TMS320C6701 EVM板上實(shí)時(shí)實(shí)現(xiàn)了語音分離,,有不錯(cuò)的效果[4],。但研究發(fā)現(xiàn)對于語音信號該算法收斂還是較慢,且收斂穩(wěn)定性差,。
  在仔細(xì)分析了實(shí)驗(yàn)結(jié)果后,,筆者認(rèn)為收斂慢的根本原因是由于語音信號時(shí)間上的強(qiáng)相關(guān)性導(dǎo)致學(xué)習(xí)的權(quán)向量相互影響而收斂慢,收斂不穩(wěn)定是由語音信號的非平穩(wěn)性造成的。傳統(tǒng)基于二階統(tǒng)計(jì)量的盲分離算法進(jìn)行的是空域去相關(guān)處理,,考慮到語音信號時(shí)間上的強(qiáng)相關(guān)性,,對于分離濾波器的盲辨識還應(yīng)同時(shí)考慮對信號進(jìn)行時(shí)域解相關(guān)處理。
  Doherty 與Porayath于1997年提出解相關(guān)的LMS算法(簡稱DLMS算法)[5],,對于強(qiáng)相關(guān)性的語音信號該算法收斂速度大大加快,。其基本思想是用信號解相關(guān)的結(jié)果作為更新方向向量:
  定義輸入信號向量x(n)和x(n-1)的相關(guān)系數(shù)為:
  

  令v(n)=x(n)-ρ(n)x(n-1),為x(n)解相關(guān)的結(jié)果,, DLMS算法權(quán)的調(diào)整則利用e(n)v(n)來代替LMS算法中的e(n)x(n)完成,,即:
???

??? 根據(jù)上述思想,本文提出時(shí)域解相關(guān)的語音盲分離算法:將Kawamoto算法中權(quán)的調(diào)整由yj(n-k)改變?yōu)?A target=_blank>,。
  新算法(D_BSS1)迭代步驟如下:

  (1) 初始化:wij(0)=0?????? i≠j∈{1,2}
  (2) 更新:n=1,2,3…

???
  新算法中由于采用解相關(guān)的結(jié)果v(n)作為更新方向向量,,盲辨識h12時(shí)不僅對y1(n)(相當(dāng)于系統(tǒng)激勵(lì)信號)作了時(shí)間解相關(guān)處理,加快算法收斂速度,而且對y2(n)(相當(dāng)于自適應(yīng)系統(tǒng)辯識中參考信號中的噪聲)經(jīng)解相關(guān)處理幅度大大降低,算法收斂的穩(wěn)定性大大提高,盲辨識h21同樣,。
  為了減小上述算法中的計(jì)算量,,做如下改進(jìn):相關(guān)系數(shù)的計(jì)算采用迭代算法,其中β取0~1的數(shù),,向量vi(n)每次只計(jì)算更新最新的一個(gè)元素vi(n),, 具體算法如下:
  改進(jìn)算法(D_BSS2)如下:
???

??? 從上面迭代公式看,與Kawamoto算法比較, D_BSS2僅增加了一次相關(guān)系數(shù)的迭代和元素vi(n)的計(jì)算量,所增加的計(jì)算量相對于幾百甚至幾千階的分離系統(tǒng)" title="分離系統(tǒng)">分離系統(tǒng)來說幾乎可以忽略。
3 仿真結(jié)果
3.1 算法收斂性能及語音分離情況
  以上面簡化模型為基礎(chǔ)完成如下仿真,,兩聲源信號各為一段長60 000點(diǎn)的中文朗讀的女聲和男聲,采樣率為11.025kHz,。h12和h21采用如圖2所示的實(shí)測房間聲通道特性,濾波器長度取500點(diǎn),。

?


  另在x1,,x2處加入信噪比為-30dB的白噪聲,算法調(diào)整步長?滋取0.000 05,。輸入語音波形,、Kawamoto算法和新算法D_BSS1失配曲線如圖3所示。

?


  失配(misalignment)定義如下:
  


??? 失配越小,,說明wij和hij越接近,。圖3中虛線為Kawamoto算法的失配變化曲線,實(shí)線為新算法的失配變化曲線,??梢姡滤惴ㄔ诘^程中的失配曲線收斂比Kawamoto算法快,,且穩(wěn)定性好得多,,具有良好的跟蹤性能。按照現(xiàn)在語音盲分離常采取的辦法,,讓盲分離算法運(yùn)行一段時(shí)間,,收斂后停止迭代,,用權(quán)進(jìn)行語音分離,采用提高信號干擾比SIR來反映算法性能,,信干比定義如下:
???

??? 其中s′i(n)表示麥克風(fēng)接收信號xi(n)或分離輸出端yi(n)中與源信號si(n)相關(guān)的部分,。當(dāng)運(yùn)行60 000點(diǎn)停止迭代時(shí),測得新算法信干比為: SIR_x1=4.2dB,SIR_y1=12.4dB, SIR_x2=0.3dB,SIR_y2=12.6dB, 平均提高了10dB,。同樣條件下,,Kawamoto算法平均提高了5dB,由于Kawamoto算法失配曲線收斂的不穩(wěn)定性不能保證停止迭代時(shí)兩路權(quán)都最佳,,所以Kawamoto算法有分離效果不穩(wěn)定的現(xiàn)象。
3.2 改進(jìn)算法D_BSS2的性能
??? 在上面相同的實(shí)驗(yàn)條件下,,進(jìn)行了D_BSS1和D_BSS2算法性能的對比實(shí)驗(yàn),,得到兩種算法失配曲線如圖4所示。
可見,,改進(jìn)算法D_BSS2收斂性能比D_BSS1稍微差一點(diǎn),,但計(jì)算量卻大大降低,D_BSS2和Kawamoto算法的計(jì)算量相差不多,。

?


3.3 實(shí)際混迭語音分離實(shí)驗(yàn)
??? 仿真實(shí)驗(yàn)在一虛擬聲學(xué)實(shí)驗(yàn)室進(jìn)行,,房間長、寬,、高為(5,,4,3)(m),,房間混響時(shí)間為0.2s,,兩聲源位于(1.5,2,,1)和(3.5,,2,1)處,,兩麥克風(fēng)分別位于(2,,1,1)和(3,,1,,1)處。信號采樣率為11.025kHz,,分離濾波器階數(shù)取500階,,由于無法得到對應(yīng)簡化模型中的h12和h21(其本質(zhì)為聲源到兩麥克風(fēng)的差異沖擊響應(yīng)),所以不能用失配來反映分離性能,,采用D_BSS2,,測得信干比平均提高11dB,算法一直迭代情況下,試聽分離系統(tǒng)的兩路輸出,,算法收斂很快,,明顯聽到每通道聲音由兩個(gè)聲音很快變?yōu)橐粋€(gè)聲音,語音得到成功分離,。
  本文提出針對非平穩(wěn)強(qiáng)相關(guān)語音信號的雙通道語音分離時(shí)域算法,,該算法基于二階統(tǒng)計(jì)量進(jìn)行混合語音的分離,采用時(shí)域解相關(guān)處理來降低語音的時(shí)間相關(guān)性,,從而具有計(jì)算量小,,收斂速度快,穩(wěn)定性好的優(yōu)點(diǎn),,能較好完成卷積混合語音的實(shí)時(shí)分離工作,。


參考文獻(xiàn)
[1] ?BELL A J, SEJNOWSKI T J. An information-maximization?approach to blind separation and blind deconvolution [J].Neural Computation, 1995,(7):1129-1159.
[2] ?何培宇,殷斌.一種有效的語音盲信號分離簡化混合模型[J].電子學(xué)報(bào), 2002,,30(10):1438-1440.
[3]?KAWAMOTO M, BARROS A K, MANSOUR A, et al.?Real world blind separation of convolved non-stationary?signals. ICA 1999:347-352.
[4]?張玲,何培宇.一種時(shí)域盲信號分離系統(tǒng)的DSP實(shí)現(xiàn) [C].全國第二屆DSP應(yīng)用技術(shù)會(huì)議,2004,8(23):222-224.
[5] ?DOHERTY J, PORAYATH R.? A robust echo canceler for ?acoustic environments[J]. IEEE Trans, Circuits and Sys??temsⅡ1997,(44):389-398.

?

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時(shí)通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]