摘 要: 研究討論了用于麥克風陣列的高信噪比定向采音算法,,設計實現(xiàn)了麥克風陣列語音采集系統(tǒng)。通過對采集到的空間中不同方向音頻進行數(shù)字信號處理,,使陣列形成的波束主瓣指向目標語音,,零陷指向干擾源,提高采音信噪比,,實現(xiàn)對聲源的定向采音等,。測試結果表明,本系統(tǒng)采音效果良好,,采集到的聲音信號主瓣很窄,,能夠實現(xiàn)高信噪比定向采音。
關鍵詞: 麥克風陣列,;語音處理,;SMI算法;定向采音
目前,,在語音采集場合中(如舞臺,、大型會議室、電視會議等)通常使用孤立麥克風作為語音拾取工具,。但是孤立麥克風會采集環(huán)境噪音,,在多音源場合中相互干擾難以避免,,這些缺陷嚴重影響了語音采集質量。隨著陣列信號處理技術[1]的發(fā)展,,利用麥克風陣列拾取語音信號為提高采音質量提供了可能[2],。通過陣列信號處理的方法能夠實現(xiàn)智能的語音信號優(yōu)化效果,實現(xiàn)語音定向采集,,提高信噪比,。
目前,麥克風陣列語音信號處理技術是語音采集技術領域的一個研究熱點,。CHANG A C和HUNG J C等[3]研究了MUSIC語音信號陣列處理算法,,在理論上證明了能夠提高采音精度,具備信號選擇和提取等性能,。GANNOT S和COHEN I等[4]研究了基于廣義旁瓣抵消器結構的語音增強的算法,,認為GSC算法能夠很好地提高采音信噪比。邵懷宗等[5]設計了一種12陣元麥克風陣列,,提高了采音精度,。楊祥清等[6]提出的三維聲源定位系統(tǒng)減少了陣元數(shù)量,同時保持了一定的采音精度,。但國內尚無具有自主知識產權的產品,,所以研究麥克風陣列語音采集系統(tǒng)具有較高的市場價值。
本文從上述應用背景出發(fā),,分析了基于麥克風陣列的高信噪比定向采音系統(tǒng)所涉及的相關算法,,重點討論了軟硬件系統(tǒng)的工程實現(xiàn)。麥克風陣列定向采音算法主要有自適應波束形成技術中的最小均方(LMS)算法和采樣自相關矩陣求逆(SMI)算法[7]等,。自適應陣列的性能與算法的收斂速度密切相關,。為了加快收斂速度并解決收斂速度依賴于特征值分布的問題,常采用基于信號環(huán)境的采樣自相關矩陣求逆(SMI)算法,。本文采用SMI算法,,應用易于生產、精度高于二維定位,、實用性更強的4陣元麥克風陣列,,并使用DSP進行陣列信號處理,以滿足對聲源信息定向采集的需求,。
1 算法模型
自適應波束形成算法應用于麥克風陣列語音采集系統(tǒng)時,,能夠隨信號源的變化自動調節(jié)有關參數(shù),從而達到調節(jié)方向圖主瓣方向的目的,。該算法主要是對采集到的麥克風陣列信號運行內部反饋控制,,并根據(jù)一定的準則形成權向量,通過對接收到的信號進行加權疊加,使陣列方向圖的波束主瓣指向有用信號,,零陷或較低的旁瓣指向干擾信號方向[8],,從而將不同的信號從空間上實現(xiàn)分隔,實現(xiàn)定向采音,。
1.1 陣列模型
本系統(tǒng)采用等距線性麥克風陣列[9],。對于實際使用的陣列結構要求方向向量a(θ)與入射角θ一一對應,不能出現(xiàn)模糊現(xiàn)象,。因此,,陣元間距d不能任意選擇,有時甚至需要非常精確地校準,。假設d很大,則相鄰陣元的相位延遲會超過2π,,此時,,陣列方向向量無法在數(shù)值上分辨出具體的相位延遲,就會出現(xiàn)相位模糊[10],。對于等距線性陣列來說,,其陣元間距不能大于半波長λ/2。
語音的主要頻率范圍為340 Hz~4 000 Hz ,,空氣中聲速約為 C=340 m/s,,可得波長的范圍為0.085 m~1 m,因此d的范圍為4.25 cm~50 cm,。而對于低旁瓣或零深陷的復雜波束,,要求r=10L2/λ(r為聲源到基陣的距離,L為等距線性陣列長度)或更大距離[11],,考慮應用環(huán)境,,取r范圍為2 m~10 m。經測試發(fā)現(xiàn),,一般人說話的聲音頻率在1 000 Hz左右,,即λ在0.34 m左右。由此可以推算出L為0.26 m~0.58 m,。因此取L=45 cm,。
建立等距線性陣列模型,該信號在發(fā)射端表示為s(t),,信道復增益(包括幅度和相位影響)為h(t),,入射角為θ,以圖1表示M陣元直線型麥克風陣列,。
1.3 算法仿真
使用MATLAB軟件對SMI算法進行仿真,。圖2所示為信號源方向為0°,主要干擾信號方向為45°的8陣元(圖2(a))與4陣元(圖2(b))麥克風陣列仿真結果。
由圖2可以看出,,該算法在45°方向形成了零陷,,有效地抑制了主干擾信號。而在0°方向形成了具有一定寬度的主瓣,,由于主瓣的增益大于所有旁瓣的增益,,因此該算法能有效地采集到期望信號,抑制其他信號,。
雖然,,8陣元的仿真結果比4陣元的要好,主瓣較窄,,零陷明顯,,但是算法復雜度較高,硬件實現(xiàn)較為困難,。綜合仿真結果和硬件電路復雜度,,認為采集信號的麥克風的個數(shù)為4個,每個麥克風的間距為15 cm時,,該算法的性能較好,,且硬件電路較容易實現(xiàn)。
2 硬件實現(xiàn)
2.1 系統(tǒng)整體方案
圖3為系統(tǒng)硬件結構圖,,包括4陣元直線型麥克風陣列,、4路音頻放大濾波電路、DSP處理器以及音頻編解碼器,。
麥克風陣列采用4個駐極體式麥克風構成陣列,;放大濾波電路對麥克風陣列采集到的信號進行預處理,通過RCA端子將預處理后的信號送往音頻編解碼器,;處理器采用ADSP-21479,,用SMI算法對量化編碼后的4路音頻信號進行處理,得到期望信號,;音頻編解碼器AD1939對經過放大濾波后的4路音頻信號進行量化編碼,,隨后將DSP的處理結果經D/A轉換后輸出。
2.2 關鍵模塊設計
2.2.1 DSP處理器與系統(tǒng)程序
數(shù)字波束形成[12]的過程是一系列矩陣相乘的過程,,其運算的數(shù)據(jù)量大,,而信道環(huán)境是不斷變化的,導致最優(yōu)權值也處于不斷的變化中,,因此實際權值必須進行不斷的調整,,因而要求瞬時處理速度要快。
DSP處理技術[13]可以運用在對瞬時處理能力要求更加苛刻的環(huán)境,,DSP處理器和通用處理器最大的不同在于數(shù)據(jù)處理能力的增強,,其核心是對連續(xù)存儲的數(shù)據(jù)依次作重復的乘加運算[14],。
另外,由于浮點型DSP處理器具有運算精度高等特點,,因此本系統(tǒng)選擇ADI公司的高性能浮點DSP處理器ADSP-21479芯片作為整個系統(tǒng)的核心。ADSP-21479是高性能32/40 bit浮點處理器,,具有高性能音頻處理的功能,;工作頻率高達300 MHz,滿足實時性的要求,;另外,,還具有精簡的指令集,編程較容易,。
由于陣列信號處理是在信號的復基帶進行的,,需要進行大量的復數(shù)運算,因此如果沒有簡潔,、優(yōu)化的執(zhí)行程序,,算法的運算時間就會比較長。在本設計中,,考慮到矩陣運算的復雜性,采用C語言進行編程,。采用這種方式,,可縮短軟件開發(fā)的時間,提高程序的可讀性和可移植性,,但是在滿足系統(tǒng)實時運算的要求上會有所缺陷,。
基于上述討論,DSP采用圖4所示的流程圖實現(xiàn)自適應波束形成,。
2.2.2 前置放大濾波電路
由于駐極體麥克風采集到的信號存在嚴重噪音,,為了獲得高質量的音頻信號,在DSP板載RCA輸入端子前加了前置放大濾波電路對語音信號進行預處理,。經測試,,放大濾波電路通頻帶為0~1 300 Hz,放大倍數(shù)為0~54 dB可調,,典型值約為46 dB,,該電路可以有效降低噪聲的干擾,從而提高音質,。
從圖6可以看出,,對于同樣距離的同一聲源,在主瓣(即0°方向)可以實現(xiàn)最大輸出,,而在形成零陷的45°方向將實現(xiàn)抑制,。這個測試結果與圖2所示的仿真結果相吻合。這樣就實現(xiàn)了波束的形成,進而實現(xiàn)定向采音,。
基于麥克風陣列的定向采音技術是一個新興的領域,,具有深刻的技術背景和廣闊的應用前景。本文從算法模型到硬件實現(xiàn)詳細介紹了基于麥克風陣列的高信噪比定向采音系統(tǒng),。本系統(tǒng)可以給出較好的采音效果,,硬件實現(xiàn)也不復雜。在基于麥克風陣列的定向采音技術上,,本系統(tǒng)還可以進行一些改進,。在理論上,可以進一步提高定向采音精度,,更快速地跟蹤及更有效地去噪,;在實現(xiàn)上,因為涉及多通道語音處理和更為復雜的核心算法,,需要實現(xiàn)更加苛刻的實時信號處理要求,。
參考文獻
[1] KRIM H, VIBERG M. Two decades of array signal processing research: the parametric approach[J]. Signal Processing Magazine,, IEEE,, 1996,13(4):67-94.
[2] KANEDA Y,, OHGA J. Adaptive microphone-array system for noise reduction[J]. IEEE Transactions on Acoustics,, Speech and Signal Processing, 1986,,34(6):1391-1400.
[3] CHANG A C,, HUNG J C. DOA estimation using iterative MUSIC algorithm for CDMA signals[J]. IEICE Transactions on communications, 2009,, 92(10): 3267-3269.
[4] GANNOT S,, COHEN I. Speech enhancement based on the general transfer function GSC and postfiltering[J]. IEEE Transactions on Speech and Audio Processing, 2004,,12(6):561-571.
[5] 邵懷宗,,林靜然,彭啟琮,,等.基于麥克風陣列的聲源定位研究[J].云南民族大學學報(自然科學版),,2004,13(4):256-258.
[6] 楊祥清,,汪增福.基于麥克風陣列的三維聲源定位算法及其實現(xiàn)[J].聲學技術,,2008,27(2):260-265.
[7] 桑懷勝,,李崢嶸.智能天線的原理,、自適應波束形成算法的研究進展與應用[J].國防科技大學學報,,2001,23(6):83-89.
[8] GRIFFITHS L,, JIM C. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Transactions on Antennas and Propagation,, 1982,30(1): 27-34.
[9] 王冬霞,,趙光,,鄭家超.麥克風陣列拓撲結構對語音增強系統(tǒng)性能影響的理論分析[J].遼寧工業(yè)大學學報(自然科學版),2010,,30(1):1-4.
[10] BALLAL T,, BLEAKLEY C. Phase-difference ambiguity resolution for a single-frequency signal in the near-field using a receiver triplet[J]. IEEE Transactions on Signal Processing, 2010,,58(11):5920-5926.
[11] KENNEDY R A,, ABHAYAPALA T D, WARD D B.Broadband nearfield beamforming using a radial beampattern transformation[J]. IEEE Transactions on Signal Processing,, 1998,,46(8): 2147-2156.
[12] TURCOTTE R L, MA S C H,, AGUIRRE S. Method and intelligent digital beam forming system with improved signal quality communications[P]. Google Patents,,5856804: 1999-01-05.
[13] RABINER L R, GOLD B. Theory and application of digital signal processing[M]. Englewood Cliffs,, NJ,, Prentice-Hall, Inc.,, 1975.
[14] 劉書明,蘇濤,,羅軍輝.TigerSHARC DSP應用系統(tǒng)設計[M].北京:電子工業(yè)出版社,,2004.