人工耳蝸言語處理系統(tǒng)的CIS算法設(shè)計與實現(xiàn)-AET-電子技術(shù)應(yīng)用

人工耳蝸言語處理系統(tǒng)的CIS算法設(shè)計與實現(xiàn)

來源：電子技術(shù)應(yīng)用2012年第11期

吳震，王常，張榮芬，方波，鄧朝勇

貴州大學(xué) 理學(xué)院貴州省微納電子與軟件技術(shù)重點實驗室，貴州貴陽550025

摘要： 采用雙麥克風(fēng)工作模式提高語音采集效果。為解決傳統(tǒng)CIS算法在信噪比低的情況下語音識別率差的問題，在CIS算法設(shè)計前端增加了基于LMS算法的自適應(yīng)濾波器。通過Matlab仿真，語音中的噪聲得到很大程度上消除。為了降低運算量、減少硬件資源和功耗，通過FFT運算在頻域?qū)崿F(xiàn)帶通濾波功能。在硬件實現(xiàn)中，與刺激芯片聯(lián)合仿真，刺激幅度與刺激時間均滿足要求。

關(guān)鍵詞： 人工耳蝸 CIS算法自適應(yīng)濾波 FFT FPGA

中圖分類號： TN432
文獻(xiàn)標(biāo)識碼： A
文章編號： 0258-7998(2012)11-0062-04

Design and implementation of cochlear implants′ speech signal processing system based on CIS algorithm

Wu Zhen，Wang Chang，Zhang Rongfen，F(xiàn)ang Bo，Deng Chaoyong

Key Lab of Micro-Nano Electronics and Software Technology, College of Science, Guizhou University, Guiyang 550025，China

Abstract： Double microphone working mode to improve speech acquisition effects is put forword in this paper. In order to solve the problem of that the traditional CIS algorithm is difficult to get a good rate of speech recognition under the low signal-to-noise ratio envirment, an adaptive filter based on LMS algorithm is designed in front of CIS portion. Through Matlab simulation, the noise in the voice is largely eliminated. In addition, in order to reduce the amount of computation，hardwire resoures and power waste, band pass filter is realized by FFT operation. In hardwire, the stimulus amplitude and stimulus duration meet the requirements in the stimulation with stimulating chip.

Key words : cochlear implant；CIS algorithm；adaptive filter；FFT；FPGA

人工耳蝸是一種植入式的聽覺輔助設(shè)備，是目前唯一可以使全聾患者恢復(fù)聽覺的電子設(shè)備，它可以代替患者把聲音信號轉(zhuǎn)變?yōu)殡娦盘朳1]，電信號經(jīng)過相應(yīng)處理，根據(jù)耳蝸對不同頻率的感知需求去刺激聽覺神經(jīng)。目前，大部分人工耳蝸是基于通用DSP系統(tǒng)實現(xiàn)的，功耗較大，對電池的要求非常高。另外也有用模擬電路實現(xiàn)的，功耗低，但面積大，算法中的參數(shù)不具有可編程性，對患者的應(yīng)用面窄，多數(shù)停留在試驗階段。本文采用雙麥克風(fēng)工作模式，在加入噪聲處理模塊[2]的基礎(chǔ)上，基于FFT運算設(shè)計了一個資源占用少、效率高的CIS算法模塊[3]，同時設(shè)計了完整的測試系統(tǒng)，完成聲音采集、處理、刺激脈沖輸出全部功能驗證。

1 CIS算法
連續(xù)交替取樣語音處理方案CIS(Continuous Interleaved Sampling)[4]是美國學(xué)者Wilson于1991年提出的對壓縮模擬法的改進(jìn)方案，它使用非同時交替脈沖來避免各語音通道間的相互影響，其原理如圖1所示。語音信號預(yù)加重后由一組帶通濾波器分為4～8個通道，每個通道經(jīng)過全波整流、低通濾波可以得到各通道的包絡(luò)信號；再用對數(shù)或平方律壓縮到適當(dāng)?shù)膭討B(tài)范圍；最后，由一組時間上交替的雙相脈沖序列調(diào)制對應(yīng)的包絡(luò)信號，從而獲得各電極的刺激脈沖。CIS方案通過利用交替的刺激脈沖，有效地克服了通道之間的相互干擾；同時，對每一個通道而言，它還具有相對較高的刺激速率，因為相鄰?fù)ǖ篱g的脈沖時延很小，可以達(dá)到較高的刺激速率，CIS方案能更好地跟蹤語音信號的細(xì)節(jié)變化。國外主要的人工耳蝸產(chǎn)品均采用該方案。

2 耳蝸系統(tǒng)工作原理
本文采用雙麥克風(fēng)模式進(jìn)行工作[5]，兩個麥克風(fēng)加減后的數(shù)據(jù)分別送給自適應(yīng)濾波器模塊的主通道和參考通道。一方面兩個麥克風(fēng)把采集進(jìn)來的數(shù)據(jù)送入FPGA語音處理模塊，另一方面輸出到SD卡上。3.3 V可充電鋰電池作為電源，電源管理模塊采用Sipex公司的SPX1117低壓差穩(wěn)壓器把調(diào)節(jié)后的3.3 V電壓供給刺激芯片、麥克風(fēng)、FPGA模塊及SD卡模塊。FPGA模塊接收采集進(jìn)來的數(shù)字信號，進(jìn)行語音處理，并將處理后的結(jié)果依照刺激芯片要求的數(shù)據(jù)幀格式順序發(fā)送給刺激芯片，刺激芯片通過電極陣列產(chǎn)生一系列的刺激脈沖。耳蝸系統(tǒng)框圖如圖2所示。

3 雙麥克風(fēng)系統(tǒng)
   麥克風(fēng)采用AD公司 ADMP421微型數(shù)字麥克風(fēng)。ADMP421是一款高性能、低功耗、數(shù)字輸出、底部收音式全向MEMS麥克風(fēng)。根據(jù)人工耳蝸系統(tǒng)特點，該麥克風(fēng)非常適合本系統(tǒng)。根據(jù)語音傳輸特點和自適應(yīng)濾波器性能要求，選取兩個麥克風(fēng)間距為9.8 mm。通過FPGA模塊中I2S電路與SD卡模塊對麥克風(fēng)的控制，實現(xiàn)聲音采集與存儲功能。利用TI公司TLVAIC23音頻芯片進(jìn)行聲音回放驗證，音頻芯片控制模塊主要對AIC23進(jìn)行正確配置，ROM中存儲配置數(shù)據(jù)。AIC23的數(shù)字?jǐn)?shù)據(jù)端口作為輸入端輸入麥克風(fēng)采集的數(shù)據(jù)，通過LINEOUT端口輸出，實現(xiàn)了聲音的正確回放。
4 FPGA模塊
4.1 語音處理模塊基本功能
   麥克風(fēng)采集進(jìn)來的語音數(shù)據(jù)用FIFO進(jìn)行分幀處理。由于語音信號具有短時穩(wěn)定性(約為10 ms～30 ms)，又因為后面在頻域上進(jìn)行頻帶劃分濾波，所以幀長取為256，既滿足語音信號的短時平穩(wěn)性，又利于后面的FFT計算。采集的兩路語音信號通過ANC（自適應(yīng)濾波器模塊）去噪，然后把去噪后的語音信號做256點的FFT，并在各個通道上進(jìn)行分頻，并求出各個通道上的平均能量，最后進(jìn)行非線性壓縮，壓縮后的信號順序輸出到后面的刺激芯片。FPGA模塊結(jié)構(gòu)圖如圖3所示。

    該去噪模塊每19個時鐘周期處理一個數(shù)據(jù)，并且在這19個時鐘周期中對自適應(yīng)濾波器6個系數(shù)進(jìn)行更新。本設(shè)計采用高斯白噪聲為測試噪聲。自適應(yīng)濾波器的Matlab與Verilog仿真圖如圖4所示。

4.3 FFT模塊
FFT模塊采用基于WAFT16的級聯(lián)結(jié)構(gòu)實現(xiàn)，主要由RAM、16點FFT模塊（FFT16）、截位處理模塊（Cnorm）構(gòu)成。DR、DI分別代表實步數(shù)據(jù)與虛步數(shù)據(jù)，en為使能端，start為開始信號。為了進(jìn)行數(shù)據(jù)的實時處理，此處采用兩個深度為256的RAM做乒乓操作，當(dāng)ANC寫上面的RAM時，F(xiàn)FT16模塊讀取下面一個RAM的數(shù)據(jù)，反之亦然。為解決FFT運算溢出問題，F(xiàn)FT16模塊后面增加了截位處理模塊（Cnorm），完成16點FFT計算后，直接截掉低2位。旋轉(zhuǎn)因子存儲在ROM中，需要時直接進(jìn)行ROM尋址。另外，此處采用順序輸入、倒序輸出的策略，即輸出時按0、16、32、48...的順序進(jìn)行輸出。其Verilog實現(xiàn)后的仿真示意圖如圖5所示。

4.4 求各通道平均能量
   該模塊主要是根據(jù)已有的通道頻帶劃分進(jìn)行各通道的能量計算，本系統(tǒng)采用8通道，其頻帶劃分如下：
   wn(1)=[51 400]；       wn(2)=[400 630]；
   wn(3)=[630 920]；       wn(4)=[920 1 270]；
   wn(5)=[1 270 1 720]；   wn(6)=[1 720 2 700]；
   wn(7)=[2 700 3 700]；   wn(8)=[3 700 5 500]；
   因為做FFT運算后的輸出數(shù)據(jù)為復(fù)數(shù)，所以需要求模運算(即開平方運算)。本系統(tǒng)采用非冗余的循環(huán)算法[7]進(jìn)行開平方運算，用簡單的加減移位操作實現(xiàn)開平方運算，而且處理一個數(shù)據(jù)只需要N/2個時鐘周期。由于FFT模塊的輸出數(shù)據(jù)為20 bit，故每隔10個時鐘周期才能實現(xiàn)一次開平方運算；又因為ANC是每隔19個周期才輸出一個數(shù)據(jù)，所以每隔19個周期刷新或者復(fù)位一次開平方運算模塊，并且在每次復(fù)位后的第10個周期有開平方運算輸出。為了聯(lián)系后續(xù)模塊，采用valid信號控制開平方運算模塊的輸出，只有valid=1時，輸出才有效。其Verilog仿真的時序圖如圖6所示。

4.5 非線性壓縮與通道數(shù)據(jù)轉(zhuǎn)換格式模塊
壓縮模塊是基于y=x^0.2冪函數(shù)實現(xiàn)的，其中x為16 bit無符號數(shù)。由于壓縮模塊的輸入數(shù)據(jù)非常小，所以采用線性近似法實現(xiàn)冪函數(shù)。經(jīng)計算，13條近似直線就能保證壓縮模塊輸出誤差在4%以內(nèi)。通道數(shù)據(jù)格式轉(zhuǎn)換模塊主要實現(xiàn)壓縮通道的數(shù)據(jù)與刺激芯片幀格式相匹配。因為刺激芯片需要12 bit能量數(shù)據(jù)，而壓縮后的8通道數(shù)據(jù)均為16 bit，通過Matlab可知，所有數(shù)據(jù)高4位為零，所以取低12位數(shù)據(jù)，并且按串行數(shù)據(jù)輸出格式輸出。
4.6 FPGA模塊結(jié)果分析
以上模塊結(jié)構(gòu)都采用Q15的數(shù)據(jù)格式進(jìn)行可綜合的Verilog HDL描述，并在Xilinx Spantan6系列FPGA上實現(xiàn)，資源占用情況為：整個系統(tǒng)占用5 014個slice，時序上整個系統(tǒng)的處理速度主要由自適應(yīng)濾波器模塊決定。用ModelSim進(jìn)行功能仿真后，將仿真結(jié)果數(shù)據(jù)導(dǎo)入Matlab并與Matlab下的處理結(jié)果進(jìn)行對比，最后各通道進(jìn)行數(shù)據(jù)壓縮后的結(jié)果對比如圖7所示。

由圖7可以看出定點運算和浮點運算的結(jié)果十分吻合，其誤差最大不超過6.5%。
5 耳蝸系統(tǒng)聯(lián)合仿真
采用經(jīng)流片驗證后的刺激芯片[8]進(jìn)行聯(lián)合仿真。根據(jù)耳蝸系統(tǒng)要求制作PCB版圖(包括核心板與底板)。核心板主要包括FPGA、電池和數(shù)據(jù)采集模塊（SD卡）；底板主要包括麥克風(fēng)、電源管理模塊和刺激芯片模塊，如圖8所示。焊接芯片進(jìn)行了系統(tǒng)聯(lián)合仿真，通過示波器觀察刺激芯片指定通道的刺激波形如圖9所示。經(jīng)計算一個脈沖刺激時間為26 ?滋s，刺激幅度為784 mV，與預(yù)期值相符。

本文完整地實現(xiàn)了耳蝸系統(tǒng)的設(shè)計與測試，詳細(xì)論述了基于頻域濾波CIS算法的設(shè)計與實現(xiàn)過程，在CIS算法的基礎(chǔ)上，增加了自適應(yīng)去噪模塊，很好地濾除掉混在語音信號中的噪聲。另外，還可以加入超低功耗的MCU，根據(jù)不同的患者，對CIS算法中的可編程參數(shù)進(jìn)行控制，以克服模擬電路在參數(shù)可編程性方面的缺點。在時序與誤差方面滿足目前醫(yī)療電子領(lǐng)域?qū)φZ音處理的要求。該語音處理模塊移植性良好，為實現(xiàn)專用集成電路提供了可靠依據(jù)，且為進(jìn)一步研究人工耳蝸系統(tǒng)提供了有效的應(yīng)用平臺。
參考文獻(xiàn)
[1] Luo Xin，F(xiàn)u Qianjie.Speaker normalization for Chinnese vowel recognition in cochlear implant[J].IEEE Transactions on Biomedical Engineering，2005，52(7)：1358-1361.
[2] HU Y，LOIZOU P.Environment specific noise suppression for improved speech intelligibility by cochlear implants users[J].The Journal of the Acoustical Society of America，2010，127(6)：3689-3695.
[3] Zeng Fangang.Trend in cochlear implants[J].Thends in Amplification，2004，8(1)：1-34.
[4] LOIZOU P C.Signal-processing techniques for cochlear implants[J].IEEE EMBS，1999，18(3)：34-36.
[5] SPRIET A，DEUN L V，EFTAXIADIS K，et al.Speech understanding in background noise with the two-microphone adaptive beamformer BEAM in the nucleus freedom cochlear implant system[J].Ear & Hearing，2007，28(1)：62-72.
[6] 高鷹，謝勝利.一種可變步長LMS自適應(yīng)濾波算法及分析[J].電子學(xué)報，2001，29（8）：1094-1097.
[7] PIROMSOPA K，APORNTEWAN C，CHONGSATITVATANA P.An FPGA implementation of a fixed-point square root operation[C].Chiang Mai，Thatlard：ISCIT 2001，2001：587-589.
[8] 王志軍，張春，賈晨.人工耳蝸專用植入刺激芯片設(shè)計[J]. 半導(dǎo)體技術(shù)，2009，34(4)：389-391.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容