摘 要: 提出使用肌電信號的語音識別" title="語音識別">語音識別系統(tǒng),。研究證實從面部肌肉中提取的肌電信號存在語音信息。實驗使用(0~9)十個數(shù)字,,受試者每隔10s重復(fù)單詞,。講話時用電極記錄五個通道表面肌" title="表面肌">表面肌電信號。用短時傅里葉變換" title="短時傅里葉變換">短時傅里葉變換提取信號的特征量,,并通過主成分分析" title="主成分分析">主成分分析降維,,有效地提取特征量進行模式識別。分類錯誤范圍在15%以下,。實驗表明表面肌電信號的語音識別系統(tǒng)有著極好的前景,。
關(guān)鍵詞: EMG信號 語音識別 短時傅里葉變換 模式識別 生物信號處理
肌電圖EMG(electromyography)是研究或檢測肌肉生物電活動,借以判斷神經(jīng)肌肉系統(tǒng)機能及形態(tài)學(xué)變化,,并有助于神經(jīng)肌肉系統(tǒng)的研究或提供臨床診斷的科學(xué),。肌電信號(EMG)發(fā)源于作為中樞神經(jīng)一部分脊髓中的運動神經(jīng)元,是電極所接觸到的許多運動單元發(fā)放的動作電位的總和,,反映了神經(jīng)肌肉的活動,、功能狀態(tài)[1]。表面肌電信號是從人體骨骼肌表面通過電極記錄下來的神經(jīng)肌肉活動發(fā)放的生物電信號,。肌電信號不僅在臨床醫(yī)學(xué),、運動學(xué)等領(lǐng)域被廣泛應(yīng)用,而且研究證實肌肉關(guān)節(jié)內(nèi)的生理肌電信號存在著相應(yīng)的語音信息[2~3],。不同的肌肉運動模式是由不同的肌群收縮產(chǎn)生的,,其所伴隨的表面肌電信號是不同的。而發(fā)音時肌肉對應(yīng)著不同的運動模式,完全有可能從不同的表面肌電信號特征中找到對應(yīng)的肌肉動作模式,。隨著信號處理方法和計算機技術(shù)的發(fā)展,,如何從生理肌電信號中識別出語音信號,已引起越來越多人的關(guān)注,。
以前有些用肌電信號識別語音的研究,,研究目的是使用肌電信號作為輸入來彌補語音信息。肌電語音識別系統(tǒng)與常規(guī)語音識別標準相比,,識別準確度較差,但準確度遠高于隨便猜測的準確度,。這表明在肌肉關(guān)節(jié)內(nèi)的生理肌電信號存在著語音信息,。語音識別中使用肌電信號的優(yōu)點是能夠幫助發(fā)音障礙者交流;且信號不受聲音噪聲干擾,;還有一些字在聲學(xué)上發(fā)音相似,,但說話方式和嘴的位置不同,在表面肌電信號中信號的特征是有區(qū)別的,。這意味著肌電信號能用來區(qū)別聽起來相似的字,。Day[3]研究表明,識別準確度在聽起來相似和不相似的詞匯中保持相同,。使用面部肌電信號的語音識別系統(tǒng)一個應(yīng)用是幫助操作高性能飛機的飛行員,,一旦系統(tǒng)識別出飛行員講的話,能使用信息控制設(shè)備,,如顯示器,、雷達、無線電通信和飛行導(dǎo)航,,但飛行艙內(nèi)是高噪聲的環(huán)境,,聲學(xué)噪聲能掩蓋飛行員的所有口頭講話,嚴重降低了常規(guī)的語音識別系統(tǒng)的準確度和性能,,在飛行艙內(nèi)使用面部肌電信號能提高語音識別性能,。
本文使用表面肌電信號(EMG)的語音信號識別系統(tǒng)改善噪聲條件下的聲音性能或幫助發(fā)音障礙的人。有些人發(fā)音有障礙,,但講話時面部肌肉與正常人有同樣的動作模式,,這樣使用表面肌電信號能幫助這些發(fā)音障礙的人發(fā)出簡單的指令,用來交流,。
1 原理和方法
本研究只使用肌電信號的信息識別孤立的單詞,、(0~9)十個數(shù)字。使用腦電圖儀EEG-1100K(electroencephalograph, EEG)采集肌電信號,,采用雙極導(dǎo)聯(lián)模式,,采樣頻率1000Hz。使用(0~9)十個單詞做試驗。在實驗中,,受試者每10s重復(fù)詞匯表中的單詞,,每個單詞重復(fù)10次。受試者以相似的方式重復(fù)講每個單詞,,保持音量和語速最小變化,。
表面肌電信號從五組面部肌肉中采樣,五路信號如圖1所示,。提肌口(LAI),、顴肌部分(ZYG)、頸闊肌(PLT),、壓板口(DAO),、二腹的前面腹部(ABD)。使用五對表面電極采集肌電信號,,每個電極用電極膏改進電極—皮膚界面,,降低電阻。參考電極放在鼻根部,。圖2是部分數(shù)字(0~3)的五路肌電信號(通道LAI,、ZYG、PLT,、DAO,、ABD)時序圖。
肌電信號分析,,首先對采集的信號進行預(yù)處理,,端點檢測。再使用短時傅里葉變換(STFT)處理數(shù)據(jù),,提取特征量,。通過主成分分析(PCA)減少這些特征集系數(shù)的維度。5個肌電通道每個都保留6個PCA系數(shù),,這樣一共有30個特征量,。使用線性判別分析分類器分類(0~9)十個數(shù)字。表面肌電信號中語音識別系統(tǒng)的構(gòu)成如圖3所示,。
2 特征量提取
肌電信號本質(zhì)上是具有非平穩(wěn)特性的生理電信號,,時頻分析是研究非平穩(wěn)信號的一種有效方法。該方法在時頻面上表述信號的時變特征,,能夠更清晰地反映出信號的頻率特性隨時間的變化,。本研究使用短時傅里葉變換方法對講不同詞的肌電信號進行分析,由于變換后特征向量" title="特征向量">特征向量的維度很高,,為了成功的分類需要采用合適的降維方法,,本文通過主成分分析PCA(Principal Component Analysis)減少這些特征集系數(shù)的維度,。
2.1 短時傅里葉變換
短時傅里葉變換基本原理:把信號劃分成許多小的時間間隔,分析每一個時間間隔,,確定每個間隔存在的頻率,,頻譜的總體表示頻譜在時間上的變化。
信號s(t)短時傅里葉變換定義為:
2.2 主成分分析(PCA)
主成分分析(PCA)是總結(jié)多變量分析屬性的方法,,經(jīng)常用于特征提取或數(shù)據(jù)壓縮上的線性變換,。在統(tǒng)計模式識別方面,主成分分析提供降低維度的有效方式,,有效地減少特征系數(shù)表示的數(shù)量[4],。PCA是把特征映射到特征向量上,保留那些最大的特征值,。
p維隨機向量x的n次采樣值構(gòu)成樣本陣X(n×p),,n個p維列向量zi構(gòu)成矩陣Z,如式(1),。
Z=XT=(z1 z2 … zp) (1)
式中 T=(t1 t2 … tp)為正交陣,其列向量ti為樣本方差矩陣的特征值λi所對應(yīng)的單位特征向量,,且有λ1≥λ2…≥λp,,則z1,z2,,…,,zp分別為樣本陣X的第1主成分,第2主成分,,…,,第p主成分,而且主成分z1表達了x最主要的信息,,z2表達了x次主要的信息,,依次類推,前m個主成分一起表達x的主要特征,。
3 特征分類
對肌電信號中的語音識別來說,,特征提取是基礎(chǔ),有效地進行分類是關(guān)鍵,。本文的模式識別分類采用線性判別分類LDA(linear discriminant analysis),,分類(0~9)十個數(shù)字。
線性判別分析,,亦稱為Fisher線性判別,,是較常用的方法[5]。Fisher準則函數(shù)就是為了發(fā)現(xiàn)使得樣本類間離散度和樣本類內(nèi)離散度的比值最大的投影方向,。即在一投影方向上,,同一個類的樣本聚集在一起,,而不同類的樣本相對比較分散。
樣本類間離散度矩陣定義為:
其中,,μi是Ci類的均值,,μ是所有樣本的均值,Pi是先驗概率,。
樣本類內(nèi)離散度矩陣定義為:
其中, Si=E[(x-μi)(x-μi)Tx∈Ci]投影后希望樣本類間離散度越大越好,,而樣本類內(nèi)離散度越小越好。因此,,如果Sω是非奇異矩陣,,最優(yōu)的投影方向Wopt就是使得樣本類間離散度矩陣和樣本類內(nèi)離散度矩陣的行列式比值最大的那些正交特征向量。因此,,F(xiàn)isher準則函數(shù)定義為:
通過線性代數(shù)理論知,,Wopt就是滿足等式SbWi=λiSwWi(i=1,2,…,m)的解,對應(yīng)于矩陣Sw-1Sb較大的特征值λi的特征向量,。
4 實驗與結(jié)論
在實驗中,,使用腦電圖儀(EEG-1100K),采用五對電極從面部肌肉同時采集五路肌電信號,,受試者每10s講(0~9)十個數(shù)字,,每個數(shù)字重復(fù)講十次。對采集的肌電信號首先預(yù)處理端點檢測,,然后對采集的五路肌電信號分別作短時傅里葉變換,,分析窗選用矩形窗,窗寬為1024點,。提取短時傅里葉變換頻譜圖的結(jié)果矩陣,,做主成分分析降低維度,構(gòu)造特征矢量,,輸入線性判別分析分類器進行識別,。
由于傅氏變換后特征向量的維度很高,為了成功地分類需要降低維度,,通過主成分分析(PCA)減少特征集系數(shù)的維度,。本文將不同數(shù)字的五路肌電信號的短時傅里葉變換的幅度矩陣進一步做主成分分析降維,構(gòu)造相應(yīng)數(shù)字的特征矢量,,x=[o11,…,o16,…,o51,…,o56],。其中o11,…,o16是第一路信號降維后的主成分;o51,…,o56是第五路信號降維后的主成分,。
表1列出了實驗中(0~9)十個數(shù)字降維后ABD通道主成分的部分特征向量,。從表1中的數(shù)據(jù)可以看出由信號傅里葉變換系數(shù)的幅度進行主成分分析,提取的特征量具有很好的分離性,。
本文線性模式分類采用基于fisher準則的線性判別分析分類器,,對特征矢量分別計算類間散度,、類內(nèi)散度,尋求一最優(yōu)投影方向,。圖4表明了(0~9)十個數(shù)字分類后的散點圖,。經(jīng)過分類器的識別,對(0~9)十個數(shù)字的分類錯誤率在15%以下,。
通過實驗可以得到:短時傅里葉變換后再做主成分分析降維提取特征量,,提取的特征穩(wěn)定且易于識別。面部肌肉記錄的表面肌電信號實現(xiàn)語音信號語音識別,,輔助發(fā)音障礙者交流,。研究結(jié)果證明,對10個數(shù)字的詞匯使用肌電信號有較好的分類準確度,。實驗表明用表面肌電信號提高常規(guī)的語音識別系統(tǒng)有著極好的前景,。但是做使用肌電信號實現(xiàn)語音識別系統(tǒng)的可行性結(jié)論前,還需進一步研究,。首先,,必須研究擴展測試條件,如連續(xù)的語音,、更少強調(diào)發(fā)音,、講話速率的最小變化。生理上的變化也可能影響肌電信號,。
參考文獻
1 王新德,湯曉芙,崔麗英等.神經(jīng)病學(xué)(2)——神經(jīng)系統(tǒng)臨床電生理學(xué),人民軍醫(yī)出版社,,2002
2 Morse,M.S., O′Brien, E.M. Research summary of a scheme to ascertain the availability of speech information in the myoelectric signals of neck and head muscles using surface electrodes.Computers in Biology and Medicine,1986;16(6):399~410
3 Day, S.H. (1990): Recognition of speech uti-lizing the myoelectric signals of neck muscles- An advanced study in the time domain, M.Sc.Thesis, Auburn University.
4 司風琪,,洪軍,徐治皋.基于向量投影的數(shù)據(jù) 檢驗PCA方法.中國電機工程學(xué)報,2002;10
5 Richard O. Duda Peter E. Hart David G. stork著,李宏東, 姚天翔譯. 模式分類.北京:機械工業(yè)出版社,,2003