朱紫陽(yáng),,賀松,,彭亞雄
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,,貴州 貴陽(yáng) 550025)
摘要:如今,,說(shuō)話人識(shí)別技術(shù)已經(jīng)比較成熟,但依然有很多因素影響說(shuō)話人識(shí)別系統(tǒng)的穩(wěn)定性,。本文針對(duì)說(shuō)話速度對(duì)說(shuō)話人識(shí)別的影響進(jìn)行了一系列的研究工作,。通過(guò)模型空間分布可視化和語(yǔ)音頻譜觀察兩方面來(lái)分析不同語(yǔ)速語(yǔ)音的差距。然后,,提出了最大似然線性回歸(MLLR)和Constraint MLLR(CMLLR)的方法對(duì)模型和特征進(jìn)行變換,,使訓(xùn)練端和測(cè)試端的語(yǔ)音特征互相接近匹配,。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),MLLR和CMLLR能較好地提高說(shuō)話人識(shí)別系統(tǒng)中語(yǔ)速魯棒性,。
關(guān)鍵詞:說(shuō)話人識(shí)別,;語(yǔ)速魯棒;模型空間分布可視化,;MLLR,;CMLLR
1不同語(yǔ)速對(duì)系統(tǒng)識(shí)別率的影響分析
訓(xùn)練集和測(cè)試集的語(yǔ)音語(yǔ)速不同是否會(huì)對(duì)說(shuō)話人識(shí)別系統(tǒng)魯棒性造成影響,造成的影響大不大,,本節(jié)將分別從模型特征和語(yǔ)音頻譜方面對(duì)不同語(yǔ)速進(jìn)行分析,。這里把語(yǔ)速分為普通語(yǔ)速、快語(yǔ)速和慢語(yǔ)速三種,。
1.1語(yǔ)音特征分布具象化
說(shuō)話人識(shí)別[1]是生物模式識(shí)別[2]的一種,,是根據(jù)語(yǔ)音特征進(jìn)行識(shí)別的方法。語(yǔ)音特征是按幀提取的,,這些特征在音素空間上的分布就表征了一個(gè)人的語(yǔ)音信息,。所以,通過(guò)音素空間的不同分布,,可以描述人在語(yǔ)音上的不同,。GMM-UBM模型[3]是用很多高斯混合來(lái)擬合特征的分布,每一個(gè)混合表示了一個(gè)特征聚類分布,,而且這個(gè)混合的均值μ就表示特征分布的中心,。因此,不同語(yǔ)速在特征上的區(qū)別對(duì)說(shuō)話人區(qū)分造成的影響就可以用模型均值向量在空間上的偏移來(lái)表達(dá),。
在GMMUBM系統(tǒng)中,,三種語(yǔ)速都取同一個(gè)高斯混合(這里都取第二個(gè)混合),用tsne非線性降維方法[4]將提取的混合的均值向量從高維降到二維平面,,可以說(shuō)是把模型對(duì)特征的描述能力壓縮,,然后用python的畫(huà)圖模塊使語(yǔ)音特征分布具象化,如圖1所示,。
在圖1中,,兩張子圖分別表示了快語(yǔ)速和慢語(yǔ)速相對(duì)普通語(yǔ)速的偏移。同一個(gè)人的不同語(yǔ)速模型由一根線條進(jìn)行連接,,這根線條的長(zhǎng)短就表示了模型偏移的距離,。從圖中可以看出,快,、慢語(yǔ)速相對(duì)普通語(yǔ)速有著明顯的偏移,。當(dāng)然每個(gè)人偏移的距離各不相同,這是因?yàn)椴煌娜似湔Z(yǔ)速的快慢程度也不同??偟膩?lái)說(shuō),,從圖中可以看出,語(yǔ)速對(duì)說(shuō)話人識(shí)別系統(tǒng)有著很大的影響,,這從后面實(shí)驗(yàn)的baseline可以看出,。
1.2語(yǔ)音頻譜圖
上面的內(nèi)容總體分析了不同語(yǔ)速下模型的偏移,很直觀地描述了語(yǔ)速對(duì)系統(tǒng)的影響,。本節(jié)針對(duì)語(yǔ)音信號(hào)層面進(jìn)行觀察和分析,,尋找不同語(yǔ)速下語(yǔ)音信號(hào)發(fā)生的變化并總結(jié)規(guī)律。
選擇同一個(gè)人在不同語(yǔ)速下的同一個(gè)數(shù)字語(yǔ)音片段,,將這三段語(yǔ)音用praat[5]進(jìn)行頻譜繪制,,結(jié)果如圖2所示。
從圖2可以看出3個(gè)頻譜具有明顯的區(qū)別:
?。?)圖中底部的橫線代表基頻(pitch),最右側(cè)中間數(shù)字則是計(jì)算出來(lái)的平均基頻,。可以看出快語(yǔ)速的平均基頻要大于普通語(yǔ)速,,而慢語(yǔ)速的平均基頻則小于普通語(yǔ)速,。并且慢語(yǔ)速的基頻在句尾有明顯的下降趨勢(shì)。
?。?)圖中分布點(diǎn)表示共振峰,,可以看出相較于慢語(yǔ)速,普通語(yǔ)速和快語(yǔ)速的共振峰結(jié)構(gòu)更加有規(guī)律,,慢語(yǔ)速的共振峰結(jié)構(gòu)相對(duì)比較混亂。
?。?)慢語(yǔ)速的能量分布在低頻部分非常密集且在高頻部分也有明顯的能量分布,。普通語(yǔ)速與快語(yǔ)速的能量基本都分布在低頻部分,并且普通語(yǔ)速在低頻段的能量分布相對(duì)于快語(yǔ)速要更加明顯一些,。
這些差異性在其他的語(yǔ)速語(yǔ)音中也存在,,所以此處假設(shè)語(yǔ)速對(duì)語(yǔ)音頻譜的影響是有一定的共同特點(diǎn)的。本文把3種不同的語(yǔ)速特征當(dāng)做3個(gè)獨(dú)立的子空間來(lái)描述,。
從頻譜圖中的區(qū)別可以看出,,語(yǔ)速對(duì)語(yǔ)音頻譜帶來(lái)了明顯變化,可以認(rèn)為快語(yǔ)速和慢語(yǔ)速攜帶了清晰的語(yǔ)速區(qū)分性信息,,這些信息會(huì)混淆說(shuō)話人的區(qū)分性信息,。用普通語(yǔ)速訓(xùn)練的模型覆蓋不了這些語(yǔ)速區(qū)分性信息,當(dāng)測(cè)試語(yǔ)音中含有語(yǔ)速區(qū)分性信息時(shí),,必然造成匹配性變差,,從而影響系統(tǒng)的識(shí)別性能。
2語(yǔ)速的特征和模型轉(zhuǎn)換
2.1語(yǔ)速的區(qū)分性信息
從上節(jié)得出一個(gè)假設(shè),語(yǔ)速特征是一個(gè)獨(dú)立的子空間,,并且和普通語(yǔ)速空間存在一定的對(duì)應(yīng)關(guān)系,。那么語(yǔ)速區(qū)分性信息實(shí)質(zhì)上是兩個(gè)不同子空間的偏移。因此,,可以通過(guò)一組語(yǔ)速依賴的線性變換來(lái)進(jìn)行兩個(gè)特征空間的相互投影,,以此來(lái)學(xué)習(xí)這種語(yǔ)速區(qū)分性信息。一般來(lái)說(shuō)有兩種方案進(jìn)行映射,。
?。?)把普通語(yǔ)速訓(xùn)練的模型投影到兩種語(yǔ)速空間,讓其攜帶語(yǔ)速的區(qū)分性信息,,提高模型對(duì)語(yǔ)速的表達(dá)能力,。對(duì)于模型M(s,r)來(lái)說(shuō),,其中s表示說(shuō)話人,,r表示語(yǔ)速,在訓(xùn)練模型M(s,,r)時(shí),,提出一種語(yǔ)速依賴的轉(zhuǎn)變方法,其定義如下:
M(s,,r)=Lr(M(s))
其中,,Lr是通過(guò)分離出的開(kāi)發(fā)集的語(yǔ)速數(shù)據(jù)訓(xùn)練出來(lái)的,所以與參加測(cè)試的說(shuō)話人沒(méi)有關(guān)系,。
?。?)把攜帶語(yǔ)速區(qū)分性信息的測(cè)試語(yǔ)音特征經(jīng)過(guò)映射后,變換到普通語(yǔ)速(中性)的空間,削弱這些特征中的語(yǔ)速區(qū)分性信息,,相對(duì)地增強(qiáng)對(duì)說(shuō)話人的區(qū)分性信息的描述能力,。對(duì)于特征Xt(s,r)來(lái)說(shuō),t是特征的序號(hào),。訓(xùn)練一個(gè)語(yǔ)速無(wú)關(guān)的變換,,定義如下:
Xt(s,r)=Lf(Xt(S))
其中Lf和Lr一樣是一個(gè)與說(shuō)話人無(wú)關(guān)的線性變換,且它們擁有同樣的訓(xùn)練過(guò)程,。本文選用MLLR方法實(shí)現(xiàn)語(yǔ)速特征空間的相互轉(zhuǎn)化,,用一種簡(jiǎn)單的線性模型來(lái)模擬語(yǔ)音中對(duì)語(yǔ)速區(qū)分性信息的分離及添加過(guò)程。
2.2線性語(yǔ)速空間變換
MLLR[67]最早由劍橋語(yǔ)音小組提出,,用來(lái)解決信道不匹配下的語(yǔ)音識(shí)別,。這個(gè)方法可以用比較少的訓(xùn)練數(shù)據(jù)學(xué)習(xí)出兩組數(shù)據(jù)之間共性特征的不同之處。通過(guò)MLLR可以減小兩組數(shù)據(jù)因共性特征不同所致的數(shù)據(jù)分布偏移,。
在對(duì)模型進(jìn)行變換時(shí),,用MLLR計(jì)算一組語(yǔ)速依賴的線性變換Lr,然后把普通語(yǔ)速的GMMUBM說(shuō)話人模型變換到語(yǔ)速依賴的模型M(s,r)上,。這樣模型就可以引入語(yǔ)速的區(qū)分性信息,,最終減小訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音由于語(yǔ)速差距帶來(lái)的不匹配。在GMMUBM模型中,,最能體現(xiàn)說(shuō)話人區(qū)分性的是各種混合中的均值向量,,所以在對(duì)模型變換時(shí)只研究均值向量的變化,認(rèn)為協(xié)方差矩陣不變,。根據(jù)MLLR方法,,可以得到:
μr=L[μTr1]T=Lξr(1)
其中,μr是指第r個(gè)高斯分量的均值向量,,ξr是與μr相對(duì)應(yīng)的擴(kuò)展的均值向量,。L是涉及偏移的三角矩陣,代表了語(yǔ)速的變換,。然后用最大似然方法來(lái)優(yōu)化L得到最終的偏移矩陣,。
上面的方法中,只對(duì)模型的均值向量進(jìn)行了更新,,然而這并不全面,,此處還要加上一定的約束條件,即實(shí)現(xiàn)模型均值和方差的同步更新,,這就是Constraint MLLR(CMLLR)[8]方法,。CMLLR方法認(rèn)為說(shuō)話人模型的均值和方差是用同樣的變換矩陣進(jìn)行變換的,這樣的變換就等價(jià)于在特征空間對(duì)特征進(jìn)行變換,。本文就是把帶有語(yǔ)速區(qū)分性信息的特征投影到普通語(yǔ)速空間,,以削弱特征中語(yǔ)速的信息。
2.3語(yǔ)速空間的投影矩陣訓(xùn)練
對(duì)模型進(jìn)行變換的MLLR和對(duì)特征進(jìn)行變換的CMLLR具有同樣的訓(xùn)練過(guò)程,,差別在于使用時(shí),,前一個(gè)用于變換訓(xùn)練端的普通語(yǔ)速模型,后一個(gè)用于變換測(cè)試端的語(yǔ)速特征,。訓(xùn)練過(guò)程如圖3所示,。
先從語(yǔ)音數(shù)據(jù)中提取出一部分語(yǔ)音作為開(kāi)發(fā)集,,用來(lái)訓(xùn)練出語(yǔ)速空間投影矩陣的參數(shù),。開(kāi)發(fā)集中的這些數(shù)據(jù)不參與最后的測(cè)試,并且把快慢兩種語(yǔ)速分開(kāi)進(jìn)行訓(xùn)練,,最后得到兩個(gè)變換矩陣,。開(kāi)發(fā)集中的普通語(yǔ)速語(yǔ)音為每個(gè)說(shuō)話人訓(xùn)練一個(gè)對(duì)應(yīng)的模型,對(duì)于快慢兩種語(yǔ)速,,基于得到的普通語(yǔ)速說(shuō)話人模型,,采用快慢語(yǔ)速特征來(lái)訓(xùn)練兩個(gè)對(duì)應(yīng)的線性變換矩陣。
在測(cè)試集上進(jìn)行識(shí)別的過(guò)程中,一種是基于MLLR的模型投影方法,,用訓(xùn)練得到的變換矩陣將普通語(yǔ)速說(shuō)話人模型和UBM模型投影到對(duì)應(yīng)的語(yǔ)速空間上,,使其帶上語(yǔ)速區(qū)分性信息,然后對(duì)帶語(yǔ)速區(qū)分性信息的測(cè)試語(yǔ)音進(jìn)行識(shí)別,。另一種是基于CMLLR的特征變換,,把帶語(yǔ)速區(qū)分性信息的測(cè)試語(yǔ)音通過(guò)變換矩陣投影到普通語(yǔ)速空間,然后在普通語(yǔ)速的模型上進(jìn)行識(shí)別,。兩種不同方案如圖4所示,。
3實(shí)驗(yàn)
實(shí)驗(yàn)數(shù)據(jù)選用已經(jīng)錄制好的語(yǔ)速數(shù)據(jù)庫(kù),共30人,,其中男女各15人,,包含了3種語(yǔ)速,每種語(yǔ)速22句話,,12句用來(lái)訓(xùn)練說(shuō)話人模型,,10句用來(lái)測(cè)試識(shí)別。說(shuō)話人識(shí)別系統(tǒng)基于經(jīng)典的GMMUBM模型設(shè)計(jì),。特征為13維MFCC特征加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)共39維,。同時(shí)用倒譜均值和方差歸一化方法來(lái)減少信道、背景噪音等造成的影響,。
作為baseline,,說(shuō)話人以不同語(yǔ)速的語(yǔ)音直接在普通語(yǔ)速GMMUBM模型上進(jìn)行測(cè)試。由于要選出10人做開(kāi)發(fā)集訓(xùn)練線性變換矩陣,,所以選取20個(gè)說(shuō)話人進(jìn)行全交叉測(cè)試,,經(jīng)過(guò)識(shí)別打分后,用EER來(lái)衡量系統(tǒng)的性能,。
為了測(cè)試MLLR和CMLLR方法,,用10人訓(xùn)練變換矩陣。然后用變換矩陣對(duì)剩余20人的語(yǔ)音特征或模型進(jìn)行變換,,最后用變換后的模型或特征進(jìn)行識(shí)別打分,。
Baseline和MLLR/CMLLR方法的實(shí)驗(yàn)結(jié)果如表1。
實(shí)驗(yàn)結(jié)果驗(yàn)證了語(yǔ)速特征可以當(dāng)成一個(gè)獨(dú)立子空間的假設(shè),,因此可以用線性模型去學(xué)習(xí)這種語(yǔ)速空間之間的偏移,。從表1可以看出,快語(yǔ)速在MLLR方法上EER相對(duì)baseline下降了0.1%,,在CMLLR方法上EER相對(duì)baseline下降了0.19%,。慢語(yǔ)速在MLLR方法上EER相對(duì)下降了0.13%,在CMLLR方法上EER相對(duì)下降了0.21%,??梢?jiàn)這種模型和特征的線性變換起到了比較大的作用,。而且,CMLLR對(duì)系統(tǒng)性能的提高比MLLR更明顯,。這是由于MLLR在引入語(yǔ)速區(qū)分性信息時(shí)也在一定程度上降低了說(shuō)話人的區(qū)分性能力,。
4結(jié)束語(yǔ)
本文通過(guò)MLLR和CMLLR對(duì)語(yǔ)速特征及模型進(jìn)行了線性變換,然后用變換所得的模型及特征進(jìn)行識(shí)別打分,,目的在于解決說(shuō)話人識(shí)別中語(yǔ)速魯棒性問(wèn)題,。從實(shí)驗(yàn)結(jié)果看出,MLLR/CMLLR對(duì)系統(tǒng)的魯棒性有很好的提高,。但是,,當(dāng)有語(yǔ)速語(yǔ)音預(yù)留時(shí),訓(xùn)練模型的階段并沒(méi)有充分利用這些語(yǔ)速語(yǔ)音,。因此,,后面研究可以把語(yǔ)速語(yǔ)音經(jīng)過(guò)投影矩陣變換后再和普通語(yǔ)速語(yǔ)音結(jié)合,以訓(xùn)練出更具表述能力的模型,。
參考文獻(xiàn)
?。?] 吳朝暉,楊瑩春. 說(shuō)話人識(shí)別模型與方法[M] . 北京:清華大學(xué)出版社,,2009.
?。?] 王雨晴,謝曉堯.基于生物模式識(shí)別的網(wǎng)絡(luò)身份認(rèn)證研究[J] .微型機(jī)與應(yīng)用,,2014,,33(18):4244.
[3] 熊振宇.大規(guī)模,、開(kāi)集,、文本無(wú)關(guān)說(shuō)話人辨認(rèn)研究[D] . 北京:清華大學(xué),2005.
?。?] MAATEN L V D,,HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research , 2008(9): 25792605.
[5] 葉志騰.應(yīng)用Praat軟件分析成人嗓音聲學(xué)參數(shù)[D] . 福州:福建醫(yī)科大學(xué),,2009.
?。?] LEGGETTER C J,WOODLANG P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J]. Computer Speech & Language,, 1995(9): 171185.
?。?] STOLCKE A,KAJAREKAR S S,,F(xiàn)ERRER L,,et al. Speaker recognition with session variability normaliization based on MLLR adaptation transforms[J]. Audio, Speech, and Language Processing, IEEE Transactions on. 2007, 15(7): 19871998.
?。?] 別凡虎.說(shuō)話人識(shí)別中區(qū)分性問(wèn)題的研究[D]. 北京:清華大學(xué),,2015.