基于流形學(xué)習(xí)ISOP算法的語(yǔ)音特征提取及應(yīng)用研究-AET-電子技術(shù)應(yīng)用

基于流形學(xué)習(xí)ISOP算法的語(yǔ)音特征提取及應(yīng)用研究

來(lái)源：微型機(jī)與應(yīng)用2014年第1期

趙媛媛，王力

（貴州大學(xué) 計(jì)算機(jī)科學(xué)與信息學(xué)院，貴州貴陽(yáng) 550025）

摘要： 主要研究了基于流形學(xué)習(xí)ISOP算法的語(yǔ)音特征提取。將流形學(xué)習(xí)ISOP算法應(yīng)用到語(yǔ)音識(shí)別特征提取模塊中。仿真實(shí)驗(yàn)結(jié)果表明，該算法與傳統(tǒng)的特征提取算法MFCC、LPCC等相比，可以取得較高的識(shí)別率。

關(guān)鍵詞： 軟件 ISOP算法語(yǔ)音識(shí)別流形學(xué)習(xí) 特征提取

Abstract：

Key words :

　通過(guò)語(yǔ)音傳遞信息是人類最重要、最有效、最常用且最方便的交換信息的形式。而信息時(shí)代的到來(lái)，使得如何使計(jì)算機(jī)智能化地與人類進(jìn)行通信，成為現(xiàn)代計(jì)算機(jī)科學(xué)的重要研究課題之一。同時(shí)，現(xiàn)實(shí)世界中的數(shù)據(jù)往往是高維的，難以被理解、表示和處理，因此對(duì)語(yǔ)音信號(hào)中的數(shù)據(jù)進(jìn)行降維，找到一組穩(wěn)定的、能表征其本質(zhì)特性的特征參數(shù)是其的一個(gè)重要步驟。
　流行學(xué)習(xí)[1-2]（Manifold Learning）方法是近十年才發(fā)展起來(lái)的一種非線性降維方法。流形是拓?fù)鋵W(xué)中的概念，其表示一個(gè)局部處為歐幾里得的拓?fù)淇臻g。局部歐幾里得特性意味著對(duì)于空間上的任意點(diǎn)都有一個(gè)鄰域，在這個(gè)鄰域中的拓?fù)渑cRm空間中的開放單位圓相同（Rm表示m維歐式空間）。也就是說(shuō)，流形是一個(gè)局部可坐標(biāo)化的拓?fù)淇臻g。基于流形的定義，可以得到流形學(xué)習(xí)的本質(zhì)是，當(dāng)數(shù)據(jù)均勻采樣于一個(gè)高維歐式空間中的低維流形時(shí)，要從高維采樣數(shù)據(jù)中恢復(fù)低維流形的內(nèi)在幾何結(jié)構(gòu)或者內(nèi)在規(guī)律，并求出相應(yīng)的嵌入映射，以實(shí)現(xiàn)維數(shù)約減或者數(shù)據(jù)可視化。這就意味著流形學(xué)習(xí)比傳統(tǒng)的維數(shù)約減方法更能體現(xiàn)事物的本質(zhì)。20世紀(jì)80年代末，在PAMI上就已經(jīng)有流形模式識(shí)別的說(shuō)法。2000年《Science》雜志上發(fā)表的3篇論文從認(rèn)知上討論了流形學(xué)習(xí)，并使用了Manifold Learning術(shù)語(yǔ)，強(qiáng)調(diào)認(rèn)知過(guò)程的整體性。幾年來(lái)，流形學(xué)習(xí)領(lǐng)域產(chǎn)生了大量的研究成果。LLE和ISOMAP[2]是兩種有代表性的非線性降維方法。LLE算法認(rèn)為，在局部意義下數(shù)據(jù)結(jié)構(gòu)為線性，即點(diǎn)在一個(gè)超平面上。任取一點(diǎn)，可以用它的鄰近點(diǎn)的線性組合來(lái)表示。其主要思想是在樣本點(diǎn)和它的鄰域點(diǎn)之間構(gòu)造一個(gè)重構(gòu)權(quán)向量，并在低維空間中保持每個(gè)鄰域中的權(quán)值不變，在嵌入映射是局部線性的條件下，最小化重構(gòu)誤差。ISOMAP建立在多維尺度變換（MDS）的基礎(chǔ)上，力求保持?jǐn)?shù)據(jù)點(diǎn)的內(nèi)在幾何性質(zhì)，即保持兩點(diǎn)間的測(cè)地距離。它用流形上的兩點(diǎn)間的測(cè)地距離來(lái)取代經(jīng)典MDS方法中的歐氏距離，能夠準(zhǔn)確地發(fā)現(xiàn)數(shù)據(jù)流形潛在的參數(shù)空間，是一種全局優(yōu)化算法。
本文將流形學(xué)習(xí)的降維方式引入語(yǔ)音識(shí)別的特征提取模塊，提出一種新的基于流形學(xué)習(xí)ISOP算法的語(yǔ)音信號(hào)特征提取方式。在仿真實(shí)驗(yàn)室中，針對(duì)0~9的特定人的語(yǔ)音信號(hào)進(jìn)行流形學(xué)習(xí)的特征提取并進(jìn)行識(shí)別，得到了不錯(cuò)的識(shí)別率。
1 流形學(xué)習(xí)ISOP算法
　判別等度規(guī)映射（Isometric Projection）[3]是對(duì)ISOMAP算法的線性推廣，其目的是尋求一個(gè)投影矩陣A，將高維數(shù)據(jù)樣本映射到低維特征空間中，且在此映射過(guò)程中保持樣本數(shù)據(jù)點(diǎn)間的局部結(jié)構(gòu)關(guān)系，由此解決了ISOMAP算法在面對(duì)新樣本的加入無(wú)能為力的窘境。
　

　流形算法ISOMAP[9]作為一種非線性的全局優(yōu)化學(xué)習(xí)方法，在構(gòu)建測(cè)地線距離時(shí)有兩個(gè)問(wèn)題：（1）對(duì)樣本點(diǎn)的噪聲比較敏感，且不能處理存在多個(gè)聚類的數(shù)據(jù)集；（2）測(cè)地線距離矩陣的計(jì)算復(fù)雜度大，且距離矩陣為稠密矩陣，本征分解需要的計(jì)算復(fù)雜度也比較高，因此在大容量的語(yǔ)音識(shí)別中，并不能取得很好的識(shí)別率。LTSA[10]算法雖然能很好地探測(cè)出低維流形的空間結(jié)構(gòu)，并且不要求原始數(shù)據(jù)是凸分布的，但是該算法所反映的局部結(jié)構(gòu)是它的局部d維坐標(biāo)系統(tǒng)，由于噪音等因素的影響，數(shù)據(jù)集的局部低維特征不明顯時(shí)，它的局部鄰域到局部切空間的投影距離往往并不小，由此構(gòu)造的重建誤差也不會(huì)小，這樣的情況下，LTSA就無(wú)法得到理想的嵌入結(jié)果。此外，LTSA算法對(duì)樣本點(diǎn)的密度和曲率變化比較敏感，樣本點(diǎn)的密度及曲率[11]的變化會(huì)使得樣本點(diǎn)到流形局部切空間的投影產(chǎn)生偏差。當(dāng)樣本量較大時(shí)，算法會(huì)失效，并且LTSA算法對(duì)新樣本無(wú)法進(jìn)行有效處理。
　表2是在相同的訓(xùn)練樣本量的背景下，不同的鄰近值對(duì)ISOP算法的識(shí)別率的影響，從數(shù)據(jù)分析得出，不同的k對(duì)識(shí)別率有一定影響，但并沒有使識(shí)別率產(chǎn)生大的偏差。

　綜合以上分析，在實(shí)驗(yàn)室條件下，本文提出的基于流形學(xué)習(xí)ISOP[12]算法在語(yǔ)音識(shí)別的特征提取模塊得到了應(yīng)用，并取得了一定成果。
　本文提出了一種基于流形學(xué)習(xí)的語(yǔ)音特征提取方法，實(shí)驗(yàn)結(jié)果表明，在數(shù)字0～9的識(shí)別中，與傳統(tǒng)的特征提取算法相比，該方法取得了較高的識(shí)別效果。由于Isometric Projection是直接在原始數(shù)據(jù)中進(jìn)行構(gòu)圖和多維尺度分析，因此牽涉大量高位矩陣運(yùn)算而耗費(fèi)了較多的時(shí)間和資源，為進(jìn)一步提高性能，下一步將考慮引入主成分分析，對(duì)該算法進(jìn)行改進(jìn)。
　流形學(xué)習(xí)[13-14]作為一種新的機(jī)器學(xué)習(xí)，尤其在人臉識(shí)別中已取得一定成就的背景下，在語(yǔ)音識(shí)別領(lǐng)域中必將成為一個(gè)重要的發(fā)展方向。
參考文獻(xiàn)
[1] 魯春元.流形學(xué)習(xí)的統(tǒng)一框架及其在模式識(shí)別中的應(yīng)用[D].廣州：中山大學(xué)，2009.
[2] 李春光.流形學(xué)習(xí)及其在模式識(shí)別中的應(yīng)用[D].北京：北京郵電大學(xué)，2007.
[3] 邵艷玲，葛玻，宋書中.基于判別等度規(guī)映射的人臉識(shí)別[D].洛陽(yáng)：河南科技大學(xué)，2012.
[4] 王澤杰.兩類非線性降維流形學(xué)習(xí)算法的比較分析[D].上海：上海工程技術(shù)大學(xué)，2008.
[5] 曾憲華，羅四維.全局保持的流形學(xué)習(xí)算法對(duì)比研究[D].重慶：重慶郵電大學(xué)，北京：北京交通大學(xué)，2010.
[6] 車士偉，吾守爾·斯拉木.淺談連續(xù)語(yǔ)音識(shí)別中的關(guān)鍵技術(shù)[D].烏魯木齊：新疆大學(xué)，2010.
[7] 蔡蓮紅，黃德智，蔡銳.現(xiàn)代語(yǔ)音技術(shù)基礎(chǔ)與應(yīng)用[M].北京：清華大學(xué)出版社，2003.
[8] 譚璐.高維數(shù)據(jù)的降維理論及應(yīng)用[D].長(zhǎng)沙：國(guó)防科學(xué)技術(shù)大學(xué)，2005.
[9] He Xiaofe， Yan Shuncheng， Hu Yuxia， et al. Face recognition using Laplacianfaces[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2005，27（3）：328-340.
[10] BREGLER C， OMOHUNDRO S M. Nonlinear manifold learning for visual speech recognition[C]. International Conference of Computer Vision， 1995：20-23.
[11] SEUNG H S， LEE D D. The manifold ways of perception[J]. Science， 2000， 290（5500）： 2268-2269.
[12] AGRAFIOTIS D K， XU H. A self-recognizing principle for learning nonlinear manifolds[C]. Proceedings of Natl. Acad. Sci.， 1999：15869-15872.
[13] TENENBAUM J B， SILVA V， LANGFORD J C. A global geometric framework for nonlinear imensionality reductiaon[J]. Science，2000，290（5500）：2319-2323.
[14] He Xiaofe， NIYOGI P. Locality Preserving Projections[C]. Proceedings of 16th Conference on Neural Information Processing Systems，2003.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容