摘 要: 主要研究了基于流形學習ISOP算法的語音特征提取。將流形學習ISOP算法應用到語音識別特征提取模塊中,。仿真實驗結果表明,,該算法與傳統(tǒng)的特征提取算法MFCC、LPCC等相比,可以取得較高的識別率,。
關鍵詞: ISOP算法,;語音識別;流形學習,;特征提取
通過語音傳遞信息是人類最重要,、最有效、最常用且最方便的交換信息的形式,。而信息時代的到來,,使得如何使計算機智能化地與人類進行通信,成為現(xiàn)代計算機科學的重要研究課題之一,。同時,,現(xiàn)實世界中的數(shù)據(jù)往往是高維的,難以被理解,、表示和處理,因此對語音信號中的數(shù)據(jù)進行降維,,找到一組穩(wěn)定的,、能表征其本質(zhì)特性的特征參數(shù)是其的一個重要步驟。
流行學習[1-2](Manifold Learning)方法是近十年才發(fā)展起來的一種非線性降維方法,。流形是拓撲學中的概念,,其表示一個局部處為歐幾里得的拓撲空間,。局部歐幾里得特性意味著對于空間上的任意點都有一個鄰域,,在這個鄰域中的拓撲與Rm空間中的開放單位圓相同(Rm表示m維歐式空間),。也就是說,,流形是一個局部可坐標化的拓撲空間?;诹餍蔚亩x,可以得到流形學習的本質(zhì)是,,當數(shù)據(jù)均勻采樣于一個高維歐式空間中的低維流形時,要從高維采樣數(shù)據(jù)中恢復低維流形的內(nèi)在幾何結構或者內(nèi)在規(guī)律,,并求出相應的嵌入映射,,以實現(xiàn)維數(shù)約減或者數(shù)據(jù)可視化,。這就意味著流形學習比傳統(tǒng)的維數(shù)約減方法更能體現(xiàn)事物的本質(zhì)。20世紀80年代末,,在PAMI上就已經(jīng)有流形模式識別的說法,。2000年《Science》雜志上發(fā)表的3篇論文從認知上討論了流形學習,,并使用了Manifold Learning術語,強調(diào)認知過程的整體性,。幾年來,流形學習領域產(chǎn)生了大量的研究成果,。LLE和ISOMAP[2]是兩種有代表性的非線性降維方法。LLE算法認為,,在局部意義下數(shù)據(jù)結構為線性,,即點在一個超平面上,。任取一點,可以用它的鄰近點的線性組合來表示,。其主要思想是在樣本點和它的鄰域點之間構造一個重構權向量,并在低維空間中保持每個鄰域中的權值不變,,在嵌入映射是局部線性的條件下,最小化重構誤差,。ISOMAP建立在多維尺度變換(MDS)的基礎上,力求保持數(shù)據(jù)點的內(nèi)在幾何性質(zhì),,即保持兩點間的測地距離,。它用流形上的兩點間的測地距離來取代經(jīng)典MDS方法中的歐氏距離,,能夠準確地發(fā)現(xiàn)數(shù)據(jù)流形潛在的參數(shù)空間,是一種全局優(yōu)化算法,。
本文將流形學習的降維方式引入語音識別的特征提取模塊,提出一種新的基于流形學習ISOP算法的語音信號特征提取方式,。在仿真實驗室中,,針對0~9的特定人的語音信號進行流形學習的特征提取并進行識別,,得到了不錯的識別率。
1 流形學習ISOP算法
判別等度規(guī)映射(Isometric Projection)[3]是對ISOMAP算法的線性推廣,,其目的是尋求一個投影矩陣A,,將高維數(shù)據(jù)樣本映射到低維特征空間中,,且在此映射過程中保持樣本數(shù)據(jù)點間的局部結構關系,由此解決了ISOMAP算法在面對新樣本的加入無能為力的窘境,。
流形算法ISOMAP[9]作為一種非線性的全局優(yōu)化學習方法,,在構建測地線距離時有兩個問題:(1)對樣本點的噪聲比較敏感,且不能處理存在多個聚類的數(shù)據(jù)集,;(2)測地線距離矩陣的計算復雜度大,,且距離矩陣為稠密矩陣,本征分解需要的計算復雜度也比較高,,因此在大容量的語音識別中,,并不能取得很好的識別率,。LTSA[10]算法雖然能很好地探測出低維流形的空間結構,,并且不要求原始數(shù)據(jù)是凸分布的,但是該算法所反映的局部結構是它的局部d維坐標系統(tǒng),,由于噪音等因素的影響,,數(shù)據(jù)集的局部低維特征不明顯時,,它的局部鄰域到局部切空間的投影距離往往并不小,,由此構造的重建誤差也不會小,這樣的情況下,,LTSA就無法得到理想的嵌入結果。此外,,LTSA算法對樣本點的密度和曲率變化比較敏感,樣本點的密度及曲率[11]的變化會使得樣本點到流形局部切空間的投影產(chǎn)生偏差,。當樣本量較大時,算法會失效,,并且LTSA算法對新樣本無法進行有效處理,。
表2是在相同的訓練樣本量的背景下,不同的鄰近值對ISOP算法的識別率的影響,,從數(shù)據(jù)分析得出,不同的k對識別率有一定影響,,但并沒有使識別率產(chǎn)生大的偏差。
綜合以上分析,,在實驗室條件下,本文提出的基于流形學習ISOP[12]算法在語音識別的特征提取模塊得到了應用,,并取得了一定成果。
本文提出了一種基于流形學習的語音特征提取方法,,實驗結果表明,在數(shù)字0~9的識別中,,與傳統(tǒng)的特征提取算法相比,該方法取得了較高的識別效果,。由于Isometric Projection是直接在原始數(shù)據(jù)中進行構圖和多維尺度分析,,因此牽涉大量高位矩陣運算而耗費了較多的時間和資源,,為進一步提高性能,下一步將考慮引入主成分分析,,對該算法進行改進。
流形學習[13-14]作為一種新的機器學習,,尤其在人臉識別中已取得一定成就的背景下,在語音識別領域中必將成為一個重要的發(fā)展方向,。
參考文獻
[1] 魯春元.流形學習的統(tǒng)一框架及其在模式識別中的應用[D].廣州:中山大學,,2009.
[2] 李春光.流形學習及其在模式識別中的應用[D].北京:北京郵電大學,,2007.
[3] 邵艷玲,葛玻,,宋書中.基于判別等度規(guī)映射的人臉識別[D].洛陽:河南科技大學,2012.
[4] 王澤杰.兩類非線性降維流形學習算法的比較分析[D].上海:上海工程技術大學,,2008.
[5] 曾憲華,羅四維.全局保持的流形學習算法對比研究[D].重慶:重慶郵電大學,,北京:北京交通大學,2010.
[6] 車士偉,,吾守爾·斯拉木.淺談連續(xù)語音識別中的關鍵技術[D].烏魯木齊:新疆大學,2010.
[7] 蔡蓮紅,,黃德智,蔡銳.現(xiàn)代語音技術基礎與應用[M].北京:清華大學出版社,,2003.
[8] 譚璐.高維數(shù)據(jù)的降維理論及應用[D].長沙:國防科學技術大學,,2005.
[9] He Xiaofe, Yan Shuncheng,, Hu Yuxia,, et al. Face recognition using Laplacianfaces[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,,27(3):328-340.
[10] BREGLER C,, OMOHUNDRO S M. Nonlinear manifold learning for visual speech recognition[C]. International Conference of Computer Vision, 1995:20-23.
[11] SEUNG H S,, LEE D D. The manifold ways of perception[J]. Science, 2000,, 290(5500): 2268-2269.
[12] AGRAFIOTIS D K, XU H. A self-recognizing principle for learning nonlinear manifolds[C]. Proceedings of Natl. Acad. Sci.,, 1999:15869-15872.
[13] TENENBAUM J B, SILVA V,, LANGFORD J C. A global geometric framework for nonlinear imensionality reductiaon[J]. Science,,2000,290(5500):2319-2323.
[14] He Xiaofe,, NIYOGI P. Locality Preserving Projections[C]. Proceedings of 16th Conference on Neural Information Processing Systems,2003.