《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于神經(jīng)網(wǎng)絡(luò)的智能語音識(shí)別研究
基于神經(jīng)網(wǎng)絡(luò)的智能語音識(shí)別研究
2016年微型機(jī)與應(yīng)用第17期
楊景花1,,王雙喜1,,周思方2,3
1.商丘學(xué)院 計(jì)算機(jī)工程學(xué)院,河南 商丘 476000,;2. 商丘師范學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院,,河南 商丘 476000; 3.商丘職業(yè)技術(shù)學(xué)院,,河南 商丘 476000
摘要: 語音識(shí)別或語言轉(zhuǎn)化成文本的過程包括捕獲聲波,,數(shù)字化聲波,轉(zhuǎn)換成基本的語言單位或者音素,,根據(jù)音位和語境構(gòu)建詞語,,分析詞語,保證拼寫正確,,并且保證與聽到的詞語保持一致,。該文把人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識(shí)別系統(tǒng)中,通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型,,最后模型快速給出與輸入相匹配的輸出,。文中涉及到的神經(jīng)網(wǎng)絡(luò)模型主要用來進(jìn)行語音識(shí)別。
Abstract:
Key words :

  楊景花1,,王雙喜1,,周思方2,3

  (1.商丘學(xué)院 計(jì)算機(jī)工程學(xué)院,,河南 商丘 476000,;2. 商丘師范學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院,河南 商丘 476000,;3.商丘職業(yè)技術(shù)學(xué)院,,河南 商丘 476000)

       摘要:語音識(shí)別或語言轉(zhuǎn)化成文本的過程包括捕獲聲波,數(shù)字化聲波,,轉(zhuǎn)換成基本的語言單位或者音素,,根據(jù)音位和語境構(gòu)建詞語,分析詞語,,保證拼寫正確,,并且保證與聽到的詞語保持一致。該文把人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識(shí)別系統(tǒng)中,,通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型,,最后模型快速給出與輸入相匹配的輸出。文中涉及到的神經(jīng)網(wǎng)絡(luò)模型主要用來進(jìn)行語音識(shí)別。

  關(guān)鍵詞:語音識(shí)別,;神經(jīng)網(wǎng)絡(luò),;人工智能;信號(hào)處理

0引言

  人工智能的應(yīng)用在最近幾年迅速發(fā)展,,特別是神經(jīng)網(wǎng)絡(luò)的應(yīng)用,,神經(jīng)網(wǎng)絡(luò)系統(tǒng)是解決許多突出問題的一個(gè)工具,如模式識(shí)別和模式分類,。1943年,神經(jīng)生物學(xué)家MCCULLOCH W S和青年數(shù)學(xué)家PITTS W合作,,提出了第一個(gè)人工神經(jīng)元模型,并抽象出神經(jīng)元的數(shù)理模型,,開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)的研究[1],。Hopfield模型是于1982年提出的,它是神經(jīng)網(wǎng)絡(luò)存儲(chǔ)和提取信息進(jìn)行非線性數(shù)學(xué)運(yùn)算的概括,,使人工神經(jīng)網(wǎng)絡(luò)的構(gòu)造和學(xué)習(xí)有了理論指導(dǎo)[2],。隨后又有脈沖耦合神經(jīng)網(wǎng)絡(luò)等模型不斷被提出[35]。經(jīng)過多年的發(fā)展,,更多經(jīng)過優(yōu)化,、性能更強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型被提出。

  語音識(shí)別的研究工作開始于Bell實(shí)驗(yàn)室開發(fā)的第一個(gè)可識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng),。20世紀(jì)60年代,,計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的發(fā)展。出現(xiàn)了動(dòng)態(tài)規(guī)劃和線性預(yù)測(cè)分析技術(shù),,較好地解決了語音信號(hào)產(chǎn)生模型的問題,。隱馬爾可夫(HMM)模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識(shí)別中的應(yīng)用加快了語音識(shí)別模型的發(fā)展,隨后又有許多的模型出現(xiàn)[69],。隨著多媒體時(shí)代的來臨,,迫切要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱谩N覈?guó)語音識(shí)別研究工作起步較晚,,但近年來發(fā)展也很快,,尤其實(shí)驗(yàn)室系統(tǒng)到市場(chǎng)化商品的發(fā)展[10 12]。

1模式識(shí)別

  自動(dòng)識(shí)別,、分類和分組模式作為重要的參數(shù)廣泛應(yīng)用于各種工程和科學(xué)學(xué)科,,如生物學(xué),、心理學(xué),、醫(yī)學(xué)、市場(chǎng)營(yíng)銷,、計(jì)算機(jī)視覺,、人工智能、遙感等。模式可以是指紋圖像,、手寫草書,、人臉或語音信號(hào)。從處理問題的性質(zhì)和解決問題的方法等角度,,模式識(shí)別可分為:

 ?。?)有監(jiān)督的分類,辨別分析,、實(shí)驗(yàn)樣本所屬的類別是預(yù)先已知的,;

  (2)無監(jiān)督的分類,,實(shí)驗(yàn)樣本所屬的類別是預(yù)先未知的,。

  文中的模式識(shí)別問題是如何分類或者說是分類問題,其中類的定義是系統(tǒng)設(shè)計(jì)者設(shè)計(jì)的約束分類或者是無監(jiān)督分類下相似模型的學(xué)習(xí),。

  模式識(shí)別的應(yīng)用包括特定數(shù)據(jù)的挖掘等,。例如,數(shù)以百萬計(jì)的相關(guān)或獨(dú)立的多維模型中,,文檔分類能有效搜索文本文檔,、金融預(yù)測(cè)、多媒體數(shù)據(jù)庫(kù)和生物特征的組織與檢索,。由于大型數(shù)據(jù)庫(kù)對(duì)速度,、精度和成本要求很嚴(yán)格,所以自動(dòng)模式識(shí)別的需求正在迅速增長(zhǎng),。

圖像 001.png

  識(shí)別系統(tǒng)模式的設(shè)計(jì)基本上包括以下三個(gè)方面:(1)收集,、預(yù)處理和數(shù)據(jù)報(bào)告;(2)決策過程,;(3)問題規(guī)模決定了預(yù)處理技術(shù)的選擇,。

  從一組例子中學(xué)習(xí)是大多數(shù)識(shí)別系統(tǒng)的一個(gè)重要性質(zhì)。人們?cè)谟^察事物或現(xiàn)象時(shí),,通常會(huì)尋找它與其他事物或現(xiàn)象的不同之處,,并根據(jù)一定的目的把各個(gè)相似的但又不完全相同的事物或現(xiàn)象組成一類[13 17]。常見的模式識(shí)別方法有:模式匹配,、統(tǒng)計(jì)分類,、句法方法等。

2神經(jīng)網(wǎng)絡(luò)

  神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,、進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,。通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的,。一些學(xué)者給出了節(jié)點(diǎn)之間交互定義:利用數(shù)學(xué)模型仿真生物學(xué)系統(tǒng)特征,,并行處理信息,;簡(jiǎn)單的實(shí)體類的算法,算法形成于數(shù)學(xué)模型(模型將這些策略分組成大量的算法,,這些算法能解決大量復(fù)雜的問題),。

  神經(jīng)網(wǎng)絡(luò)的活躍性體現(xiàn)在分類、編碼的過程和神經(jīng)網(wǎng)絡(luò)的特性方面,。神經(jīng)網(wǎng)絡(luò)特性有:(1)抗噪聲,。(2)靈活處理扭曲圖像。(3)并行協(xié)同處理信息,。神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元都可以根據(jù)接收到的信息進(jìn)行獨(dú)立的運(yùn)算和處理,,并輸出結(jié)果,同一層中的各個(gè)神經(jīng)元的輸出結(jié)果可被同時(shí)計(jì)算下來,,然后傳輸給下一層做進(jìn)一步處理,,體現(xiàn)了神經(jīng)網(wǎng)絡(luò)并行運(yùn)算的特點(diǎn)。(4)對(duì)信息的處理具有自組織,、自學(xué)習(xí)的特點(diǎn),,便于聯(lián)想、綜合和推廣,。神經(jīng)網(wǎng)絡(luò)的神經(jīng)元之間的連接強(qiáng)度用權(quán)值大小表示,,這種權(quán)值可以通過對(duì)訓(xùn)練樣本的學(xué)習(xí)而不斷變化。

  神經(jīng)網(wǎng)絡(luò)常見類型有:(1)Hopfield網(wǎng)絡(luò),,一種單層的自聯(lián)想網(wǎng)絡(luò),,無學(xué)習(xí)能力,多使用在聯(lián)想記憶方法來識(shí)別ASCII字符等領(lǐng)域,。(2)感知器主要用來模擬人腦的感知特征,,采取閾值單元作為傳遞函數(shù),所以只能輸出兩個(gè)值,,適合簡(jiǎn)單模式分類問題,。多用在文字識(shí)別、聲音識(shí)別領(lǐng)域,。(3)自組織映射常尋找最優(yōu)參考矢量集合來對(duì)輸入模式集合進(jìn)行分類,。(4)自適應(yīng)諧振理論將競(jìng)爭(zhēng)學(xué)習(xí)模型嵌入到一個(gè)自調(diào)節(jié)控制機(jī)構(gòu),使得當(dāng)輸入充分類似某一已存模式時(shí)系統(tǒng)才接受,,不夠類似時(shí),,只能作為新的類別來處理。

3處理過程

  神經(jīng)網(wǎng)絡(luò)處理語音識(shí)別問題的處理過程如圖1所示,。

  3.1識(shí)別過程

  (1)輸入信號(hào)送入計(jì)算機(jī),,選擇單詞邊界,去掉孤立詞匯,。

  (2)聽覺信號(hào)處理,,對(duì)語音信號(hào)進(jìn)行片段化(分幀),,LPC分析,,將Durbin算法作用于每個(gè)片段得到LPC倒譜系數(shù)的矢量,,并使用K均值算法進(jìn)行量化。

  (3)模式匹配和識(shí)別,,利用人工神經(jīng)網(wǎng)絡(luò)對(duì)聲學(xué)參數(shù)近似度進(jìn)行計(jì)算,。

  (4)時(shí)間校正,模式序列識(shí)別,。

  語音信號(hào)作為神經(jīng)網(wǎng)絡(luò)的輸入,,對(duì)語音信號(hào)分段后,神經(jīng)網(wǎng)絡(luò)接收到一組信號(hào)片段,。每個(gè)片段對(duì)應(yīng)一組數(shù)字,,表示信號(hào)的振幅范圍。所有的數(shù)字為計(jì)算神經(jīng)網(wǎng)絡(luò)輸出做準(zhǔn)備,。如表1所示,,每行是一幀的數(shù)字集合。

圖像 004.png

圖像 002.png

如圖2所示,。其中,,I表示一組數(shù)字中的數(shù)目,N表示數(shù)字集合(分割之后的幀信號(hào))的數(shù)目,,輸入神經(jīng)元的數(shù)目已知,,每個(gè)神經(jīng)元對(duì)應(yīng)一組數(shù)字,輸出層只有一個(gè)神經(jīng)元,。輸出神經(jīng)元輸出的信號(hào)對(duì)應(yīng)識(shí)別所期望的輸出值,。

  其中,xqi表示一組數(shù)字中第i個(gè)xq的輸入值,,yj為第j個(gè)神經(jīng)元的輸出值,,wij為第i個(gè)神經(jīng)元和第j個(gè)神經(jīng)元的連接權(quán)值,βj為第j個(gè)神經(jīng)元的權(quán)值反饋,。

  3.2利用模型進(jìn)行語音識(shí)別

  要計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出,,須完成以下步驟:

  (1)初始化所有隱藏層中的所有神經(jīng)元的上下文;

  (2)將第一組數(shù)字應(yīng)用于神經(jīng)網(wǎng)絡(luò),,利用式(1)計(jì)算隱藏層的輸出,。

  QQ圖片20161007214214.png

  要識(shí)別一個(gè)數(shù)字需要建立相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型,這里建立10個(gè)相互有聯(lián)系的模型單元模仿神經(jīng)元,。一個(gè)語音片段經(jīng)過片段化后輸入到神經(jīng)網(wǎng)絡(luò)模型中,,經(jīng)過權(quán)值的迭代計(jì)算出期望的輸出。如訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別一個(gè)數(shù)字時(shí),,理想的輸出應(yīng)當(dāng)是對(duì)應(yīng)的數(shù)字,,而不應(yīng)當(dāng)是其他的數(shù)字或者字母,。表2列出了神經(jīng)網(wǎng)絡(luò)模型對(duì)數(shù)字0~9測(cè)試的準(zhǔn)確率。

圖像 005.png

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)按照量化均值調(diào)整規(guī)模,,直到周圍的各種配置錯(cuò)誤到達(dá)一個(gè)可以接受的水平(由系統(tǒng)定義),。系統(tǒng)功能中的錯(cuò)誤按式(2)進(jìn)行計(jì)算。

    QQ圖片20161007214217.png

  N是神經(jīng)網(wǎng)絡(luò)例子中訓(xùn)練樣本的數(shù)目,。一個(gè)神經(jīng)元的原型是生物學(xué)中的神經(jīng)細(xì)胞,,一個(gè)神經(jīng)元由體細(xì)胞和兩個(gè)樹狀的分支——軸突和樹突組成。細(xì)胞體包含了細(xì)胞的必要元素,,例如細(xì)胞核(內(nèi)含DNA),、細(xì)胞質(zhì)等。樹突可以接受刺激并將興奮傳入細(xì)胞體,。每個(gè)神經(jīng)元只有一個(gè)軸突,,傳遞興奮給其他神經(jīng)元。

  神經(jīng)元的功能特點(diǎn)以及它們?nèi)绾谓Y(jié)合成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)決定了神經(jīng)網(wǎng)絡(luò)的功能特點(diǎn),。多層神經(jīng)網(wǎng)絡(luò)和多層感知器能夠滿足苛刻的識(shí)別和管理要求,。設(shè)計(jì)神經(jīng)元時(shí),每一個(gè)神經(jīng)元都會(huì)從前一層處理矢量信號(hào),,圖3雙層神經(jīng)網(wǎng)絡(luò)模型并將處理結(jié)果傳給下一層,。最小實(shí)現(xiàn)是一個(gè)雙層神經(jīng)網(wǎng)絡(luò),由輸入層,、中間層(隱藏),、輸出層組成。如圖3所示,。

4結(jié)論

  基于人工神經(jīng)網(wǎng)絡(luò)的語音識(shí)別模型的研究目的是研究開發(fā)學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò),。利用學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)語音識(shí)別的功能。本文把人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識(shí)別的系統(tǒng)中,,通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型,,最后模型快速給出與輸入相匹配的輸出。在現(xiàn)有數(shù)據(jù)集實(shí)驗(yàn)的基礎(chǔ)上,,識(shí)別準(zhǔn)確程度較好,。

  參考文獻(xiàn)

  [1] MCCULLOCH W S,PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of Mathematical Biophysics,1943,10(5):115133.

 ?。?] HOSPFIELD J.Neural networks and physical systems with emergent collective computer abilities[J].Proc Natl Acad Sci,1982,79(6):25542558.[3] RITTER G X, SUSSNER P. Morphological associative memories[J]. IEEE Transactions on Neural Networks, 1998,9(2):281292.

 ?。?] 馮乃勤,劉春紅,張聰品,等.形態(tài)學(xué)聯(lián)想記憶框架研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(1): 3140.

  [5] SMADI A T A. Design and implementation of double base integer encoder of term metrical to direct binary[J].Journal of Signal and Information Processing,2015,,4(4):370374.

 ?。?] CHOUDHARY A, KSHIRSAGAR R.(2012) Process speech recognition system using artificial intelligence technique[J].International Journal of Soft Computing and Engineering(IJSCE), 2012,,2(5):239242.

 ?。?] CUI X, AFIFY M, GAO Y,et al.Stereo hidden Markov modeling for noise robust speech recognition[J].Computer Speech & Language,2013,27(2):407419.

 ?。?] BENGIO Y, YAO L,ALAIN G,et al.Generalized denoising autoencoders as generative models[J].Advances in Neural Information Processing Systems,2013:899907.

 ?。?] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):19291958.

 ?。?0] 邢銘生,朱浩,,王宏斌.語音識(shí)別技術(shù)綜述[J].科協(xié)論壇,,2010(3):6263.

 ?。?1] 林錫海.召喚式撿球機(jī)器人的語音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:廣東工業(yè)大學(xué),,2011.

  [12] 史峰,王小川,郁磊,等.MATLAB 神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.

 ?。?5] 劉鈺,,馬艷麗,董蓓蓓.語音識(shí)別技術(shù)概述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2010(5):9899.

 ?。?6] 廖锎.淺析語音識(shí)別技術(shù)的發(fā)展及趨勢(shì)[J].科技傳播,2010(17):3436.

 ?。?7] 賈晶.基于STM32的嵌入式語音識(shí)別模塊設(shè)計(jì)[J].?dāng)?shù)字技術(shù)與應(yīng)用,2012(6):152153.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。