《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 智能語(yǔ)音科技簡(jiǎn)史(2018版),,這場(chǎng)技術(shù)革命從哪開(kāi)始?

智能語(yǔ)音科技簡(jiǎn)史(2018版),,這場(chǎng)技術(shù)革命從哪開(kāi)始,?

2018-04-26

   1952年,貝爾實(shí)驗(yàn)室(Bell Labs)制造一臺(tái)6英尺高自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,,它可以識(shí)別數(shù)字0~9的發(fā)音,,且準(zhǔn)確度高達(dá)90%以上。并且它對(duì)熟人的精準(zhǔn)度高,,而對(duì)陌生人則偏低,。

  1956年,普林斯頓大學(xué)RCA實(shí)驗(yàn)室開(kāi)發(fā)了單音節(jié)詞識(shí)別系統(tǒng),,能夠識(shí)別特定人的十個(gè)單音節(jié)詞中所包含的不同音節(jié),。

  1959年,,MIT的林肯實(shí)驗(yàn)室開(kāi)發(fā)了針對(duì)十個(gè)元音的非特定人語(yǔ)音識(shí)別系統(tǒng)。

1524107969214034890.jpg

  二十世紀(jì)六十年代初,,東京無(wú)線電實(shí)驗(yàn)室,、京都大學(xué)和NEC實(shí)驗(yàn)室在語(yǔ)音識(shí)別領(lǐng)域取得了開(kāi)拓性的進(jìn)展,各自先后制作了能夠進(jìn)行語(yǔ)音識(shí)別的專用硬件,。

  1964年的世界博覽會(huì)上,,IBM向世人展示了數(shù)字語(yǔ)音識(shí)別的“shoe box recognizer”。

  二十世紀(jì)七十年代,,語(yǔ)音識(shí)別的研究取得了突破性的進(jìn)展,,研究重心仍然是孤立詞語(yǔ)語(yǔ)音識(shí)別。

  1971年,,美國(guó)國(guó)防部研究所(Darpa)贊助了五年期限的語(yǔ)音理解研究項(xiàng)目,,希望將識(shí)別的單詞量提升到1000以上。參與該項(xiàng)目的公司和學(xué)術(shù)機(jī)構(gòu)包括IBM,、卡內(nèi)基梅隆大學(xué)(CMU),、斯坦福研究院。就這樣,,Harpy在CMU誕生了,。不像之前的識(shí)別器,Harpy可以識(shí)別整句話,。

  二十世紀(jì)八十年代,,NEC提出了二階動(dòng)態(tài)規(guī)劃算法,Bell實(shí)驗(yàn)室提出了分層構(gòu)造算法,,以及幀同步分層構(gòu)造算法等,。同時(shí),連接詞和大詞匯量連續(xù)語(yǔ)音的識(shí)別得到了較大發(fā)展,,統(tǒng)計(jì)模型逐步取代模板匹配的方法,,隱馬爾科夫模型(HMM)成為語(yǔ)音識(shí)別系統(tǒng)的基礎(chǔ)模型。

  八十年代中期,,IBM創(chuàng)造了一個(gè)語(yǔ)音控制的打字機(jī)—Tangora,,能夠處理大約20000單詞。IBM的研究就是基于隱形馬爾科夫鏈模型(hidden Markov model),,在信號(hào)處理技術(shù)中加入統(tǒng)計(jì)信息,。這種方法使得在給定音素情況下,很有可能預(yù)測(cè)下一個(gè)因素,。

  1984年,,IBM發(fā)布的語(yǔ)音識(shí)別系統(tǒng)在5000個(gè)詞匯量級(jí)上達(dá)到了95%的識(shí)別率。

  1985年AT&T貝爾實(shí)驗(yàn)室建造了第一個(gè)智能麥克風(fēng)系統(tǒng),,用來(lái)研究大室內(nèi)空間的聲源位置追蹤問(wèn)題,。

  1987年開(kāi)始,,國(guó)家開(kāi)始執(zhí)行963計(jì)劃后,國(guó)家863智能計(jì)算機(jī)主題專家組為語(yǔ)音識(shí)別研究立項(xiàng),,每?jī)赡暌淮巍?/p>

  1987年12月,,李開(kāi)復(fù)開(kāi)發(fā)出世界上第一個(gè)“非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)”。


1524107969275073830.jpg

    1988年,,卡耐基梅隆大學(xué)結(jié)合矢量量化技術(shù)(VQ),,用VQ/HMM方法開(kāi)發(fā)了世界上第一個(gè)非特定人大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX,能夠識(shí)別包括997個(gè)詞匯的4200個(gè)連續(xù)語(yǔ)句,。

1524107969323042643.jpg

  同年,,清華大學(xué)和中科院聲學(xué)所在大詞庫(kù)漢語(yǔ)聽(tīng)寫(xiě)機(jī)的研制上取得了突破性進(jìn)展。

  1990年,,聲龍發(fā)布了第一款消費(fèi)級(jí)語(yǔ)音識(shí)別產(chǎn)品Dragon Dictate,,價(jià)格高達(dá)9000美元。

  1992年,,IBM引入了它的第一個(gè)聽(tīng)寫(xiě)系統(tǒng),,稱為“IBM Speech Server Series (ISSS)”。

  1992年研發(fā)的Sphinx-II在同年美國(guó)國(guó)防部先進(jìn)技術(shù)研究計(jì)劃署(DARPA)資助的語(yǔ)音基準(zhǔn)評(píng)測(cè)中獲得了最高的識(shí)別準(zhǔn)確度,,這主要得益于其在高斯混合和馬爾可夫狀態(tài)層次上用栓連參數(shù)平衡了可訓(xùn)練性和高效性,。

  1995年,Windows 95上首次搭載微軟SAPI,,它使應(yīng)用程序開(kāi)發(fā)者能夠在Windows上創(chuàng)建語(yǔ)音程序,。

  1995年,AT&T研究院的 Dave Ladd,, Chris Ramming,, Ken Rehor 以及 Curt Tuckey 在頭腦風(fēng)暴關(guān)于互聯(lián)網(wǎng)會(huì)如何改變電話應(yīng)用的時(shí)候,產(chǎn)生了一些新的想法:為什么不設(shè)計(jì)這樣一個(gè)系統(tǒng)來(lái)運(yùn)行一種可以解析某種語(yǔ)音標(biāo)記語(yǔ)言的語(yǔ)音瀏覽器,,用來(lái)把互聯(lián)網(wǎng)的內(nèi)容和服務(wù)提供到千家萬(wàn)戶的電話上,。于是,AT&T就開(kāi)始“電話網(wǎng)絡(luò)項(xiàng)目”(Phone Web Project),。之后,,Chris繼續(xù)留在AT&T,Ken去了朗訊,,Dave和Curt去了摩托羅拉,。(1999年初的時(shí)候,他們分別在各自的公司邁出了語(yǔ)音標(biāo)記語(yǔ)言規(guī)范實(shí)質(zhì)性的第一步,。因?yàn)樗麄兊拿苡殃P(guān)系,這幾家公司合作成立了一個(gè)VoiceXML論壇組織,,IBM也作為一個(gè)創(chuàng)始公司加入了進(jìn)來(lái),。)

  1997年IBM ViaVoice首個(gè)語(yǔ)音聽(tīng)寫(xiě)產(chǎn)品問(wèn)世,,你只要對(duì)著話筒喊出要輸入的字符,它就會(huì)自動(dòng)判斷并且?guī)湍爿斎胛淖?。次年又開(kāi)發(fā)出可以識(shí)別上海話,、廣東話和四川話等地方口音的語(yǔ)音識(shí)別系統(tǒng)ViaVoice’ 98。

  1998年,,微軟在北京成立亞洲研究院,,將漢語(yǔ)語(yǔ)音識(shí)別納入重點(diǎn)研究方向之一。

  2001年,,比爾蓋茨在美國(guó)消費(fèi)電子展上展示了一臺(tái)代號(hào)為MiPad的原型機(jī),。Mipad展現(xiàn)了語(yǔ)音多模態(tài)移動(dòng)設(shè)備的愿景。

  2002年,,中科院自動(dòng)化所及其所屬模式科技公司推出了“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——Pattek ASR,,結(jié)束了該領(lǐng)域一直被國(guó)外公司壟斷的局面。

  2002年,,美國(guó)國(guó)防部先進(jìn)技術(shù)研究計(jì)劃署(DARPA)首先啟動(dòng)了EARS項(xiàng)目和TIDES 項(xiàng)目,; 由于EARS項(xiàng)目過(guò)于敏感,EARS和TIDES兩個(gè)項(xiàng)目合并為“全球自主語(yǔ)言開(kāi)發(fā)”(Global Autonomous Language Exploitation,,GALE),。GALE目標(biāo)是應(yīng)用計(jì)算機(jī)軟件技術(shù)對(duì)海量規(guī)模的多語(yǔ)言語(yǔ)音和文本進(jìn)行獲取、轉(zhuǎn)化,、分析和翻譯,。

  2006年,辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN),,促使了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,,DNN)研究的復(fù)蘇,掀起了深度學(xué)習(xí)的熱潮,。

  2009年,,辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音的聲學(xué)建模,在小詞匯量連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功,。

  2009年微軟Win7集成語(yǔ)音功能,。

  2010年Google Vioce Action支持語(yǔ)音操作與搜索。

  2011年初,,微軟的DNN模型在語(yǔ)音搜索任務(wù)上獲得成功,。

  同年科大訊飛將DNN 首次成功應(yīng)用到中文語(yǔ)音識(shí)別領(lǐng)域,并通過(guò)語(yǔ)音云平臺(tái)提供給廣大開(kāi)發(fā)者使用,。

1524107969383016858.jpg

  2011年10月,,蘋(píng)果iPhone 4S發(fā)布,個(gè)人手機(jī)助理Siri誕生,,人機(jī)交互翻開(kāi)新篇章,。

  2012年,,科大訊飛在語(yǔ)音合成領(lǐng)域首創(chuàng)RBM技術(shù)。

  2012年,,谷歌的智能語(yǔ)音助手Google Now 的形式出現(xiàn)在眾人面前,,用在安卓 4.1 和 Nexus 手機(jī)上。

  2013年,,Google發(fā)布Google Glass,,蘋(píng)果也加大了對(duì)iWatch的研發(fā)投入,穿戴式語(yǔ)音交互設(shè)備成為新熱點(diǎn),。

  同年,,科大訊飛在語(yǔ)種識(shí)別領(lǐng)域首創(chuàng)BN-ivec技術(shù)。

  2014 年,,思必馳推出首個(gè)可實(shí)時(shí)轉(zhuǎn)錄的語(yǔ)音輸入板,。

  2014年11月,亞馬遜智能音箱Echo發(fā)布,。

  2015 年,,思必馳推出首個(gè)可智能打斷糾正的語(yǔ)音技術(shù)。

1524107969432042194.jpg

  2016年,,Google Assistant伴隨Google Home 正式亮相,,搶奪亞馬遜智能音箱市場(chǎng)。(亞馬遜Echo在2016年的智能音箱市場(chǎng)占有率達(dá)到了巔峰的88%)

  同年,,科大訊飛上線DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò),,Deep Fully Convolutional Neural Network)語(yǔ)音識(shí)別系統(tǒng)。

  同年11月,,科大訊飛,、搜狗、百度先后召開(kāi)發(fā)布會(huì),,對(duì)外公布語(yǔ)音識(shí)別準(zhǔn)確率均達(dá)到“97%”,。

  2017年3月,IBM結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語(yǔ)言模型,?!凹袛U(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 詞錯(cuò)率的突破”。相對(duì)應(yīng)的是去年5月的6.9%,。

  2017年8月,,微軟發(fā)布新的里程碑,通過(guò)改進(jìn)微軟語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽(tīng)覺(jué)和語(yǔ)言模型,,在去年基礎(chǔ)上降低了大約12%的出錯(cuò)率,,詞錯(cuò)率為5.1%,聲稱超過(guò)專業(yè)速記員。相對(duì)應(yīng)的是去年10月的5.9%,,聲稱超過(guò)人類,。

  2017年12月,谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),,詞錯(cuò)率降低至5.6%。相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升,。

  市場(chǎng)分析公司Canalys在2018年1月分布一份報(bào)告,,其預(yù)測(cè)2018年將是普及智能音箱的“決定性一年”,相比全年出貨量剛過(guò)3000萬(wàn)臺(tái)的2017年,,2018年智能音箱全球出貨量預(yù)計(jì)將達(dá)到5630萬(wàn)臺(tái),。

 

1524107969473000577.jpg

  中投顧問(wèn)發(fā)布的《2018-2022年中國(guó)智能語(yǔ)音行業(yè)深度調(diào)研及投資前景預(yù)測(cè)報(bào)告》顯示我國(guó)智能語(yǔ)音市場(chǎng)整體處于啟動(dòng)期,智能車載,,智能家居,,智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。

  

1524107969514008009.jpg

  文章引用

 ?。?] 李曉雪. 基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)與識(shí)別研究[D]. 浙江大學(xué),, 2010.

  [2] 倪崇嘉,, 劉文舉,, 徐波. 漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J]. 中文信息學(xué)報(bào), 2009,, 23(1):112-123.

 ?。?] 高朝煌. 非特定人漢語(yǔ)連續(xù)數(shù)字語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 西安電子科技大學(xué), 2011.

 ?。?] 《2017年的語(yǔ)音識(shí)別,,路只走了一半》

  [5] 《2018-2022年國(guó)內(nèi)外智能語(yǔ)音發(fā)展的分析》

 ?。?] 《四十年的難題與榮耀—從歷史視角看語(yǔ)音識(shí)別發(fā)展》

 ?。?] 《幾個(gè)常見(jiàn)的語(yǔ)音交互平臺(tái)的簡(jiǎn)介和比較》

  [8] 《VoiceXML簡(jiǎn)介》

 ?。?] 《思必馳官方介紹資料》


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。