思必馳以智能語音技術(shù) 開啟語聲新紀(jì)元-AET-電子技術(shù)應(yīng)用

思必馳以智能語音技術(shù) 開啟語聲新紀(jì)元

日期： 2020-08-30

來源：21ic

關(guān)鍵詞： 人機(jī)交互感應(yīng)器人工智能互聯(lián)網(wǎng)

或者我們可以把第一次工業(yè)革命看作是人類開始系統(tǒng)的思考人類與機(jī)器的交互，那或是人機(jī)交互的開端，這也許是從人類不自覺情況下開始的，但是從此之后人機(jī)交互的進(jìn)展就再也沒有停止過。

　　我們發(fā)現(xiàn)，人類和機(jī)器的交流，最開始發(fā)生在工廠內(nèi)。改善人機(jī)交互體驗的動機(jī)是提升工作效率。發(fā)展到如今，人機(jī)交互的研究已經(jīng)不單單是為了提升工作效率那么簡單。進(jìn)入21世紀(jì)之后，人機(jī)交互的思路發(fā)生了新的改變。隨著技術(shù)的進(jìn)步，各種感應(yīng)器的出現(xiàn)，開始讓讓人機(jī)交互進(jìn)入新的階段。那就是機(jī)器可以主動“體會”用戶的意圖了。雖然目前這種體會還非常的簡單，可能只是自動選擇屏幕，或者自動調(diào)節(jié)亮度這樣簡單。但是這是人機(jī)交互的一個本質(zhì)性的變化。人和機(jī)器的交互，不再是簡單的“你說我聽”。

　　此外交互方式的變革也是值得我們注意的，當(dāng)用戶向手機(jī)或者計算機(jī)發(fā)問的時候，輸入的方式也改變了。鼠標(biāo)比鍵盤方便，觸控比鼠標(biāo)方便，語音輸入可以說更加的省時省力。在這一背景下，2015年7月29日，國內(nèi)頂尖智能語音技術(shù)公司——思必馳，在深圳舉辦【語聲紀(jì)元】新技術(shù)發(fā)布會，各路智能硬件大咖齊聚深圳，共迎智能語音交互技術(shù)領(lǐng)域的革新一刻，從智能語音技術(shù)的角度共同討論人工智能的發(fā)展與未來。

　　據(jù)思必馳CEO高始興透露，思必馳作為一家領(lǐng)先業(yè)界的智能語音技術(shù)公司，是國際上最早提出”交互人工智能“并開始研發(fā)的技術(shù)公司。現(xiàn)在，隨著智能硬件時代的全面到來， “人機(jī)交互”的概念也被炒得火熱。在移動互聯(lián)時代，由于交互模態(tài)和交互目標(biāo)的豐富，用戶對人機(jī)交互的自由度和豐富性的需求日益提升，已經(jīng)不滿足于簡單的搜索功能，而是正在逐漸向“任務(wù)處理”變遷，思必馳順應(yīng)趨勢積極開發(fā)優(yōu)勢技術(shù)。

　　現(xiàn)在，移動互聯(lián)網(wǎng)大潮來了，思必馳覺得是個機(jī)會，把思必馳幾乎所有的人力、精力和財力向移動互聯(lián)、智能硬件去專注，去投，專注在扎實的語音技術(shù)上，希望服務(wù)于廣大的移動互聯(lián)和智能硬件的開發(fā)者，做最極致的體驗。而智能家居、可穿戴、車載則是目前思必馳最為關(guān)注的三大領(lǐng)域。

　　思必馳CEO高始興

　　2015年，物聯(lián)網(wǎng)和智能硬件的大風(fēng)來了，但是思必馳看到市面上諸多的智能硬件在人機(jī)交互方面做得還不夠好，沒達(dá)到完美，甚至可以說距離良好的用戶體驗差距還非常大，甚至可以說，我們現(xiàn)在看到市面上的人機(jī)語音交互，還非常的基礎(chǔ)。

　　思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱教授則認(rèn)為，在智能硬件整個生態(tài)圈里面，交互是重要的一環(huán)，而且，我們認(rèn)為智能硬件需要一顆心，不僅僅是讓每款產(chǎn)品有一個耳朵、嘴巴，還要有大腦，會思考。思必馳當(dāng)初創(chuàng)業(yè)的夢想就是讓每個設(shè)備能有智能語音，自然與人對話起來。讓智能設(shè)備有嘴巴、有耳朵、有大腦，這是我們一直以來的夢想和使命。

　　俞凱教授強(qiáng)調(diào)， “所以我希望思必馳能夠一直努力，做好我們的技術(shù)，做好我們的方案，做好我們的服務(wù)，我們自己跟合作伙伴能夠緊密聯(lián)系起來，一起讓每個智能硬件有極致的交互體驗。”

　　但是目前語音技術(shù)面臨著巨大的挑戰(zhàn)。真正的自由和穩(wěn)定的人機(jī)交互系統(tǒng)不僅需要解決語音的“感知/表達(dá)”，即傳統(tǒng)的語音識別和合成，更需要解決認(rèn)知理解和抽象思維的智能。這需要經(jīng)歷兩個階段，一個是傳統(tǒng)語音技術(shù)的優(yōu)化，使其更加人性化；二是對話技術(shù)的使用，采用認(rèn)知交互智能提升任務(wù)完成的水平和用戶體驗。

　　思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱教授

　　此次新技術(shù)發(fā)布俞凱教授分享了思必馳最新技術(shù)突破，包括遠(yuǎn)場及抗噪技術(shù)突破、更先進(jìn)的回聲消除和麥克風(fēng)陣列算法組合、基于統(tǒng)計的參數(shù)化語音合成方法、多輪交互和根據(jù)上下文的語義解析。并現(xiàn)場演示了“語音輸入板”，贏得滿堂喝彩。

　　俞凱教授現(xiàn)場演示“語音輸入板”贏得滿堂喝彩

　　遠(yuǎn)場及抗噪技術(shù)突破：在國際通用的噪聲標(biāo)準(zhǔn)測試庫上，思必馳的最新結(jié)構(gòu)化抗噪語音識別技術(shù)刷新了國際記錄，取得目前世界單系統(tǒng)最好成績。模型算法的優(yōu)化突破，使得思必馳僅用軟件解決方案就可以達(dá)到以往采用語音降噪芯片才能達(dá)到的效果，大幅提升了識別率，降低了成本。

　　更先進(jìn)的回聲消除和麥克風(fēng)陣列算法組合：先進(jìn)的回聲消除算法和麥克風(fēng)陣列算法結(jié)合，可以有效的跟蹤用戶位置，增強(qiáng)語音信號質(zhì)量，實現(xiàn)高性能的通用語音識別。軟硬件結(jié)合的多種解決方案，更給出了更多的選擇和可能性。僅靠軟件且單麥克風(fēng)條件下，通過大數(shù)據(jù)整合以及智能算法，思必馳仍然可以達(dá)到極為優(yōu)秀的使用體驗，識別速度與準(zhǔn)確率均處在世界領(lǐng)先水平。

　　基于統(tǒng)計的參數(shù)化語音合成方法：傳統(tǒng)語音合成是采用拼接技術(shù)，錄制大規(guī)模的語音庫，切片后在合成的時候把片段拼起來，這就往往需要大量的標(biāo)準(zhǔn)語音。思必馳采用最新的基于統(tǒng)計的參數(shù)化語音合成方法，可以實現(xiàn)模型規(guī)模的大幅壓縮，語音連貫性的大幅提升，能夠自由訓(xùn)練個性化的語音。

　　多輪交互和根據(jù)上下文的語義解析：在真實場景下，傳統(tǒng)語音識別加自然語言處理的方案并不能很好地實現(xiàn)自由的“人機(jī)交互”。思必馳在領(lǐng)先的傳統(tǒng)語音識別合成技術(shù)的基礎(chǔ)上，引入交互認(rèn)知智能，通過情境理解和多輪交互，面向最終任務(wù)完成度和用戶體驗進(jìn)行系統(tǒng)設(shè)計和優(yōu)化。

　　會場展示的智能產(chǎn)品吸引了眾多眼球

　　此外，易觀智庫的高級分析師封莉、歐瑞博CEO王雄輝、映趣科技CEO王小彬、威仕特CEO聞?wù)H臨現(xiàn)場助陣，分享他們的產(chǎn)品經(jīng)驗極對語音技術(shù)的看法。如今的智能硬件市場已從最初的產(chǎn)業(yè)藍(lán)海逐漸轉(zhuǎn)變?yōu)橄乱粋€產(chǎn)業(yè)風(fēng)口，產(chǎn)業(yè)生態(tài)系統(tǒng)尚未完善，需要多方合力，思必馳正積極聯(lián)合各方合力，力爭推動智能硬件的快速發(fā)展。思必馳、FACE++、微動、ablecloud、72變、中發(fā)時代聯(lián)合主辦即將于8月中下旬正式啟動上線的一檔大型活動——“創(chuàng)星計劃”，旨在培育中小型開發(fā)者成長，推促進(jìn)智能硬件領(lǐng)域蓬勃發(fā)展的創(chuàng)業(yè)孵化器計劃。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

思必馳以智能語音技術(shù) 開啟語聲新紀(jì)元

日期： 2020-08-30

來源：21ic

相關(guān)內(nèi)容