《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 新品快遞 > 恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識(shí)別引擎

恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識(shí)別引擎

走進(jìn)嵌入式語音控制的新時(shí)代
2023-12-04
作者:Chris Welsh
來源:恩智浦

10.JPG

  恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識(shí)別引擎,。在這篇博文中,,我們將探討開發(fā)人員在嵌入式語音控制設(shè)計(jì)中面臨的挑戰(zhàn),、我們新的Speech to Intent引擎,,以及您如何在應(yīng)用中使用它。

  聽到您的聲音:嵌入式系統(tǒng)中語音命令的挑戰(zhàn)

  隨著亞馬遜,、谷歌和蘋果等公司推出了具有革命性意義的智能揚(yáng)聲器,,嵌入式語音控制的設(shè)備已經(jīng)成為了當(dāng)下的熱門趨勢(shì),而這種技術(shù)其實(shí)已經(jīng)存在了很多年,。通過這些智能揚(yáng)聲器,,終端用戶第一次體驗(yàn)到了語音優(yōu)先設(shè)備的便捷性、實(shí)用性和直觀性,。語音是這些設(shè)備的用戶界面(UI),也是它們最重要或唯一的交互方式,。借助云端的自然語言理解技術(shù),,智能揚(yáng)聲器可以讓語音優(yōu)先設(shè)備的終端用戶用自然語言與智能設(shè)備進(jìn)行溝通,無論是請(qǐng)求,、查詢還是命令,,都可以得到理解和響應(yīng),。

  為了實(shí)現(xiàn)自然語言處理,設(shè)計(jì)人員和終端用戶需要面對(duì)一些挑戰(zhàn),,比如要求有穩(wěn)定,、可靠的網(wǎng)絡(luò)連接,以及要承受始終在線,、始終聆聽的設(shè)備的高耗電,,更別提這種聯(lián)網(wǎng)設(shè)備可能帶來的隱私風(fēng)險(xiǎn)了。

  針對(duì)嵌入式設(shè)計(jì)中的語音引擎難題,,恩智浦推出了其智能語音技術(shù)(VIT)產(chǎn)品組合的最新產(chǎn)品VIT Speech to Intent引擎,。

  本地語音控制與基于云的語音控制比較

  為了讓設(shè)備具備語音控制功能,工程師通常有三種選擇:本地處理,、在云端處理或兩者的組合,,我們稱之為“混合處理”。通過本地語音控制,,終端設(shè)備在邊緣本地處理所有語音,,而無需連接到云端或遠(yuǎn)程服務(wù)器進(jìn)行二次處理?;谠频奶幚砭褪抢迷贫说挠?jì)算能力來處理語音音頻,,然后把云端生成的響應(yīng)通過網(wǎng)絡(luò)傳回設(shè)備。在混合處理的情況下,,通常會(huì)使用本地喚醒詞引擎來喚醒設(shè)備(如“Hey NXP”),,然后將該喚醒詞之后的所有語音命令流式傳輸?shù)皆贫嘶蜻h(yuǎn)程服務(wù)器進(jìn)行處理。

  本地處理具有低延遲,、低功耗和獨(dú)立于網(wǎng)絡(luò)等優(yōu)點(diǎn),,但它通常只支持需要精確措辭的基本關(guān)鍵詞和命令。例如,,開燈可能需要準(zhǔn)確的短語“Hey,,NXP(喚醒詞),開燈(語音命令)”,,并且不能有任何變化,。

  對(duì)于云端處理和混合系統(tǒng),云服務(wù)的使用增加了延遲,,但提供了能夠運(yùn)行極其復(fù)雜的算法的優(yōu)勢(shì),,包括自然語言理解模型。重溫剛才說的開燈示例,,使用任何詞語組合,,系統(tǒng)都可以理解所要求操作的環(huán)境,例如“這里很黑,,請(qǐng)開燈”,。

  如前所述,,基于云的自然語言處理的一個(gè)主要缺點(diǎn)是安全和隱私問題。簡(jiǎn)單地說,,這種方式的原理是把語音音頻流通過網(wǎng)絡(luò)傳送到遠(yuǎn)程服務(wù)器進(jìn)行處理,,但是這也可能導(dǎo)致系統(tǒng)誤啟動(dòng)并把無關(guān)的音頻流傳輸?shù)皆贫恕_@些音頻流可能包括個(gè)人對(duì)話,、憑證或其他敏感信息,。

  恩智浦智能語音技術(shù)(VIT) Speech to Intent (S2I)引擎介紹

  針對(duì)嵌入式設(shè)計(jì)中的語音引擎難題,恩智浦推出了其智能語音技術(shù)(VIT)產(chǎn)品組合的最新產(chǎn)品VIT Speech to Intent引擎,。S2I引擎是VIT產(chǎn)品組合的高端產(chǎn)品,,其中還包括免費(fèi)的喚醒詞引擎(WWE)和語音命令引擎(VCE)。

  與依賴遠(yuǎn)程云服務(wù)的系統(tǒng)不同,,VIT S2I能夠在本地確定自然語言的意圖,。這一功能要?dú)w功于恩智浦針對(duì)嵌入式系統(tǒng)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)算法和機(jī)器學(xué)習(xí)模型的最新開發(fā)成果。因此,,要實(shí)現(xiàn)“開燈”的目的,,可以用很多不同的方式來表達(dá),比如“開燈”,、“太暗了”和“你能讓光線更亮嗎”等,。

  這種Speech to Intent功能使用戶能夠更自然地與嵌入式系統(tǒng)進(jìn)行交互,同時(shí)降低了系統(tǒng)延遲和云連接系統(tǒng)的功耗,。此外,,消除云服務(wù)也有助于提高安全性和隱私,因?yàn)樗姓Z音都在設(shè)備上本地處理,。此外,,如果搭配恩智浦喚醒詞引擎,可以開發(fā)超低功耗設(shè)計(jì),,只有在聽到特定的喚醒詞后,,才會(huì)啟動(dòng)VIT S2I引擎來處理語音命令。

  支持VIT S2I的恩智浦器件包括:Arm?Cortex?-M:i.MX RT跨界MCU和RW61x MCU,,以及Cortex A i.MX 8M Mini,、i.MX 8MPlus和i.MX 9x應(yīng)用處理器。VIT S2I目前支持英語,、普通話和韓語,,將于2023年底推出。用于創(chuàng)建自定義命令和訓(xùn)練模型的在線開發(fā)工具計(jì)劃于2024年發(fā)布,。

11.JPG

  VIT Speech to Intent框圖

  VIT Speech to Intent如何為您的下一個(gè)設(shè)計(jì)增加語音功能

  物聯(lián)網(wǎng)領(lǐng)域日新月異,,VIT S2I能夠適應(yīng)各種應(yīng)用場(chǎng)景,無論是家居自動(dòng)化、可穿戴電子產(chǎn)品,,還是汽車遠(yuǎn)程信息處理和樓宇門禁等,都能發(fā)揮其優(yōu)勢(shì),。消費(fèi)者喜歡用自然語言來免手動(dòng)控制設(shè)備的基本功能,,消除邊緣語音處理的云服務(wù)不僅減少了系統(tǒng)延遲,還減少了隱私和安全問題,。

  對(duì)于那些需要使用語音優(yōu)先用戶界面的設(shè)備,,VIT S2I系統(tǒng)是一個(gè)不可或缺的部分,它可以應(yīng)用在智能恒溫器,、智能電器,、家居自動(dòng)化、燈光控制,、遮陽控制等領(lǐng)域,。VIT S2I也適用于可穿戴設(shè)備和健身設(shè)備,一些用例包括設(shè)置提醒,、控制藍(lán)牙設(shè)備和監(jiān)測(cè)健康狀況,。



更多精彩內(nèi)容歡迎點(diǎn)擊==>>電子技術(shù)應(yīng)用-AET<<

mmexport1621241704608.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。