《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > MEMS|傳感技術(shù) > 業(yè)界動(dòng)態(tài) > 光學(xué)傳感器無(wú)視噪音,,實(shí)現(xiàn)精準(zhǔn)語(yǔ)音識(shí)別

光學(xué)傳感器無(wú)視噪音,,實(shí)現(xiàn)精準(zhǔn)語(yǔ)音識(shí)別

2016-12-21

據(jù)麥姆斯咨詢報(bào)道,VocalZoom是一家以色列初創(chuàng)企業(yè),,他們發(fā)明了一種光學(xué)傳感解決方案,,可以在噪雜環(huán)境中將人們的語(yǔ)音更精準(zhǔn)地轉(zhuǎn)換為數(shù)字信號(hào),。這項(xiàng)發(fā)明非常適用于緊急狀況下的通訊服務(wù),除了最初面向的車載語(yǔ)音識(shí)別應(yīng)用,,還可用于頭戴耳機(jī),、智能手機(jī)、安保等一切跟語(yǔ)音識(shí)別相關(guān)的應(yīng)用,。

目前基于語(yǔ)音的人機(jī)交互系統(tǒng)(human-to-machine communication,,簡(jiǎn)稱HMC)的問(wèn)題在于它們只針對(duì)人類進(jìn)行了優(yōu)化,,而沒(méi)有考慮機(jī)器。這些人機(jī)交互系統(tǒng)利用聲學(xué)麥克風(fēng)探測(cè)所有的聲音信息,,然后耗費(fèi)大量寶貴的能源和時(shí)間運(yùn)用降噪算法過(guò)濾背景噪音,,再經(jīng)過(guò)優(yōu)化獲得自然、悅耳,、清晰的聲音再現(xiàn),。

當(dāng)人們?cè)陂_(kāi)車的時(shí)候,無(wú)論是人類還是語(yǔ)音識(shí)別系統(tǒng),,隨著背景噪音的增加,,可理解性和識(shí)別率都隨即下降,這帶來(lái)了糟糕的通話質(zhì)量和錯(cuò)誤的聲控命令,。

20160415031330541.jpg

圖1 行駛的車輛,,隨著車窗打開(kāi)幅度和車內(nèi)喇叭音量的提高,聲控識(shí)別率通常逐漸降為0%,。VocalZoom宣稱他們的HMC傳感器在相同的環(huán)境下,,聲控識(shí)別率可以保持在90%以上。

為了將人類的聲音從環(huán)境噪音中完全分離,,VocalZoom為其HMC傳感器運(yùn)用了一種低成本,、低功耗的干涉測(cè)量原理。該傳感器使用一個(gè)激光器來(lái)測(cè)量人們說(shuō)話時(shí)臉部或者耳后皮膚的低頻震動(dòng),。為了降低干涉測(cè)量的成本,,VocalZoom選擇了犧牲測(cè)量距離,使用一款一級(jí)安全等級(jí)的垂直腔面發(fā)射體激光器(VCSEL),,該激光器測(cè)量距離為1米,,可以直接正對(duì)臉部進(jìn)行皮膚震動(dòng)探測(cè)。

20160415031349817.jpg

圖2 VocalZoom的HMC傳感器應(yīng)用了一項(xiàng)簡(jiǎn)單但專利保護(hù)的干涉測(cè)量技術(shù),,使用一款可以正對(duì)臉部測(cè)量的一級(jí)安全等級(jí)的垂直腔面發(fā)射體激光器(VCSEL),。面部震動(dòng)改變了反射光束的相位,通過(guò)定制ASIC中嵌入的算法獲得最終輸出信號(hào),,信號(hào)再通過(guò)I2S接口輸出,。

該系統(tǒng)不僅可以改善手機(jī)通話質(zhì)量、更精準(zhǔn)更持久的接收語(yǔ)音命令進(jìn)行聲控操作,,還可以用于近距離探測(cè)和測(cè)量心率,。而且,每個(gè)人說(shuō)話的嗓音和相應(yīng)的面部震動(dòng)都是獨(dú)特的,,所以該傳感器還可以用于生物安全識(shí)別,。

20160415031404711.jpg

圖3 VocalZoom技術(shù)的應(yīng)用

“這一技術(shù)將改變?nèi)祟惻c機(jī)器的交互方式。”VocalZoom銷售和商業(yè)發(fā)展部副總裁Rammy Bahalul突出了該項(xiàng)技術(shù)的主要應(yīng)用,。但是,,他還指出該傳感器可以替換掉占智能手機(jī)成本10~20美元的傳感器組件,包括近距探測(cè),、語(yǔ)音識(shí)別,、生物識(shí)別(自帶“存活證明”特性)等功能組件,同時(shí)還能提供更好的降噪效果,,還能通過(guò)語(yǔ)音控制降低系統(tǒng)功耗,。

為此,摩托羅拉選擇該系統(tǒng)進(jìn)行了試驗(yàn),,最后,,摩托羅拉還成為了該公司的投資方。今年初,,VocalZoom與科大訊飛簽署了一項(xiàng)協(xié)議,,將VocalZoom的人機(jī)交流(HMC)光學(xué)傳感器與科大訊飛的“語(yǔ)音云”智能語(yǔ)音技術(shù)平臺(tái)相結(jié)合。

“該傳感器自身功耗在毫瓦范圍內(nèi),,” Bahalul說(shuō)道,,“成本大約1美元?!奔す馄鞯某杀驹?美元左右,,ASIC的成本低于1美元。首批原型系統(tǒng)應(yīng)該在今年第三季度準(zhǔn)備就緒,,Behalul預(yù)計(jì)第一批產(chǎn)品將于2017年年初上市,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。