《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 新的車載語音,,真的很神奇

新的車載語音,,真的很神奇

2017-08-05

  語音平臺有機會成為物聯(lián)網(wǎng)時代下新的“操作系統(tǒng)”,,連接全新的產(chǎn)業(yè)生態(tài),。

  越來越多的人開始確信,,語音的徹底主流化已經(jīng)不是一個需要討論的問題,,只是一個時間和習(xí)慣轉(zhuǎn)移的問題,。

  語音交互的價值,,在過去幾年的發(fā)展中,,逐步走出單純“控制方式”的狹隘理解,,并成為業(yè)內(nèi)人眼中的“新入口”,有機會 連接全新的產(chǎn)業(yè)生態(tài),。

  作為被連接的核心硬件之一,,汽車領(lǐng)域語音交互平臺的爭奪戰(zhàn)也已進入白熱化狀態(tài)。車載環(huán)境,,極有可能優(yōu)先成為用戶固化語音交互操作習(xí)慣最典型場景,。

  競爭仍在繼續(xù),。然而,隨著核心技術(shù)的產(chǎn)業(yè)環(huán)境的推進,,關(guān)于車載語音交互平臺的競爭,,已經(jīng)從自然語言處理(NLP)+自然語言理解(NLU)引擎能力的競爭,衍生向數(shù)據(jù)和計算能力+資源整合能力的下一步競爭,。

  在這個過程中,,誰將勝出?

  cf51aae3bb40f2cf51da084724f6ddbe.jpg

  語音平臺有望成為“新操作系統(tǒng)”

  2014年11月6日,亞馬遜第一款智能音箱Echo在官網(wǎng)悄然上線,。借助產(chǎn)品本身的軟硬件實力,,智能家居配套設(shè)備的逐漸成熟,以及開發(fā)者針對Alexa平臺開發(fā)的數(shù)千種服務(wù),,Echo短期內(nèi)名聲大噪,,在不到兩年的時間內(nèi)實現(xiàn)了超過千萬臺的銷量。

  今年6月,,蘋果開發(fā)者大會期間,,蘋果公司CEO蒂姆·庫克正式揭開了HomePod的面紗,這款姍姍來遲的語音智能音箱,,承載了蘋果對抗亞馬遜Echo的期望,。

  蒂姆·庫克很清楚,表面看起來一場智能音箱“卡位戰(zhàn)”的背后有著更深層的競爭:在人工智能(AI)迅速發(fā)展的大背景下,,語音平臺有機會成為物聯(lián)網(wǎng)時代下新的“操作系統(tǒng)”,,連接全新的產(chǎn)業(yè)生態(tài),包括各類服務(wù)應(yīng)用,、各類硬件,。

  各類硬件中,除了智能家居設(shè)備外,,汽車產(chǎn)品對語音平臺的需求最顯而易見。并且,,由于目前用戶所習(xí)慣的點擊,、滑動等觸摸型交互方式在車載環(huán)境下存在潛在安全隱患且并不完全好用,因此語音這一天然適應(yīng)車載環(huán)境的交互方式,,成為車內(nèi)固定操作習(xí)慣的可能性非常之大,。

  目前,包括美國語音技術(shù)巨頭Nuance,、國內(nèi)相關(guān)公司科大訊飛,、云之聲、思必馳,、出門問問等等,,均在車載語音交互領(lǐng)域進行探索和布局,。例如,在去年阿里上汽的首款產(chǎn)品榮威RX5上,,Nuance的車載語音交互系統(tǒng)得到搭載,、科大訊飛與奇瑞自2015年起始終在密切合作、出門問問與大眾汽車集團(中國)成立合資公司,。一時間,,車載語音交互站上了時代的風(fēng)口。

  0ecfa3db053165dc8446199bffaf8d86.jpg

  亞馬遜第一款智能音箱Echo

  車聯(lián)網(wǎng)支撐車載語音交互發(fā)展

  事實上,,車載語音交互的發(fā)展,,與車聯(lián)網(wǎng)近些年的快速發(fā)展密不可分。

  在業(yè)內(nèi)常用的定義中,,中國車聯(lián)網(wǎng)如今走過了三個典型發(fā)展歷程:

  第一階段:以最初的Onstar,、Gbook為代表,核心是圍繞呼叫心中的導(dǎo)航等功能,。

  第二階段:前裝+后裝的“亂戰(zhàn)階段”,,前裝淺嘗輒止,后裝見縫插針,,一時間車聯(lián)網(wǎng)概念開始廣泛傳播,,但真正好用的產(chǎn)品不多。

  第三階段:以阿里上汽合資為代表,,車廠合資模式下的資源產(chǎn)品深度開發(fā)和資源強強整合,,開始在實際使用層面落地一些好用的前裝車聯(lián)網(wǎng)產(chǎn)品和服務(wù)。

  對應(yīng)來看,,車載語音交互也經(jīng)歷過三個發(fā)展階段,,如果用體驗層面的關(guān)鍵詞來描述:

  第一階段好像“吐字”:例如當(dāng)時出租車報價器中一個字一個字的播報,是固定程序的單向輸出,,并不是真正意義上的車在語音交互,。

  第二階段在于“識別”:用戶在這一階段可以進行語音輸入,但總被一件事情困擾,,系統(tǒng)常?!奥牪惶濉⒙牪惶?。

  第三階段則是“可用”:語音系統(tǒng)開始聽得清也聽得懂,,并且用戶能夠通過該系統(tǒng)體驗一些服務(wù)。

  不難看出,,車載語音交互目前的發(fā)展階段與車聯(lián)網(wǎng)整體的發(fā)展階段處于平行位置,,位于起步初期,從“可用”到“好用”的過程中,。值得注意的是,,和以往任何時間節(jié)點都不同,,隨著人工智能相關(guān)技術(shù)的迅速發(fā)展、產(chǎn)業(yè)鏈資源的整合意愿增強,、用戶行為習(xí)慣的逐步養(yǎng)成,,車載語音交互體驗正在進入提升快車道。

  e6b03c6d975ac5a8222b55546483e7c8.jpg

  量產(chǎn)車搭載語音交互產(chǎn)品的比例逐年提升

  優(yōu)質(zhì)車載語音交互體驗是怎樣的?

  云之聲CEO黃偉曾和車云談起蘋果Siri,,過去大家都把Siri想象語音助理,,助理應(yīng)該什么都會做,什么都能做,,但實際上它做的并不好,,“希望用一個相對來說有限的人工智能解決非常開放的需求,這本身很難做到”,。

  但是,,隨著時間的推移和技術(shù)的發(fā)展,用戶在車內(nèi)這一“相對比較封閉的開放環(huán)境中的開放需求”,,將很快被滿足,。在研發(fā)層面,各方考慮的早已不是如何讓系統(tǒng)更清晰的識別用戶的語音指令,,而是如何更好的接受指令,、更細(xì)的理解指令、更快的做出反饋,。

  更重要的是,,越來越多的相關(guān)開發(fā)者意識到,語音只是工具,,需要連接相應(yīng)的服務(wù)和應(yīng)用,。這些服務(wù)和應(yīng)用為語音而生,目的不是推給用戶一堆信息,,讓用戶自己尋找答案,,而是直接幫助用戶把事情辦成。

  車內(nèi)語音系統(tǒng),,正在成為一位真正的“助理”,。一些實際的成果也正在落地。

  去年底,,科大訊飛發(fā)布智能車機系統(tǒng)——飛魚助理。該系統(tǒng)搭載的語音交互支持多輪對話和中途打斷,,不用多次喚醒就能調(diào)用導(dǎo)航,、音樂、撥打電話等功能,??拼笥嶏w智能汽車事業(yè)部負(fù)責(zé)人劉俊峰向車云展示了兩個場景,。

  場景一、聯(lián)系上下文對話,。

  用戶:“我想聽甜蜜蜜”

  系統(tǒng):請欣賞鄧麗君演唱的《甜蜜蜜》

  用戶:“試一試鹿晗唱的”

  系統(tǒng):請欣賞鹿晗演唱的《甜蜜蜜》

  用戶:“我想聽他和陶喆合唱的”

  系統(tǒng):“請欣賞鹿晗陶喆的合唱歌曲《請到長城來滑雪》”

  場景二,、語音糾錯和隨時打斷。

  用戶:打電話給黃老師

  系統(tǒng):好的,,即將為您接通……(數(shù)秒等待后接通“訊飛黃老師”)

  用戶:(打斷)不對,,是黃昕黃老師

  系統(tǒng):好的,即將為您接通黃昕(數(shù)秒等待后接通“黃昕”)

  用戶:確定

  在車云看來,,上述場景相比現(xiàn)有車載語音產(chǎn)品而言,,主要優(yōu)化點在于“接收信息+反饋信息”層面,這屬于產(chǎn)品優(yōu)化的第一層,。

  在進一步的發(fā)展中,,隨著基礎(chǔ)能力的提升,服務(wù)的整合能力將成為關(guān)鍵能力,,車載語音系統(tǒng)不僅可以聽懂,、反饋,更可以“預(yù)判+執(zhí)行”,。 語音交互只是手段,,不是目的,交互的目的是為了讓機器更好地完成任務(wù),。

  目前,,在博泰集團最新一代的車機產(chǎn)品中,基于周邊服務(wù)的整合,,語音系統(tǒng)已經(jīng)可以開始預(yù)判用戶的需求,,并幫助用戶實現(xiàn)需求。具體而言,,例如用戶語音搜索目的地電影院,,那么系統(tǒng)除了快速彈出電影院推薦、結(jié)合導(dǎo)航時間進行場次推薦外,,還能直接幫助訂票,、選位。

  再以一個場景舉例:

  用戶:“幫我找個新街口附近看電影的地方”

  系統(tǒng):“為你找到如下影院……請問要選哪一個?”

  用戶:“萬達(dá)那個”

  系統(tǒng):“即將導(dǎo)航至南京萬達(dá)國際電影院……為你推薦近期的高分影片,,《戰(zhàn)狼2》9.5分,,萬達(dá)國際電影院最近的場次17:10開始,票價35元,,根據(jù)當(dāng)前路況正好可以趕到,,是否需要提前訂票選座?”

  用戶:“好的,我要最后一排中間的2個位置”

  系統(tǒng):“該場次最后一排中間區(qū)域已滿,,更換為倒數(shù)第二排中間2個位置可以嗎?”

  用戶:“也行”

  系統(tǒng):“支付成功,,萬達(dá)國際電影院4號廳9排6號與7號,,訂票信息與取票二維碼已發(fā)送至手機,到達(dá)影院后可以用二維碼在自動取票機上快速取票,,祝你觀影愉快”

  這當(dāng)然還不是全部,。當(dāng)語音系統(tǒng)與汽車本身結(jié)合更緊密時,還會帶來其他層面的想象力,。例如用戶直接通過語音控制車輛,,設(shè)定車內(nèi)空調(diào)的溫度、開關(guān)天窗,、啟動汽車,、開關(guān)車門等等。當(dāng)然,,這需要車企層面更高的開放度,。目前,大眾,、福特,、現(xiàn)代、寶馬等公司均已不同深度的嘗試引用亞馬遜Alexa語音服務(wù)運用,。

  核心競爭點在于數(shù)據(jù)和計算能力

  上文提到了車載語音系統(tǒng)在未來不久能聽懂,,反饋,亦可以“預(yù)判+執(zhí)行”,。那么一個問題隨之而來,,想要做好這些,車載語音系統(tǒng)需要提升哪些核心能力?

  車云將該問題拋給了多位語音行業(yè)的專家,,各方給出的結(jié)論比較一致——前期在于自然語言處理(NLP)+自然語言理解(NLU)引擎的能力,,后期在于數(shù)據(jù)和計算能力+資源整合能力的提升。

  更具體的說,,NLP+ NLU引擎的搭建,,能夠幫助系統(tǒng)聽清并聽懂大部分的語音,但語音太過復(fù)雜,,同樣的句子甚至在不同的情景下都可以表達(dá)不同的意思,,這就需要系統(tǒng)不斷的錄入數(shù)據(jù),自學(xué)習(xí),,并擁有極強的計算能力以處理大數(shù)據(jù),。此外,就好像上文提及,,語音交互只是手段,,不是目的,交互的目的是為了機器更好地完成任務(wù),因此與亞馬遜Alexa平臺一樣,,車載語音交互平臺同樣需要整合各種為語音而生的原生服務(wù)及應(yīng)用。

  這讓車云想起阿里上汽打造榮威RX5的例子,。阿里巴巴技術(shù)委員會主席王堅曾告訴車云,,實際上YunOS操作系統(tǒng)做的最成功的事情,是作為重要的載體和介質(zhì),,把阿里云的計算能力帶上了車,,包括CPU的運算能力,還包括存儲能力,、傳感能力等等,。這是最底層的能力,也是最重要的能力,。

  a8588237d22382bab91deebad370c856.jpg

  上汽與阿里的合作從效果上看非常成功,。圖為:阿里巴巴董事局主席馬云(右)、上汽集團董事長陳虹(左)

  事實上,,王堅在車載系統(tǒng)上的思考,,和業(yè)內(nèi)現(xiàn)階段業(yè)內(nèi)在車載語音交互上的思考,異曲同工,。

  以博泰的思考為例,。7月6日,博泰與百度達(dá)成合作,,將在DuerOS開放平臺,、百度云,以及阿波羅計劃方面建立深度合作關(guān)系,。博泰集團創(chuàng)始人及董事長應(yīng)宜倫明確表示,,此次合作的一個關(guān)鍵點,就在車載語音交互層面,。

  一方面,,基于百度云的強計算能力,車載語音交互產(chǎn)品可以實現(xiàn)實時更改與聆聽,,速度提升多倍,。打個比方,如果此前是一臺計算機包辦“輸入,、理解,、輸出”工作,那么計算能力提升后,,則是三臺計算機,,一臺“輸入”,一臺“理解”,一臺“輸出”,,三臺平行處理,。

  另一方面,百度最寶貴的資源就是數(shù)據(jù),,其中一些對于出行而言有很大價值,,包括個人習(xí)慣和生活經(jīng)驗等,如果將這些數(shù)據(jù)進行結(jié)構(gòu)化,,緩存到可以被快速調(diào)用的云端區(qū)域,。假設(shè)用戶在車內(nèi)通過語音提出相關(guān)問題,則這些數(shù)據(jù)便可實時發(fā)揮價值,。這可以被定義為車載語音平臺聽清,、聽懂后,直接解決問題的能力,。

  過去常有人說,,車載語音交互技術(shù)發(fā)展將會是一個緩慢發(fā)展過程。現(xiàn)在看來,,至少這一進程比預(yù)期來得要快,。并且,隨著核心競爭點的逐步轉(zhuǎn)移,,聚焦在車載語音交互的領(lǐng)域,,大玩家之間聯(lián)盟只會越來越緊密。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。