語音平臺有機會成為物聯(lián)網(wǎng)時代下新的“操作系統(tǒng)”,,連接全新的產(chǎn)業(yè)生態(tài),。
越來越多的人開始確信,,語音的徹底主流化已經(jīng)不是一個需要討論的問題,,只是一個時間和習(xí)慣轉(zhuǎn)移的問題,。
語音交互的價值,,在過去幾年的發(fā)展中,,逐步走出單純“控制方式”的狹隘理解,,并成為業(yè)內(nèi)人眼中的“新入口”,有機會 連接全新的產(chǎn)業(yè)生態(tài),。
作為被連接的核心硬件之一,,汽車領(lǐng)域語音交互平臺的爭奪戰(zhàn)也已進入白熱化狀態(tài)。車載環(huán)境,,極有可能優(yōu)先成為用戶固化語音交互操作習(xí)慣最典型場景,。
競爭仍在繼續(xù),。然而,隨著核心技術(shù)的產(chǎn)業(yè)環(huán)境的推進,,關(guān)于車載語音交互平臺的競爭,,已經(jīng)從自然語言處理(NLP)+自然語言理解(NLU)引擎能力的競爭,衍生向數(shù)據(jù)和計算能力+資源整合能力的下一步競爭,。
在這個過程中,,誰將勝出?
語音平臺有望成為“新操作系統(tǒng)”
2014年11月6日,亞馬遜第一款智能音箱Echo在官網(wǎng)悄然上線,。借助產(chǎn)品本身的軟硬件實力,,智能家居配套設(shè)備的逐漸成熟,以及開發(fā)者針對Alexa平臺開發(fā)的數(shù)千種服務(wù),,Echo短期內(nèi)名聲大噪,,在不到兩年的時間內(nèi)實現(xiàn)了超過千萬臺的銷量。
今年6月,,蘋果開發(fā)者大會期間,,蘋果公司CEO蒂姆·庫克正式揭開了HomePod的面紗,這款姍姍來遲的語音智能音箱,,承載了蘋果對抗亞馬遜Echo的期望,。
蒂姆·庫克很清楚,表面看起來一場智能音箱“卡位戰(zhàn)”的背后有著更深層的競爭:在人工智能(AI)迅速發(fā)展的大背景下,,語音平臺有機會成為物聯(lián)網(wǎng)時代下新的“操作系統(tǒng)”,,連接全新的產(chǎn)業(yè)生態(tài),包括各類服務(wù)應(yīng)用,、各類硬件,。
各類硬件中,除了智能家居設(shè)備外,,汽車產(chǎn)品對語音平臺的需求最顯而易見。并且,,由于目前用戶所習(xí)慣的點擊,、滑動等觸摸型交互方式在車載環(huán)境下存在潛在安全隱患且并不完全好用,因此語音這一天然適應(yīng)車載環(huán)境的交互方式,,成為車內(nèi)固定操作習(xí)慣的可能性非常之大,。
目前,包括美國語音技術(shù)巨頭Nuance,、國內(nèi)相關(guān)公司科大訊飛,、云之聲、思必馳,、出門問問等等,,均在車載語音交互領(lǐng)域進行探索和布局,。例如,在去年阿里上汽的首款產(chǎn)品榮威RX5上,,Nuance的車載語音交互系統(tǒng)得到搭載,、科大訊飛與奇瑞自2015年起始終在密切合作、出門問問與大眾汽車集團(中國)成立合資公司,。一時間,,車載語音交互站上了時代的風(fēng)口。
亞馬遜第一款智能音箱Echo
車聯(lián)網(wǎng)支撐車載語音交互發(fā)展
事實上,,車載語音交互的發(fā)展,,與車聯(lián)網(wǎng)近些年的快速發(fā)展密不可分。
在業(yè)內(nèi)常用的定義中,,中國車聯(lián)網(wǎng)如今走過了三個典型發(fā)展歷程:
第一階段:以最初的Onstar,、Gbook為代表,核心是圍繞呼叫心中的導(dǎo)航等功能,。
第二階段:前裝+后裝的“亂戰(zhàn)階段”,,前裝淺嘗輒止,后裝見縫插針,,一時間車聯(lián)網(wǎng)概念開始廣泛傳播,,但真正好用的產(chǎn)品不多。
第三階段:以阿里上汽合資為代表,,車廠合資模式下的資源產(chǎn)品深度開發(fā)和資源強強整合,,開始在實際使用層面落地一些好用的前裝車聯(lián)網(wǎng)產(chǎn)品和服務(wù)。
對應(yīng)來看,,車載語音交互也經(jīng)歷過三個發(fā)展階段,,如果用體驗層面的關(guān)鍵詞來描述:
第一階段好像“吐字”:例如當(dāng)時出租車報價器中一個字一個字的播報,是固定程序的單向輸出,,并不是真正意義上的車在語音交互,。
第二階段在于“識別”:用戶在這一階段可以進行語音輸入,但總被一件事情困擾,,系統(tǒng)常?!奥牪惶濉⒙牪惶?。
第三階段則是“可用”:語音系統(tǒng)開始聽得清也聽得懂,,并且用戶能夠通過該系統(tǒng)體驗一些服務(wù)。
不難看出,,車載語音交互目前的發(fā)展階段與車聯(lián)網(wǎng)整體的發(fā)展階段處于平行位置,,位于起步初期,從“可用”到“好用”的過程中,。值得注意的是,,和以往任何時間節(jié)點都不同,,隨著人工智能相關(guān)技術(shù)的迅速發(fā)展、產(chǎn)業(yè)鏈資源的整合意愿增強,、用戶行為習(xí)慣的逐步養(yǎng)成,,車載語音交互體驗正在進入提升快車道。
量產(chǎn)車搭載語音交互產(chǎn)品的比例逐年提升
優(yōu)質(zhì)車載語音交互體驗是怎樣的?
云之聲CEO黃偉曾和車云談起蘋果Siri,,過去大家都把Siri想象語音助理,,助理應(yīng)該什么都會做,什么都能做,,但實際上它做的并不好,,“希望用一個相對來說有限的人工智能解決非常開放的需求,這本身很難做到”,。
但是,,隨著時間的推移和技術(shù)的發(fā)展,用戶在車內(nèi)這一“相對比較封閉的開放環(huán)境中的開放需求”,,將很快被滿足,。在研發(fā)層面,各方考慮的早已不是如何讓系統(tǒng)更清晰的識別用戶的語音指令,,而是如何更好的接受指令,、更細(xì)的理解指令、更快的做出反饋,。
更重要的是,,越來越多的相關(guān)開發(fā)者意識到,語音只是工具,,需要連接相應(yīng)的服務(wù)和應(yīng)用,。這些服務(wù)和應(yīng)用為語音而生,目的不是推給用戶一堆信息,,讓用戶自己尋找答案,,而是直接幫助用戶把事情辦成。
車內(nèi)語音系統(tǒng),,正在成為一位真正的“助理”,。一些實際的成果也正在落地。
去年底,,科大訊飛發(fā)布智能車機系統(tǒng)——飛魚助理。該系統(tǒng)搭載的語音交互支持多輪對話和中途打斷,,不用多次喚醒就能調(diào)用導(dǎo)航,、音樂、撥打電話等功能,??拼笥嶏w智能汽車事業(yè)部負(fù)責(zé)人劉俊峰向車云展示了兩個場景,。
場景一、聯(lián)系上下文對話,。
用戶:“我想聽甜蜜蜜”
系統(tǒng):請欣賞鄧麗君演唱的《甜蜜蜜》
用戶:“試一試鹿晗唱的”
系統(tǒng):請欣賞鹿晗演唱的《甜蜜蜜》
用戶:“我想聽他和陶喆合唱的”
系統(tǒng):“請欣賞鹿晗陶喆的合唱歌曲《請到長城來滑雪》”
場景二,、語音糾錯和隨時打斷。
用戶:打電話給黃老師
系統(tǒng):好的,,即將為您接通……(數(shù)秒等待后接通“訊飛黃老師”)
用戶:(打斷)不對,,是黃昕黃老師
系統(tǒng):好的,即將為您接通黃昕(數(shù)秒等待后接通“黃昕”)
用戶:確定
在車云看來,,上述場景相比現(xiàn)有車載語音產(chǎn)品而言,,主要優(yōu)化點在于“接收信息+反饋信息”層面,這屬于產(chǎn)品優(yōu)化的第一層,。
在進一步的發(fā)展中,,隨著基礎(chǔ)能力的提升,服務(wù)的整合能力將成為關(guān)鍵能力,,車載語音系統(tǒng)不僅可以聽懂,、反饋,更可以“預(yù)判+執(zhí)行”,。 語音交互只是手段,,不是目的,交互的目的是為了讓機器更好地完成任務(wù),。
目前,,在博泰集團最新一代的車機產(chǎn)品中,基于周邊服務(wù)的整合,,語音系統(tǒng)已經(jīng)可以開始預(yù)判用戶的需求,,并幫助用戶實現(xiàn)需求。具體而言,,例如用戶語音搜索目的地電影院,,那么系統(tǒng)除了快速彈出電影院推薦、結(jié)合導(dǎo)航時間進行場次推薦外,,還能直接幫助訂票,、選位。
再以一個場景舉例:
用戶:“幫我找個新街口附近看電影的地方”
系統(tǒng):“為你找到如下影院……請問要選哪一個?”
用戶:“萬達(dá)那個”
系統(tǒng):“即將導(dǎo)航至南京萬達(dá)國際電影院……為你推薦近期的高分影片,,《戰(zhàn)狼2》9.5分,,萬達(dá)國際電影院最近的場次17:10開始,票價35元,,根據(jù)當(dāng)前路況正好可以趕到,,是否需要提前訂票選座?”
用戶:“好的,我要最后一排中間的2個位置”
系統(tǒng):“該場次最后一排中間區(qū)域已滿,,更換為倒數(shù)第二排中間2個位置可以嗎?”
用戶:“也行”
系統(tǒng):“支付成功,,萬達(dá)國際電影院4號廳9排6號與7號,,訂票信息與取票二維碼已發(fā)送至手機,到達(dá)影院后可以用二維碼在自動取票機上快速取票,,祝你觀影愉快”
這當(dāng)然還不是全部,。當(dāng)語音系統(tǒng)與汽車本身結(jié)合更緊密時,還會帶來其他層面的想象力,。例如用戶直接通過語音控制車輛,,設(shè)定車內(nèi)空調(diào)的溫度、開關(guān)天窗,、啟動汽車,、開關(guān)車門等等。當(dāng)然,,這需要車企層面更高的開放度,。目前,大眾,、福特,、現(xiàn)代、寶馬等公司均已不同深度的嘗試引用亞馬遜Alexa語音服務(wù)運用,。
核心競爭點在于數(shù)據(jù)和計算能力
上文提到了車載語音系統(tǒng)在未來不久能聽懂,,反饋,亦可以“預(yù)判+執(zhí)行”,。那么一個問題隨之而來,,想要做好這些,車載語音系統(tǒng)需要提升哪些核心能力?
車云將該問題拋給了多位語音行業(yè)的專家,,各方給出的結(jié)論比較一致——前期在于自然語言處理(NLP)+自然語言理解(NLU)引擎的能力,,后期在于數(shù)據(jù)和計算能力+資源整合能力的提升。
更具體的說,,NLP+ NLU引擎的搭建,,能夠幫助系統(tǒng)聽清并聽懂大部分的語音,但語音太過復(fù)雜,,同樣的句子甚至在不同的情景下都可以表達(dá)不同的意思,,這就需要系統(tǒng)不斷的錄入數(shù)據(jù),自學(xué)習(xí),,并擁有極強的計算能力以處理大數(shù)據(jù),。此外,就好像上文提及,,語音交互只是手段,,不是目的,交互的目的是為了機器更好地完成任務(wù),因此與亞馬遜Alexa平臺一樣,,車載語音交互平臺同樣需要整合各種為語音而生的原生服務(wù)及應(yīng)用。
這讓車云想起阿里上汽打造榮威RX5的例子,。阿里巴巴技術(shù)委員會主席王堅曾告訴車云,,實際上YunOS操作系統(tǒng)做的最成功的事情,是作為重要的載體和介質(zhì),,把阿里云的計算能力帶上了車,,包括CPU的運算能力,還包括存儲能力,、傳感能力等等,。這是最底層的能力,也是最重要的能力,。
上汽與阿里的合作從效果上看非常成功,。圖為:阿里巴巴董事局主席馬云(右)、上汽集團董事長陳虹(左)
事實上,,王堅在車載系統(tǒng)上的思考,,和業(yè)內(nèi)現(xiàn)階段業(yè)內(nèi)在車載語音交互上的思考,異曲同工,。
以博泰的思考為例,。7月6日,博泰與百度達(dá)成合作,,將在DuerOS開放平臺,、百度云,以及阿波羅計劃方面建立深度合作關(guān)系,。博泰集團創(chuàng)始人及董事長應(yīng)宜倫明確表示,,此次合作的一個關(guān)鍵點,就在車載語音交互層面,。
一方面,,基于百度云的強計算能力,車載語音交互產(chǎn)品可以實現(xiàn)實時更改與聆聽,,速度提升多倍,。打個比方,如果此前是一臺計算機包辦“輸入,、理解,、輸出”工作,那么計算能力提升后,,則是三臺計算機,,一臺“輸入”,一臺“理解”,一臺“輸出”,,三臺平行處理,。
另一方面,百度最寶貴的資源就是數(shù)據(jù),,其中一些對于出行而言有很大價值,,包括個人習(xí)慣和生活經(jīng)驗等,如果將這些數(shù)據(jù)進行結(jié)構(gòu)化,,緩存到可以被快速調(diào)用的云端區(qū)域,。假設(shè)用戶在車內(nèi)通過語音提出相關(guān)問題,則這些數(shù)據(jù)便可實時發(fā)揮價值,。這可以被定義為車載語音平臺聽清,、聽懂后,直接解決問題的能力,。
過去常有人說,,車載語音交互技術(shù)發(fā)展將會是一個緩慢發(fā)展過程。現(xiàn)在看來,,至少這一進程比預(yù)期來得要快,。并且,隨著核心競爭點的逐步轉(zhuǎn)移,,聚焦在車載語音交互的領(lǐng)域,,大玩家之間聯(lián)盟只會越來越緊密。