現(xiàn)在在汽車行駛過程中,通過喚醒車載語音助手實現(xiàn)導航,、播放音樂,、開關(guān)車窗等這些的簡單操作對用戶已經(jīng)沒有多少吸引力了。
或許是受到智能音箱,、手機,、機器人的語音交互功能帶來的人性化、趣味性體驗的影響,,又或是在自動駕駛,、智能汽車風潮的大力推動下,用戶從最初對車載語音只要求能聽到聽懂就好變成希望它能夠像真正的人工智能助手一樣,,不只是一問一答的簡單人機對話,,而是真正傾聽他們的需求,給與情感上的反饋,。
這樣的要求好像對于現(xiàn)在發(fā)展還不夠健全的車載語音交互來說,,有點困難。當我們暫且拋開車載語音交互,,單純談?wù)撜Z音交互的應用,,會發(fā)現(xiàn)它其實已經(jīng)在其他的場景中得到了較為成熟的應用。
比如智能家居就是一個很明顯的例子,,諸如國外的谷歌,、亞馬遜、蘋果,,國內(nèi)的百度,、小米等公司他們都可以使用旗下的智能音箱或是在手機端下載APP來實現(xiàn)對家居、電器下達語音指令實現(xiàn)語音控制,。
一般討論的語音交互包括三個模塊,,語音識別ASR(將聲音轉(zhuǎn)化為文字)、自然語言處理NLP(機器理解人類表達的意思,,并給與反饋)和語音合成TTS(將文字轉(zhuǎn)化為聲音),。
語音識別對于國內(nèi)外具有一定技術(shù)研發(fā)實力和積累的公司已經(jīng)不是一個緊迫的問題,真正現(xiàn)在困擾供應商和用戶的是自然語言處理部分,,即語義理解,,不僅是識別到用戶的語音指令,更重要的是理解用戶指令的含義,。
比如對Siri說,,今天下午五點幫我預約XX餐廳,這句話識別起來比較容易,,但Siri卻無法理解該句話表達的意思,,因為它含有語義上的歧義。語音交互其實最終也是消解歧義和模糊的表達,,來達到理解對話目的和用途,。
智能化和情感化的車載語音
車載語音也遵循同樣的原理,,只是發(fā)展困境顯然比其他類型終端的語音交互艱難得多。汽車無人駕駛級別的不斷遞推,,也是車載語音交互持續(xù)進化的一個過程,,它們是一個相輔相成的關(guān)系。
2000年寶馬推出了第一款具有語音識別的汽車,,當時這款汽車語音識別能力非常有限,,根本無法滿足用戶車內(nèi)的交互需求,之后隨著人工智能,、AI,、大數(shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,,車載語音也實現(xiàn)了一次華麗的蛻變,。
今年9月份,外媒報道,,新梅賽德斯-奔馳A級車的車載語音角將很快可以實現(xiàn)駕駛員與汽車的深度融合,,利用本地數(shù)據(jù)和云端數(shù)據(jù)解鎖更多豐富的場景和功能。例如,,當用戶餓了,,可以向語音助手尋求有關(guān)餐廳的建議,包括食物種類,、餐廳風格等個性化需求,。
這其實才是用戶對車載語音真正的期待——向智能和情感方向的演進。在這方面科幻電影倒是發(fā)揮的淋漓盡致,,在電影《Her》中,,主人公西奧多愛上了人工智能系統(tǒng)OS1的化身薩曼莎,薩曼莎是基于深度學習算法而形成的,,雖然是個虛擬的女友,,但她對人類情感的洞察卻絲毫不亞于真實的人類,不僅可以精確地捕捉到主人公語言表達的意圖,,還能分析出當時的情緒狀態(tài)和變化,。
對車載語音來說這種智能和情感是如何體現(xiàn)的呢?
試想一個場景:在下班開車過程中,,對車載語音助手說一句,,“XX,下班了來首音樂”,,基于對下班這個詞的語義理解,,它推測出用戶現(xiàn)在需要的是舒緩、安神類的歌曲,,而不用再次詢問用戶,,播放什么歌曲,。減少了無意義的對話,增加了交互和溝通的效率,。
語音交互是車載人機交互的主入口
人機交互的本質(zhì)是人與機器的交流,而交流必定是雙方之間有互動有反饋,,人對機器發(fā)出指令,,機器也要能在極快的時間內(nèi)做出回應,這才稱得上是優(yōu)質(zhì)的人機交互體驗,。從物理按鍵,、觸控、語音交互,、手勢控制,,車內(nèi)交互方式的更迭與共存是一個體驗升級的過程。
車載語音能夠不斷的進化變得越來越懂用戶,,這與它自身具有優(yōu)勢條件密不可分,。車內(nèi)的交互大部分時間都處于汽車行駛狀態(tài)下,安全駕駛成為交互的首要考慮選項,,這也是為什么在中控屏幕上采用觸控而被大家吐槽,。
因為觸控意味著用戶需要頻繁低頭看屏幕來確認自己的操作是否正確,畢竟在中控屏上實現(xiàn)盲操作還是一件挺困難的事情,。雖然對于部分經(jīng)驗豐富的老司機來說,,使用物理按鍵能夠?qū)崿F(xiàn)部分功能的盲操作,但絕大多數(shù)的普通司機并沒有掌握這一項技能,。
與之相對比,,語音控制就成為了車內(nèi)交互的首選方案。它只需要用戶發(fā)出語音指令就可以完成相關(guān)操作,,不用低頭,、不用動手,全程確保駕駛員的注意力集中在駕駛上,。
此外,,語音交互增加了用戶與汽車之間的互動,并且這一互動是具有趣味性和新鮮感的,,它能夠用更加人性化的方式給予用戶反饋,,而不是冰冷的機械觸感。這也契合了近年來智能座艙的內(nèi)涵,,讓汽車從出行工具轉(zhuǎn)變?yōu)橹悄艿纳钇脚_,。
現(xiàn)階段已經(jīng)有很多科技公司在語音交互上取得了新的突破,在2018年Google I/O 大會上,,展示了谷歌的語音助手Google Assistant是如何模仿人類與電話另一端的人工客服人員進行問答交流,。
有意思的是,,語音助手在流暢的表達了自己的意圖后,還模仿人類的口語,,發(fā)出了enmm這種表示停頓的語氣,,當人工客服在回答“稍等,我查詢一下”之后,,谷歌語音助手試圖去理解這句話的含義,,發(fā)出了表示疑問的嗯哼。
盡管這種“高仿人類”的人機對話還無法進行商業(yè)落地,,但它清晰地向外界傳輸了一個信號——未來的語音交互應該具備什么樣的能力,。
另一大語音科技巨頭亞馬遜旗下在今年9月發(fā)布了車載語音產(chǎn)品Echo Auto,將旗下的語音助手Alexa整合到汽車中,,拓展出行使用場景,,為駕駛員提供更加自然、流暢的語音交互體驗,。
Echo Auto不僅可以播放音樂,、查看新聞、打電話,、設(shè)提醒,、管理日歷等常規(guī)操作,還能夠與智能家居相連接,,行駛過程中可以命令Alexa關(guān)閉家中的電器或是關(guān)閉車庫大門等,。
不管是技術(shù)發(fā)展的趨勢,還是用戶的需求導向,,可以肯定的是,,未來的車載語音交互必定是在人工智能浪潮的推動下朝向更智能、更人性的方向邁進,。