《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 汽車多模態(tài)交互研究

汽車多模態(tài)交互研究

大模型及多模態(tài)融合,,推進(jìn)AI Agent上車
2023-12-11
來源:阿寶1990

-以下文章來源于佐思汽車研究 ,作者佐思汽研-

佐思汽研發(fā)布《2023年中國汽車多模態(tài)交互發(fā)展研究報告》,,主要梳理了主流座艙交互方式,、2023年上市的重點車型交互方式應(yīng)用、供應(yīng)商座艙交互方案,,以及多模交互融合趨勢,。

通過梳理最近一年新上市車型的交互方式和功能來看,主動式,、擬人化,、自然化交互成為主要方向。從交互方式來看:單一模態(tài)交互,,如觸覺、語音等主流交互的控制范圍從車內(nèi)拓展至車外,,指紋,、肌電等新型交互方式的上車案例開始增多;多模態(tài)融合交互下,,語音+頭姿/人臉/唇語,、面部+情緒/嗅覺等多種融合交互不斷上車,旨在打造更加主動,、自然的人車交互,。

【單一模態(tài)的縱深發(fā)展】

  • 觸覺交互方面:座艙大屏化,、多屏化趨勢加劇,同時智能表面材料在艙內(nèi)的擴展應(yīng)用,,讓觸覺感知范圍向車門,、車窗、座椅等部件擴展,,并逐步引入觸覺反饋技術(shù),;

  • 語音交互方面:語音交互在AI大模型的賦能下,功能愈加智能化,、情感化,。唇動識別、聲紋識別等技術(shù)的上車,,使語音交互精準(zhǔn)度得到進(jìn)一步提升,,控制范圍也從車內(nèi)拓展至車外;

  • 視覺交互方面:基于視覺技術(shù)的面部/手勢識別范圍開始逐漸向肢體識別擴展,,包括頭部姿勢,、手臂動作,以及身體行為等,;

  • 嗅覺交互方面:原主要用于凈化空氣,、祛除異味的嗅覺交互功能,現(xiàn)今可實現(xiàn)座艙殺菌消毒,、并支持香氛系統(tǒng)與座艙場景/季節(jié)時令聯(lián)動,。

案例1:語音控車實現(xiàn)車內(nèi)向車外延伸

代表車型:長安啟源A07、極越01

代表功能:車外語音開啟車門,、車窗,、輔助泊車等

  • 長安啟源A07采用科大訊飛最新XTTS 4.0 技術(shù),車載語音助手聲音更加自然擬人化,,具備高興,、抱歉、疑惑等多情感表達(dá),。支持向車外喊話(內(nèi)容可自定義),;此外,還可在車外通過語音實現(xiàn)對后備箱,、車窗,、音樂、空調(diào),、出庫/泊車等功能的控制,。

  • 極越01搭載“SIMO”語音助手,支持全域全離線語音,,無網(wǎng)弱網(wǎng)也可全程在線語音交互,;可實現(xiàn)500毫秒識別,,700毫秒內(nèi)響應(yīng)。在車外,,駕乘人員可通過聲紋識別技術(shù)實現(xiàn)語音操作空調(diào),、音響、燈光,、車窗,、車門、后尾門,、充電蓋的開啟/關(guān)閉等功能,,以及支持車外語音泊車。

屏幕截圖 2023-12-11 164923.png

案例2:聲紋識別擴大應(yīng)用

代表車型:理想L7,、合創(chuàng)A06/V09

代表功能:識別駕乘人員身份,,提供針對性服務(wù)

  • 理想L系列車型均支持聲紋識別功能。在乘客聲紋注冊后,,“理想同學(xué)”可分辨乘客是誰,,叫出不同乘客指定的昵稱,并結(jié)合聲紋記憶對不同乘客位置執(zhí)行車控,。

合創(chuàng)A06/V09的聲紋識別VOICE ID,,能清楚識別有效用戶身份以及指令,并將成為HYCAN ID的入口,,為用戶接入豐富智慧生態(tài),,使用100+款娛樂應(yīng)用。另外基于聲紋識別技術(shù),,系統(tǒng)將主動屏蔽其他干擾聲音,,提高主駕識別精準(zhǔn)度。

屏幕截圖 2023-12-11 165059.png

案例3:肌電交互實現(xiàn)車載商業(yè)化落地

代表車型:嵐圖追光

代表功能:車內(nèi)外隔空微手勢控車

  • 2023年4月,,嵐圖追光與柔靈科技推出肌電交互融合方案,。該方案主要通過肌電手環(huán)實現(xiàn)。手環(huán)內(nèi)部安裝多通道肌電傳感器和高精度的放大器,,可以實時采集豐富的肌肉電信號并生成算法,,傳導(dǎo)計算終端,從而生成個性化的AI手勢模型,,之后再和嵐圖的車載平臺整合,。使用者將手環(huán)與車內(nèi)藍(lán)牙連接,即可實現(xiàn)以微手勢控制車輛,,包括開關(guān)后備箱、升降車窗等60+種手勢動作,。此外,,手環(huán)還可以和車內(nèi)游戲系統(tǒng)無縫連接,。借助肌電手環(huán)的手勢識別,用戶可以更自然,、直觀地操控游戲角色,,如地鐵跑酷等。

屏幕截圖 2023-12-11 165340.png

屏幕截圖 2023-12-11 165433.png

【多模態(tài)融合,,打造主動交互】

目前車企已實現(xiàn)的多模態(tài)融合包括但不限于語音+唇動識別,、語音+面部識別、語音+手勢識別,、語音+頭姿,、面部+情緒識別、面部+眼球追蹤,、香氛+面部+語音識別等,。其中語音多模態(tài)交互方式為當(dāng)下主流,應(yīng)用車型包括上文提到的長安啟源A07,、極越01,、理想L7、合創(chuàng)A06/V09等車型,。

屏幕截圖 2023-12-11 165701.png

來源:佐思汽研《2023年中國汽車多模態(tài)交互發(fā)展研究報告》

案例1:語音+頭姿交互:魏牌藍(lán)山DHT PHEV將語音和頭姿進(jìn)行結(jié)合,,交互方式簡單直觀

  • 當(dāng)駕駛員進(jìn)行語音對話時,藍(lán)山座艙利用車載攝像頭捕捉駕駛員的頭部動作,,通過點頭/搖頭進(jìn)行確定/否定答復(fù),。例如語音控制導(dǎo)航時,可通過點頭/搖頭選擇路線規(guī)劃方案,。

屏幕截圖 2023-12-11 165829.png

案例2:面部+情緒識別:睿藍(lán)7,、極狐考拉等車型在面部識別功能上融入情緒識別技術(shù),提供主動交互,,增強交互體驗

  • 睿藍(lán)7的多模智識Face-ID系統(tǒng)支持唇動識別,、情緒識別,能記憶關(guān)聯(lián)賬戶對應(yīng)語音,、座椅,、后視鏡、氛圍燈,、后備箱設(shè)置等車輛功能個性化信息,,還可根據(jù)車主的“臉色”來選擇合適的音樂。

  • 極狐考拉位于B柱的攝像頭正對后排,,可實時監(jiān)控孩子狀態(tài),。例如孩子在微笑時將自動抓拍傳送至中控屏;哭鬧時將自動播放安撫音樂/智能座椅表面呼吸律動,,平復(fù)孩子情緒,。另外,,攝像頭還可與車內(nèi)毫米波雷達(dá)聯(lián)動,判斷孩子是否睡著,,睡著則自動打開睡眠模式,,開啟座椅通風(fēng),空調(diào)溫度適當(dāng)調(diào)整,,音響,、氛圍燈進(jìn)行聯(lián)動,產(chǎn)生律動效果,。

屏幕截圖 2023-12-11 170032.png

案例3:面部+嗅覺:蔚來EC7,、睿藍(lán)7等車型實將駕駛員監(jiān)控系統(tǒng)與香氛系統(tǒng)聯(lián)動,提升駕車安全性

  • 蔚來EC7監(jiān)測到駕駛員的疲勞狀態(tài)時,,將自動釋放提神醒腦的香氛,,以確保駕駛安全;

  • 睿藍(lán)7位于A柱的攝像頭監(jiān)控到駕駛員犯困時,,將自動釋放提神香氛,,并進(jìn)行語音提醒。

【大模型及多模態(tài)融合,,將推進(jìn)AI Agent上車】

AI大模型正從單模態(tài)走向多模態(tài),、多任務(wù)融合的趨勢。相較于單模態(tài)只能處理一種類型的數(shù)據(jù),,例如文本,、圖像、語音等,,多模態(tài)則可以處理和理解多種類型的數(shù)據(jù),,包括視覺、聽覺,、語言等,,從而能夠更好地理解和生成復(fù)雜的信息。
隨著多模態(tài)大模型的持續(xù)發(fā)展,,其能力也將得到顯著提升,。這種提升賦予AI Agent(人工智能體)更強大的感知和環(huán)境理解能力,以實現(xiàn)更智能,、自主的決策和行動,。同時也為汽車領(lǐng)域的應(yīng)用開拓了新的可能性,為未來的智能化發(fā)展提供了更廣闊的前景,。

屏幕截圖 2023-12-11 170348.png

  • 科大訊飛基于星火大模型開發(fā)的星火座艙OS,,支持語音、手勢、人眼追蹤,、DMS/OMS等多種交互模態(tài),,星火汽車助理通過深度上下文理解實現(xiàn)多意圖識別,提供更加自然的人機交互,。訊飛星火大模型首搭車型星途星紀(jì)元ES,將帶來五大全新的體驗:車輛功能導(dǎo)師,、冷暖共情伙伴,、知識百科全書、旅行規(guī)劃專家,、身體健康顧問,。

屏幕截圖 2023-12-11 170606.png

  • 將于2023年12月上市的AITO問界M9內(nèi)置HarmonyOS 4車機系統(tǒng)。鴻蒙4中智慧助手小藝已經(jīng)接入了盤古大模型,。華為盤古大模型,,包括自然語言大模型、視覺大模型,、多模態(tài)大模型等,。鴻蒙4+小藝+盤古大模型,設(shè)備協(xié)同,、AI場景等生態(tài)能力將再度增強,,借助多模態(tài)交互技術(shù),提供多樣化的交互方式,,包括語音識別,、手勢控制、觸摸屏操作等,。

屏幕截圖 2023-12-11 170637.png

電子技術(shù)應(yīng)用微店二維碼.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]