今年是“五四運動”一百周年,,中央廣播電視總臺舉辦了主題為“我們都是追夢人”的 2019《五月的鮮花》五四晚會,,在這場晚會中,,百度大腦arget="_blank">AI虛擬主持人“小靈”在眾多高顏值主持人、演員中脫穎而出,,賺足了觀眾們的眼球。
眼前一亮美少女
在很多的印象當(dāng)中,,機器人只是十分機械的機器與數(shù)據(jù)的結(jié)合,,但是從鮮花通道中一出場的虛擬主持人“小靈”,就讓人眼前一亮,,得益于百度強大的3D建模技術(shù)和AR能力,,化身成為立體3D的美少女,與尼格買提,、王俊凱同臺競技,。
活潑靈動開口脆
“小靈”并非是第一位人工智能主持人,可相比于不討好的機器音,,“小靈”的音色顯得自然很多,,讓人聽著有一種舒適感,原因在于百度在AI語音庫的制作上花了很大的功夫,。AI語音庫制作的步驟大概是三步:第一先確定音色,、風(fēng)格、產(chǎn)品的特征,,將文本變成音頻,;第二配音員根據(jù)需求試音,收集錄音,;第三步投入生產(chǎn)線,,進行錄音效果優(yōu)化,豐富音色,。百度大腦為此準備了幾十個音庫,,找播音主持專業(yè)的學(xué)生專業(yè)錄制了各式各樣的聲音,具備非常豐富的音色矩陣,。
表情唇動顯自然
除了聲音信息外,唇動視覺同樣非常重要,。人的表情由面部肌肉和唇動共同組成,,而人在不同的場合、心情的表情千差萬別,,可能有些時候我們都不能把一些表情進行正確的分類,,但是“小靈”可以做到。百度基于“大量的面部特征數(shù)據(jù)”提供了唇動技術(shù),,百度稱之為“國內(nèi)首家三維”唇動“系數(shù)預(yù)測”,,可以做到“自動將輸入式音頻直接生成唇形動畫”。百度大腦在檢測到人臉后,,對人臉進行分析,,對眼,、耳、鼻嘴等150個關(guān)鍵點進行定位,,識別出人的年齡,、性別、表情等,,然后基于這些面部特征,,用深度學(xué)習(xí)的算法去學(xué)習(xí)歸納,學(xué)習(xí)人類的表情,,使得表情更加豐富自然,,便形成了我們看到的人工智能虛擬主持人“小靈”在晚會上能夠“真實唇動”。
過去AI虛擬人物在說話的時候嘴巴一張一合,,說話與嘴巴不匹配也讓人感到十分尷尬,。百度大腦基于大量的面部特征數(shù)據(jù),對說話人的唇動的行為特性進行了大量的研究,,通過人工智能的深度學(xué)習(xí),,完成了國內(nèi)首家“唇動”系數(shù)預(yù)測。截止到目前,,市面上只有百度可以自動將輸入式音頻直接生成唇形動畫,。
知識積累超豐富
在晚會上,“小靈”會和觀眾打趣“如果掌聲再熱烈一點,,我會有更出色的表現(xiàn)”,。還有這樣一個場景:談及自己的“第一部動畫片” ,主持人小尼想要分享《喜洋洋灰太狼》,,“小靈”卻打斷他:“小尼哥,,這是00后的童年回憶,屬于你的應(yīng)該是《黑貓警長》,、《葫蘆兄弟》,。”
“小靈”妙語連珠的口才,、極佳的場控能力,,不失為全場最精彩的地方。這個背后,,需要實時互動與理解,,更需要“知識”,而這與百度的人工智能算法和超過千億級的知識圖譜不無關(guān)系,。
百度知識圖譜依托海量的日志數(shù)據(jù),、網(wǎng)頁數(shù)據(jù)和行業(yè)數(shù)據(jù),綜合運用語義理解,、知識挖掘,、知識整合與補全等技術(shù),,提煉出高精度知識,并組織成圖譜,,進而基于知識圖譜進行理解,、推理和計算等,在此基礎(chǔ)上,,支持百度眾多產(chǎn)品,,并且拓展出廣泛的應(yīng)用場景。據(jù)悉,,知識圖譜已經(jīng)助力DuerOS(對話式人工智能系統(tǒng))實現(xiàn)10大類目超過100種能力,,為智能音箱、智能電視等各類終端產(chǎn)品帶來全面精準的人機交互問答能力,。
知識圖譜還能根據(jù)已有知識進行推理,。例如,根據(jù)“爆炸或者燃燒物質(zhì)和裝置不可以帶上飛機”,、“酒精是爆炸或者燃燒物質(zhì)”這兩個知識,,推斷酒精不可以帶上飛機,當(dāng)用戶輸入查詢之后,,將直接反饋推斷結(jié)果,。知識圖譜的加持,實現(xiàn)用戶與應(yīng)用之間更智能的交互,。
人機交互AR
在百度APP小靈AR界面上,,諸如“北大紅樓名字的由來”等五四主題內(nèi)容,“小靈”都可以對答如流,。在現(xiàn)場以及百度APP“五四青年節(jié)”搜索結(jié)果頁都能參與的“通過人臉識別來測是什么花”活動,,觀眾還可以通過百度APP掃描二維碼,讓小靈直接出現(xiàn)在觀眾的手機屏幕上,,實現(xiàn)實時互動,,這都是依托于百度AR Lab(百度增強現(xiàn)實實驗室)。百度AR在今年的開發(fā)者大會上推出了DuMix AR 3.0,,在MVP部分定義場景,,然后對內(nèi)容進行感知,根據(jù)不同要求進行呈現(xiàn),,對目標進行跟蹤,最后通過人臉表情,、肢體手勢,、語音等進行人機交互,然后運用平臺工具對素材進行制作管理,,完成上線,,最后進入商業(yè)化運營,。百度AR Lab的業(yè)務(wù)已廣泛覆蓋營銷、娛樂,、教育,、文化等各個領(lǐng)域。
不得不說,,“小靈”在晚會上機智又專業(yè)的首秀可謂圈粉無數(shù),。而這一切,都離不開百度大腦的多項AI技術(shù)的強大支撐,。截至目前,,百度大腦AI開放平臺開放了171項技術(shù)能力,涉及智能城市,、智慧教育,、無人駕駛等眾多領(lǐng)域。
說到AI開放平臺,,自然少不了騰訊,。近日,2019“AI Everything Summit”峰會在迪拜國際貿(mào)易中心召開,,騰訊集團高級執(zhí)行副總裁劉勝義代表騰訊出席峰會并發(fā)表主題演講,,提出“AI向善”的發(fā)展觀,他指出,,在人工智能的時代,,“人”更為重要,“AI向善”將幫助人類提升生活品質(zhì),,為社會發(fā)展創(chuàng)造新的可能,。騰訊持續(xù)探索將人工智能技術(shù)應(yīng)用于尋回走失人員,打造“會尋人的AI”,;在醫(yī)療健康領(lǐng)域,,騰訊致力于打造“會救命的AI”;并且投身于“AI+農(nóng)業(yè)”的應(yīng)用探索,,在食物,、能源和水資源等問題上提供創(chuàng)新解決思路。
不管應(yīng)用的領(lǐng)域如何,,各家企業(yè)都是以“人”為出發(fā)點,,從自身的基因出發(fā)尋找合適的切入點,利用AI幫助人類提升生活品質(zhì),,提出行業(yè)解決方案,。相信百度和騰訊也會大膽嘗試,探索更多可能。