教人工智能以“我”的視角看世界-AET-電子技術應用

教人工智能以“我”的視角看世界

日期： 2021-11-02

來源：中國新聞網(wǎng)

關鍵詞： 人工智能 Facebook AR 傳感器

要令arget="_blank">人工智能系統(tǒng)如同人類一樣與世界交互，人工智能領域需要發(fā)展出一種全新的第一人稱感知范式。這意味著人工智能在實時運動、交互時，要以第一人稱視角理解日常活動。

　　世界是多維的，生活中同樣的景物在不同的視角下會呈現(xiàn)出不同的形態(tài)。若要讓人工智能更像人類，就要讓其視角更接近人。從人類的角度觀察環(huán)境，人工智能或許會看到一個新的天地。

　　近日，由臉譜（Facebook）和9個國家的13所大學及實驗室組成的學術聯(lián)盟宣布，11月將開源讓人工智能擁有以第一人稱視角與世界進行交互能力的Ego4D(Egocentric 4D Perception)項目。這個項目包含超過3025小時的第一人稱視頻，涉及來自73個城市的700多名參與者的日常生活。這些視頻將有助于使人工智能認知世界的方式更加趨向于人類。

　　那么，目前人工智能主要通過哪種視角認知世界，不同視角對于人工智能認知環(huán)境會產生哪些影響？人工智能感知環(huán)境、認識世界主要通過哪些技術？想要認知世界的方式更像人類，人工智能還需突破哪些瓶頸？

　　人工智能通常采用第三人稱視角

　　“要令人工智能系統(tǒng)如同人類一樣與世界交互，人工智能領域需要發(fā)展出一種全新的第一人稱感知范式。這意味著人工智能在實時運動、交互時，要以第一人稱視角理解日常活動。”臉譜首席研究科學家克里斯汀·格勞曼曾言。

　　今天的計算機視覺系統(tǒng)大多是利用數(shù)百萬張以第三人稱視角拍攝的照片和視頻進行學習的。“為了構建新的感知范式，我們需要教會人工智能像人類一樣，從第一人稱角度即‘我’的視角，沉浸式觀察理解世界，并與之交互，這種認知方式也可以稱為自我中心認知。”10月26日，遠望智庫人工智能事業(yè)部部長、圖靈機器人首席戰(zhàn)略官譚茗洲在接受科技日報記者采訪時指出。

　　如何理解人工智能的第一人稱和第三人稱視角？譚茗洲解釋道：“第一人稱視角代入感很強，比如在玩游戲時，你如身臨其境，看到的游戲畫面就是你真實世界看到的畫面。第三人稱視角又叫作上帝視角，仿佛你一直飄在角色身邊一樣，如影隨形，可以看到角色本身及周圍的情況。例如，第三人稱視角下藏在掩體后可以看到掩體前面的情況；而在第一人稱視角下，囿于視角范圍，在掩體后則只能看到掩體本身。”

　　“再如自動駕駛，其視覺系統(tǒng)如果只從旁觀者的（如車的角度）收集數(shù)據(jù)，即便通過數(shù)十萬個基于旁觀視角看到的車輛行進圖像或視頻進行訓練，人工智能可能依然不知道如何去做，很難達到現(xiàn)在的自動駕駛水平。因為這種旁觀者的視角與坐在車內方向盤前的視角很不一樣，第一人稱視角下，真人駕駛員做出的反應還包括點剎、猛剎等行為，這些數(shù)據(jù)是從旁觀者視角無法搜集的。”譚茗洲進一步說。

　　“以前人工智能界很少以第一人稱視角收集數(shù)據(jù)集，這個項目彌補了人工智能視角體系的短板。未來AR、VR的發(fā)展十分重要，如果人工智能可以從‘我’出發(fā)，以第一人稱視角來觀察理解世界，將開啟人類和人工智能沉浸式體驗的新時代。”譚茗洲指出。

　　克里斯汀·格勞曼也表示：“下一代人工智能系統(tǒng)需要從一種完全不同的數(shù)據(jù)中學習，即從事件中心視覺而不是邊線視覺展示世界的視頻中學習。”

　　建立真實世界數(shù)據(jù)集

　　目前讓人工智能感知環(huán)境、認識世界，建立類人化的認知體系主要通過什么“抓手”展開？

　　業(yè)內專家指出，歷史證明，基準和數(shù)據(jù)集是人工智能行業(yè)創(chuàng)新的關鍵催化劑。今天，幾乎可以識別圖像中任何對象的計算機視覺系統(tǒng)都是建立在數(shù)據(jù)集和基準之上的，數(shù)據(jù)集和基準為研究人員提供了一個研究真實世界圖像的實驗臺。

　　“臉譜日前發(fā)布的這個項目，其實本身就是建立一個數(shù)據(jù)集，旨在訓練人工智能模型更像人類。其開發(fā)了5個圍繞第一人稱視覺體驗的基準挑戰(zhàn)，即把第一人稱視角拆解成5個目標，開展相應的訓練集競賽。”譚茗洲指出。

　　Ego4D的5個基準是：情景記憶，什么時候發(fā)生？預測，我接下來可能會做什么？手—物交互，我在做什么？視聽日記，誰在什么時候說了什么？社交互動，誰在和誰互動？

　　譚茗洲強調，上述基準測試將促進開發(fā)人工智能助手所必需的構建模塊的研究。人工智能助手不僅可以理解現(xiàn)實世界中的指令并與之交互，同時可以在元宇宙中實現(xiàn)對元宇宙中指令的理解和交互。

　　為了建立這個數(shù)據(jù)集，與臉譜合作的大學團隊向研究參與者分發(fā)了現(xiàn)成的頭戴式攝像頭和其他可穿戴傳感器，以便捕獲第一人稱的、未經(jīng)編輯的日常生活視頻。項目的重點是參與者從日常場景中捕獲視頻，比如購物、烹飪、邊玩游戲邊聊天，以及與家人和朋友進行其他團體活動等。

　　視頻采集了攝像頭佩戴者在特定環(huán)境中選擇注視的對象，以及攝像頭佩戴者如何從自我中心角度與人和物互動。到目前為止，攝像頭佩戴者已經(jīng)執(zhí)行了數(shù)百項活動，并與數(shù)百種不同的對象進行交互，項目的所有數(shù)據(jù)都是公開的。

　　“臉譜這項研究能夠更快地推動人工智能領域自我中心認知研究的進步。這將對我們未來的生活、工作和娛樂方式產生積極影響。”譚茗洲表示。

　　讓人工智能認知能力更像人

　　人工智能發(fā)展的終極目標是讓人類受益，讓我們能夠應對現(xiàn)實世界中日益復雜的挑戰(zhàn)。想象一下，通過AR設備能夠在琴、棋、書、畫課堂中準確顯示如何彈琴、下棋、握筆和勾勒；形象生動地指導家庭主婦根據(jù)食譜烘焙燒烤、烹飪菜肴；健忘的老人借以眼前全息圖的幫助回憶過去……

　　臉譜強調，希望通過Ego4D項目為學術界和行業(yè)專家開辟一條全新的道路，幫助構建更智能、更靈活和更具交互性的計算機視覺系統(tǒng)。隨著人工智能越加深入理解人類的日常生活方式，相信將這個項目能以前所未有的方式對人工智能的體驗進行情境化和個性化。然而，目前的研究還只是觸及自我中心認知的皮毛。

　　如何才能讓人工智能的認知能力更像人類？“首先是注意力，人工智能的注意力機制更接近直覺，而人類的注意力是有選擇性的。目前來說，大部分人工智能注意力機制，是在訓練過程中重復告訴人工智能應該注意哪些地方，哪些東西是有關聯(lián)的。未來也許可以讓參與試驗的人戴上特殊的可以捕捉眼球關注點的裝置，來進一步收集相關數(shù)據(jù)。”譚茗洲指出。

　　“第二，還需要以事件和行為的關聯(lián)為研究中心，定義人工智能的行為。一件事情的發(fā)生包括多個行為，要用人類反饋的方式訓練人工智能系統(tǒng)，使人工智能的行為與我們的意圖一致。”譚茗洲進一步表示。

　　譚茗洲強調：“此外，聽覺和視覺、語言和行為等之間還需要配合、響應、聯(lián)動，這就要構建多模態(tài)交互模型，縱深研究視角為何會聚焦投向并與意圖識別相結合，形成與行為之間聯(lián)動的機制等。”

最后文章空三行圖片.jpg

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

教人工智能以“我”的視角看世界

日期： 2021-11-02

來源：中國新聞網(wǎng)

相關內容