麻省理工學院計算機科學與人工智能實驗室的研究人員稱,,可以通過觸摸學習視覺的機器人觸手可及,。
在將于下周在加州長灘舉行的計算機視覺和模式識別會議上發(fā)表的一篇論文中,,他們描述了一個人工智能系統(tǒng),該系統(tǒng)能夠根據(jù)觸覺信號生成物體的視覺表征,,并從視覺數(shù)據(jù)片段預測觸覺,。
“通過觀察場景,我們的模型可以想象觸摸平面或鋒利邊緣的感覺,,”該研究的主要作者,、CSAIL博士生李云柱(音譯)說。他與麻省理工學院教授拉斯·特德雷克(Russ Tedrake),、安東尼奧·托拉爾巴(Antonio Torralba)以及麻省理工學院博士后朱俊彥(Jun-Yan Zhu)共同撰寫了這篇論文,。“通過觸摸周圍,,我們的(人工智能)模型可以純粹從觸覺來預測與環(huán)境的互動,。把這兩種感覺結(jié)合起來,可以增強機器人的能力,,減少我們在操作和抓取物體時可能需要的數(shù)據(jù),。”
該團隊的系統(tǒng)使用了GANs——由生成樣本的生成器和試圖區(qū)分生成的樣本和真實樣本的識別器組成的兩部分神經(jīng)網(wǎng)絡(luò)來基于觸覺數(shù)據(jù)拼湊視覺圖像,。他們從 VisGel獲取樣本數(shù)據(jù),,該數(shù)據(jù)庫包含300多萬對視覺/觸覺數(shù)據(jù)對,其中包括近200個物體(如工具、織物和家用產(chǎn)品)的1.2萬個視頻剪輯,。它推斷出接觸位置的形狀和材質(zhì),,并回頭看參考圖像來“想象”相互作用。
例如,,給定鞋子的觸覺數(shù)據(jù),,該模型可以確定鞋子最可能被觸碰的位置。
參考圖像有助于對對象和環(huán)境的細節(jié)進行編碼,,使機器學習模型能夠自我改進,。它被安裝在一個Kuka機器人手臂上,帶有一個觸覺GelSight傳感器(由麻省理工學院的另一個團隊設(shè)計),,它將當前幀與參考圖像進行比較,,以確定觸摸的位置和規(guī)模。
研究人員指出,,目前的數(shù)據(jù)集只有在受控環(huán)境中進行交互的例子,,他們說,一些細節(jié),,比如物體的顏色和柔軟度,仍然很難讓系統(tǒng)推斷出來,。不過,,他們說,他們的方法可以為在制造環(huán)境中實現(xiàn)更無縫的人機一體化奠定基礎(chǔ),,特別是在缺少視覺數(shù)據(jù)的任務(wù)中,,比如關(guān)燈或工人盲目地把手伸進容器時。
“這是第一種能夠令人信服地在視覺和觸覺信號之間進行轉(zhuǎn)換的方法,,”加州大學伯克利分校(University of California at Berkeley)博士后研究員安德魯?歐文斯(Andrew Owens)表示,。“當有諸如‘這個物體是硬的還是軟的?’或者‘如果我提起這個杯子的把手,,我的握力會有多少?’這些問題時,,像這樣的方法有可能對機器人非常有用,這是一個非常具有挑戰(zhàn)性的問題,,因為信號是如此不同,,而這個模型已經(jīng)顯示出了巨大的能力?!?/p>