麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員稱,,可以通過(guò)觸摸學(xué)習(xí)視覺(jué)的機(jī)器人觸手可及,。
在將于下周在加州長(zhǎng)灘舉行的計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議上發(fā)表的一篇論文中,他們描述了一個(gè)人工智能系統(tǒng),,該系統(tǒng)能夠根據(jù)觸覺(jué)信號(hào)生成物體的視覺(jué)表征,,并從視覺(jué)數(shù)據(jù)片段預(yù)測(cè)觸覺(jué)。
“通過(guò)觀察場(chǎng)景,,我們的模型可以想象觸摸平面或鋒利邊緣的感覺(jué),,”該研究的主要作者、CSAIL博士生李云柱(音譯)說(shuō),。他與麻省理工學(xué)院教授拉斯·特德雷克(Russ Tedrake),、安東尼奧·托拉爾巴(Antonio Torralba)以及麻省理工學(xué)院博士后朱俊彥(Jun-Yan Zhu)共同撰寫了這篇論文?!巴ㄟ^(guò)觸摸周圍,,我們的(人工智能)模型可以純粹從觸覺(jué)來(lái)預(yù)測(cè)與環(huán)境的互動(dòng)。把這兩種感覺(jué)結(jié)合起來(lái),,可以增強(qiáng)機(jī)器人的能力,,減少我們?cè)诓僮骱妥ト∥矬w時(shí)可能需要的數(shù)據(jù)?!?/p>
該團(tuán)隊(duì)的系統(tǒng)使用了GANs——由生成樣本的生成器和試圖區(qū)分生成的樣本和真實(shí)樣本的識(shí)別器組成的兩部分神經(jīng)網(wǎng)絡(luò)來(lái)基于觸覺(jué)數(shù)據(jù)拼湊視覺(jué)圖像。他們從 VisGel獲取樣本數(shù)據(jù),,該數(shù)據(jù)庫(kù)包含300多萬(wàn)對(duì)視覺(jué)/觸覺(jué)數(shù)據(jù)對(duì),,其中包括近200個(gè)物體(如工具、織物和家用產(chǎn)品)的1.2萬(wàn)個(gè)視頻剪輯,。它推斷出接觸位置的形狀和材質(zhì),,并回頭看參考圖像來(lái)“想象”相互作用。
例如,,給定鞋子的觸覺(jué)數(shù)據(jù),,該模型可以確定鞋子最可能被觸碰的位置。
參考圖像有助于對(duì)對(duì)象和環(huán)境的細(xì)節(jié)進(jìn)行編碼,,使機(jī)器學(xué)習(xí)模型能夠自我改進(jìn),。它被安裝在一個(gè)Kuka機(jī)器人手臂上,,帶有一個(gè)觸覺(jué)GelSight傳感器(由麻省理工學(xué)院的另一個(gè)團(tuán)隊(duì)設(shè)計(jì)),它將當(dāng)前幀與參考圖像進(jìn)行比較,,以確定觸摸的位置和規(guī)模,。
研究人員指出,目前的數(shù)據(jù)集只有在受控環(huán)境中進(jìn)行交互的例子,,他們說(shuō),,一些細(xì)節(jié),比如物體的顏色和柔軟度,,仍然很難讓系統(tǒng)推斷出來(lái),。不過(guò),他們說(shuō),,他們的方法可以為在制造環(huán)境中實(shí)現(xiàn)更無(wú)縫的人機(jī)一體化奠定基礎(chǔ),,特別是在缺少視覺(jué)數(shù)據(jù)的任務(wù)中,比如關(guān)燈或工人盲目地把手伸進(jìn)容器時(shí),。
“這是第一種能夠令人信服地在視覺(jué)和觸覺(jué)信號(hào)之間進(jìn)行轉(zhuǎn)換的方法,,”加州大學(xué)伯克利分校(University of California at Berkeley)博士后研究員安德魯?歐文斯(Andrew Owens)表示?!爱?dāng)有諸如‘這個(gè)物體是硬的還是軟的?’或者‘如果我提起這個(gè)杯子的把手,,我的握力會(huì)有多少?’這些問(wèn)題時(shí),像這樣的方法有可能對(duì)機(jī)器人非常有用,,這是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題,,因?yàn)樾盘?hào)是如此不同,而這個(gè)模型已經(jīng)顯示出了巨大的能力,?!?/p>