近年來,機(jī)器人已經(jīng)越來越普遍的成為人們生活家庭中的小幫手,而來自卡耐基梅隆大學(xué) (CMU) 的四個(gè)科學(xué)家,,發(fā)現(xiàn)家庭機(jī)器人應(yīng)用在現(xiàn)實(shí)生活中和實(shí)驗(yàn)差距很大,在一篇論文中,,他們強(qiáng)調(diào):機(jī)器人一般都生活在實(shí)驗(yàn)室里,,在真實(shí)的場(chǎng)景中生活場(chǎng)景幾乎為0。
為什么機(jī)器人動(dòng)作數(shù)據(jù)不會(huì)像我們?cè)谟?jì)算機(jī)視覺和自然語言處理等其他重要領(lǐng)域中看到的那樣獲得類似的收益,?
許多方法聲稱實(shí)驗(yàn)室中收集的數(shù)據(jù)是真實(shí)數(shù)據(jù),。但是面對(duì)現(xiàn)實(shí)多樣化的場(chǎng)景,很多機(jī)器人顯得力不從心,。因此,,機(jī)器人在試驗(yàn)過程中的數(shù)據(jù)采集信息就需要從實(shí)驗(yàn)室設(shè)置轉(zhuǎn)移到現(xiàn)實(shí)世界的人們家中。
對(duì)此,,科學(xué)家們決定把這些機(jī)器人帶去開房,。通過在多個(gè)看不見的家中對(duì)機(jī)器人進(jìn)行物理執(zhí)行指令,將家庭數(shù)據(jù)集訓(xùn)練的模型顯示與實(shí)驗(yàn)室收集的數(shù)據(jù)訓(xùn)練的基線模型進(jìn)行對(duì)比,,找到解決機(jī)器人在實(shí)驗(yàn)室數(shù)據(jù)之外,,遇到狀況怎么處理和解決目前一些廉價(jià)機(jī)器人對(duì)于日常生活中做事和面對(duì)指令反應(yīng)不準(zhǔn)確的問題。
經(jīng)濟(jì)適用機(jī)器人
由于收集模擬數(shù)據(jù)比實(shí)時(shí)機(jī)器人實(shí)時(shí)成本低得多,,所以目前的機(jī)器人大多的數(shù)據(jù)驅(qū)動(dòng)方法主要集中在使用模擬器上,,這種模擬器不是使用手工設(shè)計(jì)的模型,而是集中于大規(guī)模數(shù)據(jù)集的收集,,但模擬器與現(xiàn)實(shí)世界之間存在廣泛的“現(xiàn)實(shí)差距”,。因此,,科學(xué)家決定推動(dòng)在多個(gè)機(jī)器人實(shí)驗(yàn)室中收集真實(shí)世界的物理交互數(shù)據(jù),主要目的是要將硬件成本下降,。
為了這個(gè)目的,,科學(xué)家們把機(jī)器人進(jìn)行了改造,機(jī)械手臂上先建立一個(gè)低于3K美元組裝的低成本移動(dòng)機(jī)械手把,,再逐步加上雙軸手腕,,兩指電動(dòng)夾具,還有移動(dòng)底座,。傳感器方面,,配置了英特爾R200 RGB攝像頭,以及幫攝像頭轉(zhuǎn)脖子的云臺(tái),。至于機(jī)器人的大腦搭載了i5-8250U的CPU和8G的RAM,,一次充電可運(yùn)行約3小時(shí)。底座中的電池用于為底座和臂提供動(dòng)力,。只需一次充電,,系統(tǒng)可以運(yùn)行1.5小時(shí)。這樣每臺(tái)“只要”三千美元,,比別的 (兩萬美元的) 機(jī)器人經(jīng)濟(jì)多了,。
由于廉價(jià)的電動(dòng)機(jī),突出了降低成本的一個(gè)不可避免的后果-那就是無法準(zhǔn)確的控制?,F(xiàn)有的機(jī)器人采集數(shù)據(jù)集多種多樣存在很多誤差,,這種誤差稱之為機(jī)器人工作的噪聲,并把噪聲模擬為潛在變量并使用兩個(gè)網(wǎng)絡(luò):預(yù)測(cè)可能的噪聲預(yù)測(cè)執(zhí)行的動(dòng)作,。
機(jī)器人平面抓取原則
平面抓取訓(xùn)練原則遵循Imagenet預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)作為初始化,,分為3個(gè)結(jié)構(gòu):
1、抓取預(yù)測(cè)網(wǎng)絡(luò) (GPN) ,,基于對(duì)象的圖像塊推斷抓握角度,,再?zèng)Q定用什么姿勢(shì)抓取。而采用經(jīng)濟(jì)的機(jī)器人,,收集的數(shù)據(jù)會(huì)有很多噪音
2,、噪音建模網(wǎng)絡(luò) (NMN) ,估計(jì)給定圖像的潛在噪聲場(chǎng)景和機(jī)器人信息這兩組數(shù)把噪音分離出去,。
3,、邊緣化層 (Marginalization Layer) ,計(jì)算最終的抓握角度,,把兩股數(shù)據(jù)流結(jié)合起來,,以便給出更好的決策,。
機(jī)器人潛在噪聲模型
科學(xué)家們?yōu)榇_保數(shù)據(jù)測(cè)試得多樣化,,舉出六個(gè)家庭來進(jìn)行平面抓取,。每個(gè)家庭都有幾個(gè)環(huán)境,使用多個(gè)機(jī)器人并行收集數(shù)據(jù),。由于是在具有非結(jié)構(gòu)化視覺輸入的家庭中收集數(shù)據(jù),,所以使用了物體檢測(cè)器。這導(dǎo)致在雜亂和不同背景中對(duì)象的邊界框預(yù)測(cè),,于是僅對(duì)2D位置并丟棄對(duì)象類信息進(jìn)行記錄,。一旦在圖像空間中獲取到物體的位置,就首先對(duì)其進(jìn)行抓取采樣,,然后從嘈雜的PointCloud計(jì)算3D抓取位置,。
由于欠約束機(jī)器人只有5個(gè)DOF,所以運(yùn)動(dòng)規(guī)劃管道經(jīng)過精心設(shè)計(jì),。在收集訓(xùn)練數(shù)據(jù)時(shí),,將各種各樣的物體分散開,讓移動(dòng)基地隨機(jī)移動(dòng)和抓取物體,?;幌拗圃?米寬的區(qū)域,以防止機(jī)器人與其操作區(qū)域之外的障礙物碰撞,,然后對(duì)采集的數(shù)據(jù)集進(jìn)行定量評(píng)估,。
對(duì)于定量評(píng)估,可以使用三種不同的測(cè)試設(shè)置:
1,、二進(jìn)制分類(保留數(shù)據(jù)):通過對(duì)對(duì)象執(zhí)行隨機(jī)抓取來收集保持測(cè)試集,。
在給定位置和抓握角度的情況下,測(cè)量二元分類的性能,。模型必須預(yù)測(cè)掌握是否成功,。這種方法允許評(píng)估大量模型而無需在真實(shí)機(jī)器人上運(yùn)行它們。
2,、真正的低成本手臂(Real-LCA):通過評(píng)估學(xué)習(xí)模型在低成本手臂上的物理抓取性能,。
3、Real Sawyer(Real-Sawyer):測(cè)量學(xué)習(xí)模型在工業(yè)機(jī)器人手臂(Sawyer)上的物理抓取性能,。由于Sawyer是更準(zhǔn)確和更好的校準(zhǔn),,因此評(píng)估Robust-Grasp模型過程中不會(huì)解開數(shù)據(jù)中的噪聲。
機(jī)器人從模型訓(xùn)練到數(shù)據(jù)集整合評(píng)估都對(duì)無法完全適應(yīng)外界,,因此,,采集現(xiàn)實(shí)世界的數(shù)據(jù),來實(shí)時(shí)的訓(xùn)練機(jī)器人實(shí)際技能,,這是一個(gè)泛化和艱難的過程,,很期待和機(jī)器人共同生活的世界,你們期待嗎,?