復(fù)雜機(jī)器人的運(yùn)動(dòng)控制,,一直阻擋機(jī)器人產(chǎn)業(yè)發(fā)展的老大難問(wèn)題,,遲遲沒(méi)有得到很好的解決,。即便是代表機(jī)器人最高水平的波士頓動(dòng)力,,其機(jī)器人離實(shí)用也還遠(yuǎn),。近兩年發(fā)展迅猛的AI,,儼然如萬(wàn)金油般,,被用在各種地方,,自然也包括機(jī)器人控制領(lǐng)域,而且似乎取得了不錯(cuò)的效果,。前端時(shí)間,,UCberkely的強(qiáng)化學(xué)習(xí)專家Pieter Abbeel創(chuàng)辦了Embodied Intelligence,,業(yè)務(wù)更是直接涵蓋了VR、AI,、機(jī)器人三大熱點(diǎn),。
為了搞清楚VR、AI等新技術(shù)如何在機(jī)器人控制領(lǐng)域應(yīng)用,,本文根據(jù)一些相關(guān)論文和公開資料,,包括Pieter Abbeel的演講,對(duì)VR和AI在機(jī)器人控制方面的應(yīng)用進(jìn)行了簡(jiǎn)單梳理,,發(fā)現(xiàn)AI和VR等在機(jī)器人控制等方面還是有實(shí)在的應(yīng)用,,只不過(guò)離取得實(shí)質(zhì)性突破,還有相當(dāng)長(zhǎng)的距離,。
機(jī)器人控制的幾種類型
很多機(jī)器人的研究目標(biāo)很多是模擬人的智能,,所以研究人的控制系統(tǒng),對(duì)于機(jī)器人有很大的借鑒意義,。人體的神經(jīng)系統(tǒng)由大腦,、小腦、腦干,、脊髓,、神經(jīng)元等共同構(gòu)成,復(fù)雜而又完善,。人體神經(jīng)系統(tǒng)包括中樞神經(jīng)系統(tǒng)和周圍神經(jīng)系統(tǒng),。中樞神經(jīng)系統(tǒng)由腦和脊髓組成,是人體神經(jīng)系統(tǒng)的最主體部分,。周圍神經(jīng)系統(tǒng)是從腦和脊髓發(fā)出的分布到全身各處的神經(jīng),。無(wú)數(shù)的神經(jīng)元存在于神經(jīng)系統(tǒng)各處,構(gòu)成神經(jīng)網(wǎng)絡(luò),。
AI在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域應(yīng)用盤點(diǎn)
中樞神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)運(yùn)動(dòng)控制,,主要分成三層:
大腦:居于最高層,負(fù)責(zé)運(yùn)動(dòng)的總體策劃,,各種任務(wù)的下達(dá),。
小腦:居于中間層,負(fù)責(zé)運(yùn)動(dòng)的協(xié)調(diào)組織和實(shí)施,。人體平衡由小腦控制,。
腦干和脊髓:屬于最低層,負(fù)責(zé)運(yùn)動(dòng)的執(zhí)行,,具體控制肌肉的骨骼的運(yùn)動(dòng),,由腦干和脊髓完成。
三層對(duì)運(yùn)動(dòng)的調(diào)控作用不同,,由高到低,,低層接收高層的下行控制指令并具體實(shí)現(xiàn),。大腦可直接也可間接的通過(guò)腦干控制脊髓運(yùn)動(dòng)神經(jīng)。
如果把機(jī)器人與人進(jìn)行類比,,機(jī)械臂控制器就類似于人的脊髓,,負(fù)責(zé)控制電機(jī)(肌肉)和機(jī)械機(jī)構(gòu)(骨骼)的具體運(yùn)動(dòng),多足機(jī)器人的運(yùn)動(dòng)控制器,,就類似于人的小腦,,負(fù)責(zé)控制平衡和協(xié)調(diào)。而機(jī)器人的操作系統(tǒng)層,,則類似于人的大腦,,感知和認(rèn)知世界,并下達(dá)各種復(fù)雜的運(yùn)動(dòng)目標(biāo),。
基于以上類比,,參照目前的各類機(jī)器人的情況,機(jī)器人的運(yùn)動(dòng)控制大概可以分成4種任務(wù):
脊髓控制——機(jī)械臂運(yùn)動(dòng)的基礎(chǔ)控制,。工業(yè)機(jī)器人,,各類機(jī)械臂,無(wú)人機(jī)的底層運(yùn)動(dòng)控制等面臨的主要是這類問(wèn)題,。
小腦控制——多足機(jī)器人的平衡和運(yùn)動(dòng)協(xié)調(diào)控制,。這塊目前是機(jī)器人控制仍未突破的難點(diǎn),目前做的最好的顯然是波士頓動(dòng)力,。
大腦控制——環(huán)境的感知,。主要是掃地機(jī)器人、無(wú)人機(jī)等底層運(yùn)動(dòng)控制已經(jīng)封裝好的機(jī)器人的導(dǎo)航和路徑規(guī)劃,。需要通過(guò)環(huán)境感知,,對(duì)自身和目標(biāo)進(jìn)行定位、導(dǎo)航和運(yùn)動(dòng)規(guī)劃,。
大腦控制——環(huán)境的認(rèn)知和交互,,也就是機(jī)器人具體執(zhí)行交互任務(wù),如控制機(jī)械臂抓取物體,,執(zhí)行操作等,。這是服務(wù)機(jī)器人需要突破的重要問(wèn)題。
幾種具體控制的AI應(yīng)用情況
1.脊髓控制類
脊髓控制的兩種典型的應(yīng)用是機(jī)械臂路徑規(guī)劃和無(wú)人機(jī)的飛行控制,。這類問(wèn)題屬于傳統(tǒng)自動(dòng)控制理論,,以數(shù)學(xué)和動(dòng)力學(xué)建模為基礎(chǔ),,發(fā)展了很多年,,已經(jīng)有了非常完備的理論和實(shí)踐基礎(chǔ),也取得了很好的效果,。雖然深度學(xué)習(xí)在最近很熱,,理論上也可以用于這類控制,。但目前在這類基礎(chǔ)控制領(lǐng)域,并沒(méi)有應(yīng)用,。主要原因可能有:
1)工業(yè)機(jī)器人高精度重復(fù)特定動(dòng)作等,,基于自動(dòng)控制理論已經(jīng)能從數(shù)學(xué)上很好的解決,且由于了解原理,,屬于白盒系統(tǒng),。既然有可靠的白盒方案,沒(méi)必要換成黑盒的神經(jīng)網(wǎng)絡(luò)控制系統(tǒng),。
2)工業(yè)機(jī)器人等應(yīng)用領(lǐng)域,,對(duì)控制算法穩(wěn)定性要求很高。而作為黑盒方案的神經(jīng)網(wǎng)絡(luò)控制系統(tǒng),,數(shù)據(jù)上還無(wú)法證明其穩(wěn)定性,。神經(jīng)網(wǎng)絡(luò)控制器一旦發(fā)生問(wèn)題,難以進(jìn)行解釋和改進(jìn),。
3)神經(jīng)網(wǎng)絡(luò)算法基于大量數(shù)據(jù)訓(xùn)練,,而現(xiàn)有的運(yùn)動(dòng)控制中,比如飛控,,拿到實(shí)際實(shí)驗(yàn)數(shù)據(jù)的成本高,,大量數(shù)據(jù)的獲取非常困難。
2.小腦控制類
小腦控制典型問(wèn)題是類人型雙足和多足機(jī)器人的平衡和運(yùn)動(dòng)協(xié)調(diào)控制問(wèn)題,。這方面一直是基于傳統(tǒng)控制理論在進(jìn)行研究,,不過(guò)由于相比于機(jī)械臂或無(wú)人機(jī),其運(yùn)動(dòng)的自由度高很多,,難度很大,。雙足類人機(jī)器人給人大多數(shù)的印象還是運(yùn)動(dòng)遲緩、僵硬,、站不穩(wěn),。波士頓動(dòng)力的Altas、大狗等已經(jīng)是在這方面最先進(jìn)的,,波士頓動(dòng)力學(xué)公司并未公布他們使用的技術(shù),,但谷歌工程師Eric Jang表示,根據(jù)從演講得來(lái)的信息,,BD的機(jī)器人控制策略使用基于模型的控制器,,并不涉及神經(jīng)網(wǎng)絡(luò)相關(guān)算法。
3.環(huán)境感知類
主要的場(chǎng)景是服務(wù)機(jī)器人的路徑規(guī)劃,、無(wú)人機(jī)目標(biāo)追蹤,、工業(yè)機(jī)器人的視覺(jué)定位等,通過(guò)感知環(huán)境,給封裝好的運(yùn)動(dòng)控制系統(tǒng)下達(dá)目標(biāo)運(yùn)動(dòng)指令,。
目標(biāo)識(shí)別
環(huán)境感知過(guò)程中的目標(biāo)識(shí)別,,如無(wú)人機(jī)目標(biāo)的識(shí)別和追蹤等,有神經(jīng)網(wǎng)絡(luò)的幫助,,可以識(shí)別的更準(zhǔn)確,,已經(jīng)在大疆等無(wú)人機(jī)上應(yīng)用。
定位導(dǎo)航和路徑規(guī)劃
目前機(jī)器人的定位導(dǎo)航,,主要基于流行的vSLAM或激光雷達(dá)SLAM技術(shù),。主流的激光雷達(dá)方案大概可以分三步,中間部分環(huán)節(jié)可能涉及到一些深度學(xué)習(xí),,大部分內(nèi)容并不涉及深度學(xué)習(xí)相關(guān),。
第一步:SLAM,構(gòu)建場(chǎng)景地圖,,用激光雷達(dá)構(gòu)建場(chǎng)景的2D或3D點(diǎn)云,,或者重建出3D場(chǎng)景。
AI在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域應(yīng)用盤點(diǎn)
第二步:構(gòu)建語(yǔ)義地圖,,可能會(huì)對(duì)物體進(jìn)行識(shí)別和分割,,對(duì)場(chǎng)景中的物體進(jìn)行標(biāo)記。(有的可能略過(guò)這一步)
第三部:基于算法進(jìn)行路徑規(guī)劃,,并驅(qū)動(dòng)機(jī)器人的運(yùn)動(dòng),。
AI在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域應(yīng)用盤點(diǎn)
4.環(huán)境交互
典型應(yīng)用場(chǎng)景:機(jī)械臂抓取目標(biāo)物體等。與環(huán)境的交互,,一直是傳統(tǒng)自動(dòng)控制難以解決的問(wèn)題,。近年來(lái),以強(qiáng)化學(xué)習(xí)為基礎(chǔ),,AI相關(guān)技術(shù)用在了這類問(wèn)題上,,取得了一定的研究進(jìn)展,但是否是未來(lái)的主流方向,,仍存在很大爭(zhēng)議,。
1)強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)框架中,有一個(gè)包含神經(jīng)網(wǎng)絡(luò)的Agent負(fù)責(zé)決策,。Agent以當(dāng)前機(jī)器人傳感器所采集到的環(huán)境為輸入,,輸出控制機(jī)器人的行動(dòng)命令action,機(jī)器人行動(dòng)后,,再觀察新的環(huán)境狀態(tài)和行動(dòng)帶來(lái)的結(jié)果Reward,,決定下一步新的行動(dòng)action。Reward根據(jù)控制目標(biāo)進(jìn)行設(shè)置,,并有正反向之分,。例如,,如果以自動(dòng)駕駛為目標(biāo),正向的Reward的就是到達(dá)目的地,,反向就是不能達(dá)到目的地,,更不好的Reward就是出車禍,。然后重復(fù)這個(gè)過(guò)程,,目標(biāo)是最大化Reward。
AI在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域應(yīng)用盤點(diǎn)
強(qiáng)化學(xué)習(xí)的控制過(guò)程,,本來(lái)就是個(gè)正向反饋的控制過(guò)程,,是AI用于機(jī)器人控制的基礎(chǔ)。以此為基礎(chǔ),,強(qiáng)化學(xué)習(xí)在機(jī)器人控制方面出現(xiàn)了一些研究成果,。
2)環(huán)境中尋找目標(biāo)
16年,李飛飛組放出了一篇論文,,基于深度強(qiáng)化學(xué)習(xí),,在以目標(biāo)圖像為輸入的情況下,不建圖去找東西,。大致思路是:根據(jù)機(jī)器看到的圖,,決定怎么走,然后再看圖,,再?zèng)Q定新走的一步,,直到找到東西。論文將目標(biāo)圖像作為輸入,,訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)具有通用性,。
AI在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域應(yīng)用盤點(diǎn)
這種方式找東西更接近人的思維。訓(xùn)練出的控制器并沒(méi)有記住物體的位置,,更不知道房屋的結(jié)構(gòu),。但它記住了在每一個(gè)位置,通向各個(gè)物體應(yīng)該怎么走,。
3)機(jī)器人抓取
傳統(tǒng)的機(jī)器人學(xué)研究認(rèn)為,,需要非常清楚要抓取的物體的三維幾何形狀,分析受力位置和力的大小,,再反向計(jì)算機(jī)器手如何一步步移動(dòng)到這些位置,。但這種方式抓取不規(guī)則形狀和柔性物體會(huì)很困難。例如毛巾,,可能需要看成一系列剛體的鏈接,,再進(jìn)行動(dòng)力學(xué)建模分析,但是計(jì)算量比較大,。而小黃鴨那樣的橡膠,,外部并不能看出彈性程度,難以計(jì)算出需要施加的正確的力。
Pieter Abbeel,、DeepMind和OpenAI關(guān)于機(jī)器人控制的研究,,都以此深度強(qiáng)化學(xué)習(xí)為基礎(chǔ)?;趶?qiáng)化學(xué)習(xí)進(jìn)行機(jī)器人抓取,,以機(jī)器視角看到的圖像為輸入,以機(jī)器最終抓到物體為目標(biāo),,不斷對(duì)機(jī)器進(jìn)行訓(xùn)練,,從而在不建模和不做受力分析的情況下,實(shí)現(xiàn)對(duì)物體的抓取,。Pieter Abbeel已經(jīng)展示過(guò)機(jī)器人疊毛巾,,開瓶蓋,裝玩具等復(fù)雜的動(dòng)作,。
不過(guò)基于強(qiáng)化學(xué)習(xí)也仍有很多問(wèn)題,,如效率低、推理過(guò)程長(zhǎng),、任務(wù)難以描述,、不能終身學(xué)習(xí)、不能最大限度從真實(shí)世界獲取信息等,。其中一些通過(guò)meta學(xué)習(xí),,one-shot學(xué)習(xí),遷移學(xué)習(xí),,VR示教等方法的引入得到了改善,,有些則還暫時(shí)難以解決。
5.Dexterity Network
鑒于深度強(qiáng)化學(xué)習(xí)的各種問(wèn)題,,Pieter Abbeel在UCBerkeley的同事Ken Goldberg,,則采用了叫做Dexterity Network(Dex-Net)的研究思路。首先通過(guò)傳統(tǒng)機(jī)器人學(xué)中分析受力和建模的思路,,建立一個(gè)包含大量數(shù)據(jù)的數(shù)據(jù)集,,這個(gè)數(shù)據(jù)集里的每一項(xiàng)數(shù)據(jù)包含一個(gè)物體的模型和這個(gè)物體在不同姿態(tài)下可以被穩(wěn)定抓起來(lái)的施力方式,這些施力方式是通過(guò)物體模型計(jì)算出來(lái)的,。有了數(shù)據(jù)之后,,用這些數(shù)據(jù)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)。然后給出一個(gè)新物體,,通過(guò)神經(jīng)網(wǎng)絡(luò)判斷這個(gè)物體和數(shù)據(jù)集里哪個(gè)物體最相似,,然后根據(jù)最相似的物體的數(shù)據(jù)集里包含的施力方式計(jì)算出這個(gè)新物體的最穩(wěn)定施力方式。
Ken Goldberg的方案的一個(gè)重要弊端,,是計(jì)算量過(guò)于龐大,。整個(gè)算法占用了Google云服務(wù)器上的1500臺(tái)虛擬機(jī)的計(jì)算量,。此方法也讓“云機(jī)器人”這個(gè)概念受到了關(guān)注。
目前Pieter Abbeel和Ken Goldberg的兩種方法還處于學(xué)術(shù)爭(zhēng)議階段,,新的研究成果還在不斷出現(xiàn),,也還有很多問(wèn)題沒(méi)有解決,尤其是穩(wěn)定性和魯棒性是各方爭(zhēng)議的焦點(diǎn),。不同于語(yǔ)音識(shí)別音箱出了錯(cuò),,無(wú)非是鬧個(gè)笑話,機(jī)器人系統(tǒng)對(duì)穩(wěn)定性和可靠性的要求非常高,,系統(tǒng)一旦出錯(cuò),,輕則毀物,,重則造成人類的生命危險(xiǎn),。Pieter Abbeel也承認(rèn)目前還沒(méi)考慮魯棒性和穩(wěn)定性問(wèn)題,似乎整體還沒(méi)達(dá)到商用產(chǎn)品級(jí),。
總結(jié)
總體而言,,以強(qiáng)化學(xué)習(xí)為代表,AI在機(jī)器人控制領(lǐng)域近兩年取得了一些進(jìn)展,,尤其是在過(guò)去研究方法難以突破的環(huán)境交互問(wèn)題方面取得了進(jìn)展,。但基于神經(jīng)網(wǎng)絡(luò)的控制系統(tǒng),在魯棒性等方面短期似乎難以得到解決,,因此離實(shí)際應(yīng)用還有很遠(yuǎn)的距離,。在多種研究方法的共同努力下,我們也期待機(jī)器人控制問(wèn)題能夠早日有所突破,。