英偉達(dá)宣布最新強(qiáng)化學(xué)習(xí)研究成果

      發(fā)布時(shí)間:2019-05-28 09:32:06

             近日,來自華盛頓州西雅圖新開設(shè)的機(jī)器人研究實(shí)驗(yàn)室的NVIDIA研究人員正在展示一種新的概念強(qiáng)化學(xué)習(xí)方法,旨在提高在仿真模擬中訓(xùn)練的機(jī)器人在真實(shí)世界中的表現(xiàn)。該項(xiàng)成果將在加拿大蒙特利爾舉行的國際機(jī)器人與自動(dòng)化會(huì)議(ICRA)上發(fā)表。

             該研究是基于模擬訓(xùn)練的深度學(xué)習(xí)和機(jī)器人社區(qū)發(fā)展趨勢的一部分。由于該方法是虛擬的,因此不存在損壞或傷害的風(fēng)險(xiǎn),允許機(jī)器人在部署到現(xiàn)實(shí)世界之前,進(jìn)行無限次可能地訓(xùn)練。

             有一種描述模型訓(xùn)練的方式,是把它比作宇航員在地球上訓(xùn)練如何在太空中執(zhí)行關(guān)鍵性任務(wù)。宇航員學(xué)習(xí)如何適應(yīng)太空旅行中的無重力狀態(tài),排練并練習(xí)任務(wù)的各個(gè)步驟,學(xué)習(xí)如何在太空中完美地執(zhí)行這些復(fù)雜的操作。在模擬過程中,強(qiáng)化學(xué)習(xí)所做的與此類似,只不過是通過機(jī)器人來進(jìn)行的。

             “在機(jī)器人領(lǐng)域,你通常希望能在模擬中訓(xùn)練,因?yàn)槟憧梢院w在真實(shí)世界中很難獲得數(shù)據(jù)的各種場景,” 該項(xiàng)目的主要研究人員之一說。 “這項(xiàng)工作背后的想法是訓(xùn)練機(jī)器人在模擬器中做一些在現(xiàn)實(shí)生活中既單調(diào)又耗時(shí)的事情。

          

             研究人員認(rèn)為,強(qiáng)化學(xué)習(xí)機(jī)器人社區(qū)面臨的挑戰(zhàn)之一是真實(shí)世界和模擬器之間的差異。

             研究人員在論文中指出:“由于仿真模型不精確,缺乏對真實(shí)世界場景的高保真復(fù)制,在模擬中學(xué)習(xí)到的策略通常不能直接應(yīng)用于真實(shí)世界系統(tǒng),這一現(xiàn)象也稱為現(xiàn)實(shí)差距?!?/span>

             “在這項(xiàng)工作中,我們的重點(diǎn)是通過學(xué)習(xí)分布在模擬場景上的策略來縮小現(xiàn)實(shí)差距,這些模擬場景經(jīng)過優(yōu)化能夠?qū)崿F(xiàn)更好的策略遷移?!?/span>

             “我們并非手動(dòng)調(diào)整模擬的隨機(jī)化,而是使用與策略訓(xùn)練交錯(cuò)的真實(shí)世界的交付來調(diào)整模擬參數(shù)分布?!? 研究人員說?!拔覀儗?shí)際上是在模擬器中創(chuàng)建現(xiàn)實(shí)世界的復(fù)制品。”

             研究人員使用64臺(tái)NVIDIA Tesla V100 GPU的集群,以及cuDNN加速的TensorFlow深度學(xué)習(xí)框架,訓(xùn)練機(jī)器人執(zhí)行兩項(xiàng)任務(wù):將一個(gè)釘子插入孔里,以及打開一個(gè)抽屜。

             在模擬過程中,團(tuán)隊(duì)使用NVIDIA FleX物理引擎來模擬和開發(fā)本研究中描述的SimOpt算法。

             為了完成這兩項(xiàng)任務(wù),機(jī)器人通過大約1.5-2小時(shí)內(nèi)的超過9600次的模擬進(jìn)行學(xué)習(xí)。

       

            目標(biāo)抽屜開放環(huán)境中的策略性能,通過在SimOpt的不同迭代中的隨機(jī)模擬參數(shù)進(jìn)行訓(xùn)練。隨著源環(huán)境分布的調(diào)整,策略遷移得到改善,直到機(jī)器人能夠在第四次SimOpt迭代中成功完成任務(wù)。

            研究人員表示,“將模擬與現(xiàn)實(shí)遷移環(huán)路相結(jié)合,是機(jī)器人策略實(shí)現(xiàn)強(qiáng)大遷移能力的重要組成部分”。 “在這項(xiàng)工作中,我們證明了使用真實(shí)世界數(shù)據(jù)調(diào)整模擬隨機(jī)化有助于學(xué)習(xí)模擬參數(shù)分布,這些分布特別適合成功的策略遷移,而無需精確復(fù)制真實(shí)世界環(huán)境。

       

       

            在SimOpt的不同迭代中運(yùn)行在模擬訓(xùn)練中的策略,以實(shí)現(xiàn)在真實(shí)世界里將釘子插孔和抽屜打開的任務(wù)。左:SimOpt調(diào)整軟繩、釘和機(jī)器人的物理參數(shù)分布,經(jīng)過兩次SimOpt迭代后在真實(shí)機(jī)器人上成功執(zhí)行任務(wù)。右:SimOpt調(diào)整機(jī)器人和抽屜的物理參數(shù)分布。在更新參數(shù)之前,機(jī)器人用一個(gè)手指在抽屜把手上用力過猛,導(dǎo)致抓取器的手爪打開。經(jīng)過一次SimOpt迭代后,機(jī)器人可以更好地控制其抓取器的方向,從而實(shí)現(xiàn)準(zhǔn)確地執(zhí)行任務(wù)。

      国产不卡一区二区三区免费视