正在播放国产第九十二,国产在线精品一区二区

英偉達(dá)宣布最新強(qiáng)化學(xué)習(xí)研究成果

發(fā)布時(shí)間：2019-05-28 09:32:06

近日，來自華盛頓州西雅圖新開設(shè)的機(jī)器人研究實(shí)驗(yàn)室的NVIDIA研究人員正在展示一種新的概念強(qiáng)化學(xué)習(xí)方法，旨在提高在仿真模擬中訓(xùn)練的機(jī)器人在真實(shí)世界中的表現(xiàn)。該項(xiàng)成果將在加拿大蒙特利爾舉行的國際機(jī)器人與自動(dòng)化會(huì)議（ICRA）上發(fā)表。

該研究是基于模擬訓(xùn)練的深度學(xué)習(xí)和機(jī)器人社區(qū)發(fā)展趨勢的一部分。由于該方法是虛擬的，因此不存在損壞或傷害的風(fēng)險(xiǎn)，允許機(jī)器人在部署到現(xiàn)實(shí)世界之前，進(jìn)行無限次可能地訓(xùn)練。

有一種描述模型訓(xùn)練的方式，是把它比作宇航員在地球上訓(xùn)練如何在太空中執(zhí)行關(guān)鍵性任務(wù)。宇航員學(xué)習(xí)如何適應(yīng)太空旅行中的無重力狀態(tài)，排練并練習(xí)任務(wù)的各個(gè)步驟，學(xué)習(xí)如何在太空中完美地執(zhí)行這些復(fù)雜的操作。在模擬過程中，強(qiáng)化學(xué)習(xí)所做的與此類似，只不過是通過機(jī)器人來進(jìn)行的。

“在機(jī)器人領(lǐng)域，你通常希望能在模擬中訓(xùn)練，因?yàn)槟憧梢院w在真實(shí)世界中很難獲得數(shù)據(jù)的各種場景，” 該項(xiàng)目的主要研究人員之一說。 “這項(xiàng)工作背后的想法是訓(xùn)練機(jī)器人在模擬器中做一些在現(xiàn)實(shí)生活中既單調(diào)又耗時(shí)的事情。

研究人員認(rèn)為，強(qiáng)化學(xué)習(xí)機(jī)器人社區(qū)面臨的挑戰(zhàn)之一是真實(shí)世界和模擬器之間的差異。

研究人員在論文中指出：“由于仿真模型不精確，缺乏對真實(shí)世界場景的高保真復(fù)制，在模擬中學(xué)習(xí)到的策略通常不能直接應(yīng)用于真實(shí)世界系統(tǒng)，這一現(xiàn)象也稱為現(xiàn)實(shí)差距?！?/span>

“在這項(xiàng)工作中，我們的重點(diǎn)是通過學(xué)習(xí)分布在模擬場景上的策略來縮小現(xiàn)實(shí)差距，這些模擬場景經(jīng)過優(yōu)化能夠?qū)崿F(xiàn)更好的策略遷移?！?/span>

“我們并非手動(dòng)調(diào)整模擬的隨機(jī)化，而是使用與策略訓(xùn)練交錯(cuò)的真實(shí)世界的交付來調(diào)整模擬參數(shù)分布?！? 研究人員說?！拔覀儗?shí)際上是在模擬器中創(chuàng)建現(xiàn)實(shí)世界的復(fù)制品。”

研究人員使用64臺(tái)NVIDIA Tesla V100 GPU的集群，以及cuDNN加速的TensorFlow深度學(xué)習(xí)框架，訓(xùn)練機(jī)器人執(zhí)行兩項(xiàng)任務(wù)：將一個(gè)釘子插入孔里，以及打開一個(gè)抽屜。

在模擬過程中，團(tuán)隊(duì)使用NVIDIA FleX物理引擎來模擬和開發(fā)本研究中描述的SimOpt算法。

為了完成這兩項(xiàng)任務(wù)，機(jī)器人通過大約1.5-2小時(shí)內(nèi)的超過9600次的模擬進(jìn)行學(xué)習(xí)。

目標(biāo)抽屜開放環(huán)境中的策略性能，通過在SimOpt的不同迭代中的隨機(jī)模擬參數(shù)進(jìn)行訓(xùn)練。隨著源環(huán)境分布的調(diào)整，策略遷移得到改善，直到機(jī)器人能夠在第四次SimOpt迭代中成功完成任務(wù)。

研究人員表示，“將模擬與現(xiàn)實(shí)遷移環(huán)路相結(jié)合，是機(jī)器人策略實(shí)現(xiàn)強(qiáng)大遷移能力的重要組成部分”。 “在這項(xiàng)工作中，我們證明了使用真實(shí)世界數(shù)據(jù)調(diào)整模擬隨機(jī)化有助于學(xué)習(xí)模擬參數(shù)分布，這些分布特別適合成功的策略遷移，而無需精確復(fù)制真實(shí)世界環(huán)境。”

在SimOpt的不同迭代中運(yùn)行在模擬訓(xùn)練中的策略，以實(shí)現(xiàn)在真實(shí)世界里將釘子插孔和抽屜打開的任務(wù)。左：SimOpt調(diào)整軟繩、釘和機(jī)器人的物理參數(shù)分布，經(jīng)過兩次SimOpt迭代后在真實(shí)機(jī)器人上成功執(zhí)行任務(wù)。右：SimOpt調(diào)整機(jī)器人和抽屜的物理參數(shù)分布。在更新參數(shù)之前，機(jī)器人用一個(gè)手指在抽屜把手上用力過猛，導(dǎo)致抓取器的手爪打開。經(jīng)過一次SimOpt迭代后，機(jī)器人可以更好地控制其抓取器的方向，從而實(shí)現(xiàn)準(zhǔn)確地執(zhí)行任務(wù)。