深度強化學習為人工智能系統注入「靈魂」 可讓四足機器人自己學走路

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

深度強化學習為人工智能系統註入“靈魂” 可讓四足機器人自己學走路

人工智能(AI)系統使得機器人能夠以人類靈巧的方式掌握和操縱物體,現在,研究人員表示他們已經開發出一種算法,通過這種算法,機器可以自己學會走路。在Arxiv.org上發表的一份預印本論文中(「通過深度強化學習來學習走路」),加州大學伯克利分校的科學家和Google人工智能(AI)研究部門之一Google Brain描述了一種人工智能系統,教「一個四足機器人來穿越熟悉和不熟悉的地形。

「深度強化學習可以用於自動獲取一系列機器人任務的控制器,從而做到將感知輸入映射到低級別動作的策略的端到端學習。」該論文的作者解釋道。 「如果我們可以直接在現實世界中從頭開始學習運動步態,原則上我們就能獲得最適合每個機器人、甚至適合單個地形的控制器,潛在地做到更好的敏捷性、能源效率和穩健性。」

設計挑戰是雙重的。強化學習是一種使用獎勵或懲罰來驅動代替人做到目標的人工智能培訓技術,它需要大量數據,在某些情況下需要數萬個樣本才能獲得良好的結果。並且微調機器人系統的超參數 —— 即確定其結構的參數 —— 通常需要多次訓練,這可能會隨著時間的推移對腿式機器人造成傷害。

「深度強化學習已被廣​​泛用於模擬中的學習運動策略,甚至將它們轉移到現實世界的機器人中,但由於模擬中的差異,這不可避免地導致性能損失,並且需要大量的手動建模。」該論文的作者指出,「在現實世界中使用這些算法已經證明具有挑戰性。」

為了找到一種方法,用研究人員的話說,「(使)一個系統在沒有模擬訓練的情況下學習運動技能成為可能,他們選擇了一種稱為「最大熵RL」的強化學習框架(RL)。最大熵RL優化學習策略以最大化預期回報和預期熵,或者正在處理的數據中的隨機性度量。在RL中,AI代理通過從策略中采樣動作並接收獎勵,不斷尋找最佳的行動路徑,也就是說,狀態和行動的軌跡。最大熵RL激勵政策更廣泛地探索;一個參數 —— 比如說,溫度 —— 確定熵對獎勵的相對重要性,從而確定其隨機性。

但這並不全是積極和有效的,至少不是一開始。因為熵和獎勵之間的權衡直接受到獎勵函數的規模的影響,而獎勵函數的規模又影響學習速率,所以通常必須針對每個環境調整縮放因子。研究人員的解決方案是自動化溫度和獎勵規模調整,部分是在兩個階段之間交替進行:數據收集階段和優化階段。

結果不言自明。在OpenAI的健身房(一個用於訓練和測試AI代理的開源模擬環境)進行的實驗中,作者的模型在四個連續運動任務(HalfCheetah、Ant、Walker和Minitaur)中做到了「幾乎相同」或比基線更好的性能。

在第二次真實世界的測試中,研究人員將他們的模型應用於四足Minitaur,這是一種帶八個執行器的機器人,一個測量馬達角度的馬達編碼器,以及一個測量方向和角速度的慣性測量單元(IMU)。

他們開發了一個管道,包括(1)計算機工作站,更新神經網路,從Minitaur下載數據,並上傳最新策略;(2)在機器人上安裝Nvidia Jetson TX2執行上述策略,收集數據,並通過以太網將數據上傳到工作站。經過兩個小時160,000步的訓練後,通過獎勵前進速度和懲罰「大角加速度」和俯仰角的算法,他們成功地訓練Minitaur在平坦的地形上行走,越過木塊等障礙物行走,以及爬上斜坡和台階,而這些在訓練時間內均未出現。

「據我們所知,這個實驗是深度強化學習算法的第一例,這種算法可以在沒有任何模擬或訓練的情況下,直接在現實世界中學習欠驅動的四足運動。」研究人員寫道。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!