尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
雷鋒網 AI 科技評論按,AAAI 系列會議是為了促進人工智能的學術研究和交流舉辦的頂級學術會議。作為第三十三屆 AAAI 會議,AAAI 2019 又一次刷新了人工智能會議的記錄,投稿數量達到 7,700 篇,錄用率 16.2%。
今年,華為諾亞方舟實驗室埃德蒙頓團隊在 AAAI 2019 有兩篇強化學習文章錄用,論文的具體介紹如下:
-
ACE: An Actor Ensemble Algorithm for Continuous Controlwith Tree Search
地址:https://arxiv.org/abs/1811.02696
本篇文章研究的是機器人領域里常見的連續動作控制問題。對該問題目前最好的強化學習算法是 DeepMind 的 Deep Deterministic Policy Gradient(DDPG)。雖然在 DDPG 的文章中該算法是從 Deep Q networks 的靈感引發出來的,但是 DDPG 採用的其實是早期強化學習常用的 Actor-Critic 結構,整個學習系統由一個「老師網路」(Critic) 和一個「學生網路」(Actor) 組成。老師網路負責對學生網路的輸出進行打分。學生網路根據老師網路在貪婪方向選取動作並追加隨機探索。學生網路的學習是站在老師網路的肩膀上進行梯度再上升,使用的是基於鏈式法則的策略梯度方法 (Policy Gradient)。DDPG 做到的是一個優美的設計,老師網路專注於對學生網路的打分和考評,學生網路根據老師網路的最新考評隨時調整自己的策略並有一定的探索自由度。
Actor-Critic 的理論和算法主要是在線性價值函數下。DDPG 的主要貢獻是將 Actor-Critic 的架構推廣到神經網路。但是這種推廣也帶來一個線性下不存在問題:神經網路的使用導致老師網路和學生網路都可能無法得到全局最優解。為了解決 DDPG 的這個問題,我們提出的新算法 ACE 的核心思想是使用 actorensemble 的技術:通過多個 actor 網路對同一個狀態來提出多個動作,老師網路會根據他對這些學生們的打分經驗選擇最好的動作。為了使得多個學生網路探索策略空間的不同的區域,我們把學生們初始化成不同的權值。這樣使得老師網路有對探索的全局把握,也能解決 DDPG 只使用一個學生網路而帶來的只能學到局部最優策略的問題。
因為多個學生網路的存在,我們可以提這樣的問題,如果使用學生 A 的動作接著再使用學生 B 的動作會帶來怎樣的效果?進而,在當前時刻我們如何決定未來使用的學生序列?這里是一個典型的規劃 (Planning) 問題:幾個學生動作鏈成一個時間序列,它們導致的效果是需要評估的。這種評估過程展開來是個樹狀結構,也是 AlphaGo 使用的搜尋結構。注意下圍棋的動作是離散的,而在連續動作空間里怎麼做樹狀搜尋?因而本文的第二個貢獻就是連續動作空間下的樹狀搜尋方法。為了快速進行搜尋,樹的展開不是在原始輸入圖像層面,而是在深層網路已經抽出來的低維特徵空間進行的。下圖中的 z 就是該低維特徵。在當前狀態,也就是相應的圖像輸入下,我們如果選擇動作 a,對應的值函數 Q(s,a) 是多少呢?該樹的分叉因子是二,代表的是採用兩個 actor networks。展開一步 (向右) 代表的是個預測過程,即預測在狀態 s 分別採取兩個 actor networks 提出來的動作導致的下一個圖像對應的低維特徵 (還有獎賞的預測,圖中省略)。如此類推,在下一步的兩個低維特徵間我們分別再根據兩個 actor networks 進行動作選擇,對應的下一步的低維特徵就有四個。由於這種前向的預測展開過程是為了能找到最好的前向動作序列,我們只需要在意最好的路徑分支。因而在做完樹的前向展開,我們就可以找出最好的路徑,沿著展開樹的相反反方向進行價值可能的回傳(就是強化學習中通常所謂 backup)。圖中所示是做兩步搜尋的過程。
圖片來源:華為諾亞實驗室
在 RoboSchool(基於 Mujoco 的開源 RL 環境)上,我們的算法取得了比 DDPG 更快的學習速度和更好的學習效果。我們細致地比較了使用多個學生網路和樹狀搜尋對學習系統分別帶來的好處,發現如果單純使用多個學生網路或者樹狀搜尋算法的表現都遠遠低於兩個的結合。下面是在 Ant 和 Walker2d 的比較,藍色是我們的算法,黑色是 DDPG 的算法。ACE 的細節和它在其它 RoboSchool 任務的性能請看文章。
圖片來源:華為諾亞實驗室
參考文獻:
DDPG paper:Continuous control with deep reinforcement learning, DeepMind, 2015.
-
QUOTA: The Quantile Option Architecturefor Reinforcement Learning
地址:https://arxiv.org/abs/1811.02073
強化學習研究常用的 Atari games 包括了 49 個對人類玩家比較難的遊戲。在這些遊戲上的學習效率已經成為算法的一個必要的評測指標。目前在 Atari games 里排在首位的基礎算法是 DeepMind 的 Quantile Regression – Deep Q networks (QR-DQN)。(當前整體最優的 Rainbow 則是集成了很多算法技術,而原理類似 QR-DQN 的 C51 是其中核心的一個算法。) QR-DQN 是基於 Distribution 的強化學習。在這一波「深度強化學習」的革命浪潮中,Distribution 強化學習是少見的新理論。最早的學習價值函數的分布的想法在 2010 年左右在線性的架構下已經有人提出,但是 DeepMind 團隊第一次證明了價值函數分布也可以用於強化學習,即存在價值函數分布的 Bellman 方程。這個理論的重要性在於,在經典強化學習和動態規劃中只有最優策略函數存在的理論,現在不僅它本身存在,它的分布函數也存在。這個結果有可能驅動強化學習領域向 Distribution 強化學習邁進。首先,Distribution 強化學習能測量更多的信息。經典強化學習對一個狀態或者狀態和動作的一個組合只有對價值進行均值的可能。Distribution 強化學習測量的卻不僅僅是均值,而是該狀態或者狀態加動作的價值的整個分布。模型的表達能力無疑大大增強了。比如,有了分布,我們不僅可以可能均值,還可以對狀態加動作的價值的方差進行可能從而得到在該時刻選擇某個動作的信心評估。
然而,目前 DeepMind 的 Distribution 強化學習團隊雖然提出了很好的理論,卻止於「強化學習就是均值」的傳統理解。為什麼這麼說呢?QR-DQN 雖然可能出了狀態加動作的分布,還是只摘取了該分布的均值,然後回到了經典強化學習用該均值做動作選擇的做法。也就是說,QR-DQN 其實只是經典強化學習框架下一種新的均值可能方法。為了說明單純基於均值的方法的缺陷,我們給出了一個基於均值的強化學習會失敗的一個反例。包括 DQN 在內所有基於均值可能的強化學習方法在該例子中都無法盡快探索到有價值的動作和狀態。而本文提出的方法能解決這種極端情況下的快速探索和學習。該反例的具體細節請看論文。
那麼學了狀態加動作的價值值函數分布有沒有實際作用呢?應該怎麼用呢?這個是本文探討的主要問題。我們第一次提出可以通過使用分布函數可能中的不同 quantile 來做動作選擇,而不再是使用均值。超越均值的強化學習是本文的亮點。這樣做是因為不同的 quantile 代表不同的風險,在做策略選擇的過程中,不同時候的策略是需要有不同的風險的。大的風險能帶來大的收益,但是風險也高。小風險的策略相對安全,但是帶來收益也小。這種帶不同風險的決策風格在關鍵的時候會發揮作用。
顯然不同的時刻需要不同風險的決策。為了能自適應的選擇風險水平以取得最大的系統收益,我們設計了分層 (hierarchical) 的決策框架。上層的決策用 Deep Q networks(DQN) 來做到宏觀決策,以選擇用哪種風險的動作選擇。下層決策使用多個動作選擇網路,每個網路代表動作價值函數的一個 Quantile。在 Atari 上我們的算法 QUOTA 與 QR-DQN 比較的結果是,在大部分遊戲上都優於 QR-DQN(相同的學習時間分數更高)。值得注意的是,我們算法取得領先優勢的遊戲恰恰是 Atari games 比較難的遊戲 (讀者可以參看 DQN 在 Nature 雜誌上的文章,對比 DQN 的基線結果。
圖片來源:華為諾亞實驗室
我們的方法不僅適合離散動作控制,同樣適用於連續動作控制。我們在 DDPG 中增加了多個 actor,每個 actor 是根據某個 quantile 的值函數進行 (貪婪) 動作選擇。這樣 Critic 就可以對不同的 actor 網路進行評價。在 RoboSchool 幾組仿真機器人的控制問題上,QUOTA 在大部分問題里都優於 DDPG。詳細的結果請看論文。
圖片來源:華為諾亞實驗室
最後,一個有意思的現象是實驗結果說明了不同的時間點上所需要的風險策略確實是不一樣的。下圖顯示的橫軸是學習時間 (也就是已經見過的樣本的個數),縱軸是顯示選擇每個風險策略的頻率。顏色越深表示在該時刻選擇該風險策略的頻率越高。
圖片來源:華為諾亞實驗室
參考文獻:
-
DQN Nature paper: Human-levelcontrol through deep reinforcement learning, DeepMind 2015.
-
QR-DQN paper: Distributional ReinforcementLearning with Quantile Regression, DeepMind, 2017.