世界上最難的「沙雕」遊戲被AI攻破了

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

戳→新書推薦 |人工智慧沒那麼難!你要的算法+案例分析+代碼統統有!

點擊上圖,查看教學大綱

本文經AI新媒體量子位(ID:QbitAI)授權轉載,轉載請聯繫出處夢晨 曉查 發自 凹非寺

本文經AI新媒體量子位(ID:QbitAI)授權轉載,轉載請聯繫出處夢晨 曉查 發自 凹非寺

13年以前,有這樣一款「變態」級難度的遊戲曾風靡一時。

它的名字簡單粗暴—— QWOP。意思是讓玩家用這四個鍵位控制遊戲人物的左右大腿和小腿,以最快的速度跑完100米。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第1張

實際上,大部分玩家剛上手的時候,可能連 起點線都邁不過去就Game Over了。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第2張

如果你能跑出幾米遠,絕對算是一個高手,甚至能在朋友面前炫耀一番。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第3張

QWOP的難點在於,一旦角色失去平衡就很難再挽回,需要在100米的距離內一直保穩重心不過於向前後傾斜。

當你經過苦練第一次跑起來時,又會被50米處作者故意設置的欄桿擺一道:說好的100米短跑怎麼變跨欄了?

世界上最難的「沙雕」遊戲被AI攻破了 科技 第4張

某小編當年的遊戲截圖

在那個4399小遊戲盛行的年代,這款也被戲稱為 「是男人就跑100米」。因為難度過於「變態」,QWOP開發者曾收到過很多辱罵郵件。

雖然絕大部分人難以跑到終點,但仍有一批骨灰級玩家樂此不疲,他們不僅能輕松跑完,至今還為競爭世界排名而不斷挑戰。

2個月前,一位日本玩家創造了新的世界紀錄: 48.34秒

世界上最難的「沙雕」遊戲被AI攻破了 科技 第5張

看到這款「沙雕遊戲」,你是不是會想到強化學習來訓練雙足機器人的畫面?

世界上最難的「沙雕」遊戲被AI攻破了 科技 第6張

一位來自波士頓咨詢的數據分析師 Wesley Liao也是這麼想的。

不過別以為「變態」難度的遊戲到了AI面前就變成了毛毛雨。

Liao綜合了之前多種強化學習算法,最後甚至請來了「世界名師」教學,費了好大一番功夫,才終於讓AI在上周打破人類玩家的記錄。

可見這款遊戲的難度一點都不比圍棋低啊。(手動狗頭)

世界上最難的「沙雕」遊戲被AI攻破了 科技 第7張

小試牛刀

一開始,Liao使用OpenAI Gym強化學習環境來訓練AI,先設定好遊戲的狀態、操作和獎懲機制。

狀態包括每個身體部位和關節的位置、速度和角度。操作方式限定為11種:4個QWOP按鍵、6種兩兩按鍵組合以及不按任何鍵。

用來訓練AI的算法是 ACER(具有經驗回放能力的Actor-Critic)。這種算法的優點是,不僅可以從其最近獲得的經驗中學習,也可以學習存儲數據中更早的經驗。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第8張

由於ACER非常龐雜,Liao使用了別人的實現代碼「Stable Baselines」。

Liao首先嘗試了讓AI自己學習。經過多次實驗後,他發現AI隻學會了「蹭膝蓋」這種方式跑過終點,速度很慢。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第9張

這和許多人類普通玩家以及其他強化學習算法是一樣的,離高手的水平還差很遠,更不用談打破紀錄了。

仔細分析可以發現,AI根本沒有學習到跨步機制,只是學習到了最安全、最慢的方法來到達終點。

看來靠AI完全自學是不行了。

學會奔跑

類似於DeepMind用頂級棋手教AlphaGo下棋,Liao想到是不是也可以讓人類玩家來教一下AI。

但是Liao本人的技術和頂級玩家差距太大,自己最多也只能跑到28米。

這都不重要,重要的是起碼Liao跨出更大步伐的技巧,只能寄希望於AI能從「渣技術」裡學到一點奔跑的技巧吧。

但是結果很不幸,AI很好地詮釋了「邯鄲學步」:不僅沒掌握跑步技巧,反而在起點就跌倒了。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第10張

然後Liao讓AI自己繼續訓練。所謂師父領進門,修行在個人,AI能否將人類技術和自學能力結合起來?

結果令人興奮,經過90個小時的訓練,AI終於學會了像人一樣奔跑!

世界上最難的「沙雕」遊戲被AI攻破了 科技 第11張

最終成就是 1分25秒,已經能跑進全球排行榜的 前15名,離超過人類不遠了。

接下來要做的就是再向AI教授更多技巧,奈何本人技術太渣。

所以要想進一步提高AI的水平,必須找頂級高手來幫忙。

頂級高手助陣

Liao觀察速通排行榜上的錄像,發現頂級玩家的技巧是把左腿抬高可以跑的更快。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第12張

排名第一玩家gunmaneko的踢腿技巧

他開始全球排名前二的玩家 gunmanekoKurodo請教踢腿技巧的操作。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第13張

兩位玩家熱情地回答了他的問題。其中Kurodo指出這個技巧的關鍵在於減少遊戲角色在縱向的移動,並提出把保持身體高度加入AI的獎勵函數。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第14張

Liao向Kurodo分享了他的代碼,Kurodo慷慨地使用代碼記錄了 50次自己遊戲時的按鍵記錄發給Liao。

Liao嘗試使用這些數據對AI進行預訓練,但效果並不好。AI還沒來得及學會踢腿技巧,倒先把基本的跑步方法忘記了。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第15張

Liao不得不改變方法,他把Kurodo的數據註入到AI的 回放緩存*(Replay Buffer)*中。這相當於修改AI的記憶,使AI有一半的記憶是自己的,另一半來自Kurodo。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第16張

並且是AI每自己玩一次,就註入一次Kurodo的數據,保證AI隨機從記憶中選取一段來學習時選到兩種記憶的概率相同,避免在學習新技巧的過程中把基本操作忘掉。

AI使用Kurodo的數據訓練了15個小時,終於學會了踢腿,但因為兩種記憶無法協調在一起,跑時間長了動作會不穩定。

Liao此時把Kurodo的記憶移除,又讓AI自己訓練了25小時,總訓練時間達到了65小時。

最終AI的成就達到1分08秒,終於進入前十。

打破世界紀錄

Liao把教AI玩這個遊戲的過程做成視訊發在網上。一個月前,外媒Gismodo問他:為什麼AI還沒有打破世界紀錄?

世界上最難的「沙雕」遊戲被AI攻破了 科技 第17張

於是Liao重新訓練了一個只為優化速度而存在的新AI。

新AI改用Prioritized DDQN算法,因為這種算法會給學習效率更高的狀態增加權重而不是均勻采樣,能使新AI迅速學會舊AI已經掌握了的技巧。

並且,新AI的獎勵函數去掉了身體高度,膝蓋彎曲角度等參數,改成隻和前進速度相幹。

新AI先用已有數據進行只有幾分鐘的預訓練,隨後是40小時的自訓練。最終,新AI每秒所做的動作數在訓練環境中由9提高到18,並在測試環境中達到25。

新AI對踢腿技巧的掌握非常穩定,即使被障礙物影響也能迅速恢復。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第18張

快速高效的動作使AI的成就提高到47.34秒,比人類最高紀錄48.34秒剛好快1秒。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第19張

這才終於算是,在人工智慧超越人類的遊戲列表中又增加了一項。

One More Thing

你以為這就完了?

跑完100米不算完,這款遊戲還有一種世界級難度—— 「是男人就跑完馬拉松」

世界上最難的「沙雕」遊戲被AI攻破了 科技 第20張

為Liao提供幫助的玩家Kurodo最近剛剛提交了世界紀錄,全球也只有兩人完成了這項壯舉。

很難想像他們在電腦前延續按幾個小時QWOP的畫面。

另外,QWOP的開發者 Bennett Foddy一直在堅持開發這類「變態」難度的獨立小遊戲。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第21張

有一款 Getting Over It with Bennett Foddy名氣頗高,中文名 「掘地求升」。玩法就是一個裝在壇子裡的人不停用錘子讓自己升高。

世界上最難的「沙雕」遊戲被AI攻破了 科技 第22張

Foddy曾經在普林斯頓大學和牛津大學擔任博士後研究員,現在是一名獨立遊戲設計師。QWOP就是他在普林斯頓大學時期開發的。

我只能說,學霸開發的遊戲,學渣真的玩不起。

QWOP線上遊戲地址:

http://www.foddy.net/Athletics.html

世界上最難的「沙雕」遊戲被AI攻破了 科技 第23張

你點的每個「在看」,我都認真當成了喜歡

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!