再而衰!對戰中國大神再次戰敗,OpenAI Five發文告別TI8

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

再而衰!對戰中國大神再次戰敗,OpenAI Five發文告別TI8 科技 第1張

大數據文摘編輯組出品

剛剛,OpenAI Five 在DOTA 2 全球頂級賽事 TI8(The International DOTA2 Championships)中完成了與人類玩家的第二場「表演公開賽」,沒有意外,45分鐘的激戰後,OpenAI Five再次打出GG(GOOD GAME,意味認輸)。

不過,本場比賽給了中國玩家一個驚喜,本次OpenAI Five對戰的是來自中國的五位前職業選手——中國DOTA2圈元老級人物:Burning(徐志雷)、Ferrari.430(駱非池)、xiao8(張寧)、sansheng(王兆輝)、rOtk(白帆)。

OpenAI CTO,同時也是OpenAI Five的工程領隊Greg Brockman在賽前表示,遵守三局兩勝的戰局。也就是說,OpenAI Five與人類團戰的本輪對決以失敗告終,本次的TI8之旅也畫上了句號。

賽後,Greg Brockman依然發推祝賀中國五位選手獲勝,OpenAI官方也發布博文,總結了兩場比賽?

再而衰!對戰中國大神再次戰敗,OpenAI Five發文告別TI8 科技 第2張

比賽速覽

比賽規則與昨日與第一場比賽的規則一樣,都是選擇範圍都限定在18個英雄中,並且兩隊所使用的人物都是機選,這樣就充分照顧到了英雄陣容的勝率問題。遊戲中的限制也和昨天的一樣,沒有聖劍,沒有分身和幻象,中單英雄不允許出魔瓶;沒有掃描;依然是一只信使。

再而衰!對戰中國大神再次戰敗,OpenAI Five發文告別TI8 科技 第3張

比賽採用了和昨天一樣的陣容,不過AI和人類進行了互換。(通過猜硬幣決定選擇哪隊英雄)

人類陣容:矮人直升機、巫妖、死亡先知、寒冰室女、潮汐獵人

OpenAI的陣容:惡魔巫師、瘟疫法師、巫醫、狙擊手、斧王

OpenAI Five開局很強勢,對人類玩家一直壓制,除了開場人類玩家拿下一血,比賽進行到了32分鐘才將人頭數拉平。其實,在對線和出裝上面人工智能有著非常大的缺陷,這一點在第一場比賽就已經看出來了。整個比賽過程,人類隊打的還是比較輕鬆,畢竟是專業玩家,打出了專業水準。

OpenAI Five 在比賽過程中,上場比賽的AI操作帶來的疑惑也帶到了這一場,例如不知何故在自家高地插眼,比賽後期在自家門口插了一排眼。

從開場到結束,人類雖然在中前期人頭數落後,但是在經濟上的優勢卻貫穿全場,這也是人類能最後獲勝的一個重要原因,例如最初的經濟差距只有兩千左右,中期後期的經濟差距達到了一萬左右,並且還有一些經驗優勢。在如此大經濟差距下,OpenAI Five 也放棄了掙扎,給自己得出了只有1%的勝率。

到最後45分鐘的時候,不出所料,人類打爆遺跡,獲得勝利。

賽後,圈內普遍認為AI的反應確實很快,而且他們對血量的把握遠勝人類玩家,可以更好的掌握進退的時機。但這其實是一些low level的動作,AI在這方面做的比人類好毋庸置疑,但是因此贏得先機會讓人覺得賴皮。

這樣的打法在前期可以和人類抗衡,而且打的還算可以,但是到了中後期的明顯弱勢,說明了AI的全局觀還差很遠,在策略這種高層次的動作上,是還有很大的改進空間。

因此,OpenAI後期肯定要改進AI的高層次的策略和大局觀。以AlphaGo為例,它的搜索樹可以在下棋的時候搜的很深,也就是說可以看到當前局面後面的很多步的各種情況,OpenAI目前在這一點上顯然還不夠好,這也是由於遊戲的複雜度要遠遠高於圍棋。

經過這次比賽,OpenAI下一步應該會注重在DOTA多智能體協作的探究,包括多智能體模型如何構建和如何訓練的問題。比如多智能體這個領域的最新進展、博弈論領域的最新進展和其他一些相關領域的最新進展去獲取靈感。

OpenAI發博文總結比賽:規則改變限制了Five發揮

賽後,OpenAI發布了一篇文章,講述了組織這兩場比賽的原因,也詳細敘述了最近的兩次失敗,以及接下來的目標。

再而衰!對戰中國大神再次戰敗,OpenAI Five發文告別TI8 科技 第4張

OpenAI在博文中稱,與之前相比,本次比賽失敗的最大原因是規則的改變:之前的Benchmark比賽配備了一項重要的限制條件:允許每個英雄一個自身的安全信使(一個向你的英雄傳遞道具的單位)。而在這兩日的比賽中解除了這項限制。

針對這一規則變化,一位不願透露姓名的相關研究者認為這對AI的表現有很大影響。「首先是訓練時間短。短的話,訓練的局數不夠,AI沒見過的局面多,很多情況會不知道怎麼辦,也就是說並沒有收斂。所謂收斂就是說ai的表現會趨於穩定,達到一個最優解或較優解。

可以回顧AlphaGo自己給自己下棋,他是見過了各種局面,才可以應對的比較好。像這種即時戰略遊戲,動作空間更大,所需要的訓練成本也會更高,這是比較顯然的」

另一位相關學者給出了一個通俗的解釋:「可以拿職業運動員和業餘運動員作類比,職業運動員相當於訓練了很久的AI(總體來說比賽結果相對穩定),業餘運動員相當於訓練了很短時間的AI(他可能在某一次比賽中結果不錯,但總體上來看比賽結果是不穩定的,時好時壞)。從另一個角度來說,訓練時間由短到長對應於:從偶然到必然。「

以下為OpenAI博文全文?

OpenAI Five 在DOTA 2 全球頂級賽事 TI8(The International DOTA2 Championships)中與人類職業玩家打了兩場,輸了兩場。其實在比賽過程中,人工智能在前期,特別是在前20~35分鐘,一直占據著上風。

這次比賽與17天前的Benchmark賽相比,有以下特點:

這次的對手更加強大

英雄陣容由第三方提供

比賽規則的一些限制對AI不利

因為OpenAI Five的五名AI「隊員」是從零開始訓練的,所以這場專業比賽中,AI的表現仍然令人興奮。與人類頂級選手對決,如果贏得了比賽當然是非常好,如果比賽輸了也會給我們帶來非常寶貴的經驗,幫助OpenAI Five更上一層樓。

再而衰!對戰中國大神再次戰敗,OpenAI Five發文告別TI8 科技 第5張

從五月份開始,OpenAI Five 的進步曲線圖

規則變化

這次比賽的目的是想看看OpenAI Five 的能力與世界頂級玩家的差距在哪裡,與之前的比賽相比,這次的比賽更加正式也更加真實。在比賽之前,我們並不知道將會與誰交手,因為這取決於有誰願意與我們比賽。

很高興有如此強大的隊伍與我們比賽,相對於之前的Benchmark,我們這兩天獲得了更多的寶貴經驗。

OpenAIFive的第一場比賽是昨天與paiN的對決,雖然這支戰隊在角逐冠軍的時候被淘汰了,但是作為Dota2 18支頂級戰隊中的一支,仍然有著強大的實力。並且,這支隊伍在職業錦標賽中平均贏得了350000美元。

第一場比賽持續了51分鐘,這個時間有些略長,因為一局遊戲平均下來只有45分鐘。在遊戲的中期OpenAI Five重新獲得了一些優勢,但是最終還是輸給了人類玩家的策略搭配。

第二場比賽的對手是中國名人堂的選手,他們每一位都身經百戰,這場比賽持續了45分鐘,和上一局一樣,在中前期OpenAI Five占據著上風,但是在一系列激烈團戰後,OpenAI Five由優勢轉為劣勢,然後輸掉了比賽。

再而衰!對戰中國大神再次戰敗,OpenAI Five發文告別TI8 科技 第6張

在之前的Benchmark比賽中,我們配備了一項重要的限制條件:允許每個英雄一個自身的安全信使(一個向你的英雄傳遞道具的單位),而不是一個團隊的可被破壞的信使。而我們在這兩日的比賽中解除了這項限制。

信使可以不斷運送英雄的恢復品,使得OpenAI更容易保持英雄的狀態,頻繁的參與到對敵方的進攻中。在一場Dota比賽中,狀態較差的英雄可能會放棄進攻,選擇回家補充狀態。很多觀眾認為,附加的信使會讓遊戲看起來不像「真正的Dota」。

我們在六天之前展開訓練(信使和其他項目一樣,是代碼中的一項)。當我們認為單一信使會暫時降低Five的表現時,Dota社區則認為單一信使會讓比賽更加激動人心。

接下來的目標

我們不認為信使的變化是失敗的原因。我們認為,我們還需更多的訓練,進行漏洞修復,以及將模型中最後一塊照本宣科的部分移除。我們期待著將OpenAI Five推向下一個等級。

這兩日的對戰重新讓我們認識到了Dota人機對戰中的差異,也給了我們更多的想像空間。但是OpenAI Five的設計並不只是針對Dota 2這樣一個遊戲,它更多的技術探討是如何將AI技術建立在一個安全的沙盒中,而這個沙盒會幫助我們在未來建立先進性的系統。

相關報導:

https://blog.openai.com/the-international-2018-results/