圍棋之後 AI繼續碾壓《星際爭霸2》人類職業玩家

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

在DeepMind的倫敦總部，人們正在觀看DeepMind的AI與人類職業玩家對決

網易智能訊1月25日消息，Google旗下DeepMind開發的人工智能AIphaStar在《星際爭霸2》（Starcraft II）中擊敗了兩位人類職業玩家，這是AI領域的新里程碑。在YouTube和Twitch上播放的比賽中，AI玩家在連續10局中反復擊敗人類。而在最後的對決中，職業選手格里戈爾茲·「曼娜」·科明茲（Grzegorz
「MaNa」 Komincz）為人類贏得了唯一的勝利。

相比人類玩家，AI的優劣勢很明顯

與兄弟AI AIphago登頂的圍棋所不同的是，《星際爭霸2》是不完美信息系統，有著阻礙信息順利獲取的戰爭迷霧，除此之外，操作的單位數量和頻率較大，且存在多線作戰，需要同時兼顧後方經營，和前方多線戰事。顯然，在多線決策方面AI的優勢要比線性思維的人類要大得多。

Atari、圍棋和星際爭霸2的比較

DeepMind的研究聯席負責人戴維·西爾弗(David Silver)在賽後表示:「AI的歷史被打上了許多重大的、標桿性勝利的印記。盡管還有很多工作要做，但我希望未來的人們在回顧(今天)時，認為這是AI系統向前邁進了一步的象徵。」

在視頻遊戲里擊敗人類玩家似乎是AI開發過程中的一個小插曲，但這也是一個重大的研究挑戰。《星際爭霸2》這樣的遊戲比圍棋之類棋盤遊戲更難玩。在視頻遊戲中，AI無法通過觀察每個棋子的移動來計算下一步棋，它們必須實時做出反應。

去年12月份的比賽截圖顯示，AlphaStar與人類玩家TLO的對決

這些因素似乎對DeepMind被稱為AlphaStar的AI系統並未構成多大障礙。首先，它打敗了人類職業玩家達里奧·溫什(Dario Wunsch，即TLO)，然後將目標對準MaNa。這些比賽最初是於去年12月份在DeepMind的倫敦總部舉行的，但該公司今天播放了AlphaStar與MaNa的最後一場比賽，這是人類玩家唯一獲勝的比賽。

《星際爭霸》的職業評論員形容AlphaStar的表現是「非凡的」、「超人的」。在《星際爭霸2》中，玩家在建立基地、訓練軍隊和入侵敵人領土之前，會從相同地圖的不同側面展開行動。AlphaStar尤其擅長所謂的「微操」，即在戰場上快速、果斷地控制單個或少量部隊的能力。

盡管人類玩家有時能夠訓練出更強大的作戰單位，但AlphaZero還是能夠在近距離內戰勝他們。在一場遊戲中，AlphaStar用名為Stalker的快速移動單位騷擾MaNa。評論員凱文·范德庫伊(Kevin
van der Kooi)將其描述為「非凡的單位控制能力，很不常見」。MaNa在賽後表示:「如果我和任何人類比賽，他們都不會將Stalker運用得如此出神入化。」

這與我們在其他高級遊戲AI中看到的行為相呼應。當OpenAI去年在《Dota 2》中與人類職業選手對決時，它們最後以失敗告終。但專家們指出，這些AI是以一種「清晰而精確」的方式進行著遊戲。對此，我們無需感到奇怪，快速做出沒有任何錯誤的決定是機器的天賦異能。

專家們已經開始仔細分析這些比賽，並就AlphaStar是否擁有任何不公平的優勢展開辯論。這些AI在某些方面依然顯得笨拙，例如，AlphaStar的每分鐘點擊依然比人類低。但與人類玩家不同的是，它每次都能夠查看整個地圖，而不是手動導航。

DeepMind的研究人員表示，這並沒有為AlphaStar提供真正的優勢，因為它在任何時間只關注地圖的某個特定部分。但是，正如比賽所顯示的那樣，這並沒有阻止AlphaStar同時熟練地控制三個不同區域的單位。評論員們表示，這對人類來說是不可能的。值得注意的是，當MaNa在直播比賽中擊敗AlphaStar時，AI使用的是受限的錄影頭視角。

AlphaStar的另一個潛在痛點是，人類玩家雖然是職業玩家，但卻不是世界冠軍的標準。TLO還必須扮演《星際爭霸2》中他不熟悉的三個種族之一。

AlphaStar處理過程的圖形展示，該系統從上到下能看到整個地圖，並預測哪些行為將幫助獲得勝利

AI的重大進步？

撇開這些不談，專家們稱這場比賽是AI向前邁出的重要一步。長期參與《星際爭霸》AI場景的AI研究人員戴夫·丘吉爾（Dave Churchill）表示:「我認為AI取得了重大成就，至少比我在AI研究人員中聽到的最樂觀猜測提前了一年。」然而，邱吉爾補充說，由於DeepMind尚未發布任何關於這項工作的研究論文，因此很難說它是否顯示出任何技術上的飛躍。他指出:「我還沒有讀過這篇博客文章，也沒有接觸過相關的論文或技術細節。」

佐治亞理工學院AI副教授馬克·里德爾(Mark Riedl)表示，他對結果並不那麼驚訝，AI獲得勝利只是「時間問題」。里德爾補充說，他不認為這些比賽表明《星際爭霸2》已經被AI徹底掌控。他表示：「在上一場直播比賽中，限制AlphaStar的某些能力確實消除了它的許多人為優勢。但我們看到的更大的問題是，當人們可以把AI推出舒適區時，它就會崩潰。」

丹麥哥本哈根信息技術大學的塞巴斯蒂安·里斯(Sebastian Risi)表示：「這看起來是向前邁出的一大步。我們不知道這其間有多少創新，但培訓AI的方式似乎是關鍵。」里斯的同事尼爾斯·賈斯特森（Niels
Justesen）說:「我沒想到會發生這樣的事情，尤其是因為之前的端到端學習《星際爭霸》的嘗試遠遠沒有達到人類的水平。」

殘酷的強化學習AI競技場

最終，這類工作的最終目標不是利用AI在視頻遊戲中擊敗人類，而是改進AI的訓練方法，尤其是為了創建能夠在《星際爭霸》等複雜虛擬環境中運行的系統。

為了訓練AlphaStar, DeepMind的研究人員使用了被稱為強化學習的方法。AI智能體基本上是通過反復嘗試才能達到某些目標，比如贏球或者僅僅是生存下去。它們首先通過模仿人類玩家來學習，然後在類似競技比賽中相互對決。最強的AI會存活下來，最弱的則被淘汰。DeepMind可能，其每個AlphaStar智能體都以這種方式積累了大約200年的遊戲時間，遊戲速度也在加快。

DeepMind很清楚自己開展這項工作的目標。AlphaStar項目聯合負責人奧里爾·維尼亞斯(Oriol Vinyals)說：「首先，也是最重要的，DeepMind的任務是建立通用AI，它可以執行人類所能完成的任何心理任務。要做到這個目標，最重要的就是對我們的AI智能體在各種任務中的表現進行基準測試。」

科技媒體Engadget評論道，Google旗下的AI子公司DeepMind已經轉向電腦遊戲，其AI系統始終在進行微調，以適應《星際爭霸2》。今天的《星際爭霸2》比賽，是AlphaStar與職業玩家的第一次正面交鋒。在兩場五局的系列比賽中，AlphaStar戰勝了職業選手TLO和MaNa，贏得了10場勝利。而在連續十次失利後，人類玩家終於贏得了最後一場比賽。

DeepMind的野心

雖然遊戲並不能很好地展示這項技術，但它確實描繪了DeepMind在理解人類行為方面取得的長足進步。最終，這項技術可以被用於許多其他領域，如理論物理學，甚至醫學。紐約大學的朱利安·加里烏斯(Julian lius)表示：「我認為《星際爭霸》就像是在經營一家公司，尤其是後勤部門。關鍵是要規劃研發，在正確的時間把產品送到正確的地方，避免瓶頸。」

AlphaStar也可以幫助專業人士改善他們的策略。馬耳他大學的Georgios Yannakakis稱:「如果AI能夠找到最優的遊戲方式，那將是非常令人興奮的。這畢竟是人們構建AI的原因之一。目前來說，很多人都不想在任何遊戲中遇到DeepMind的AI對手，更不用說像《星際爭霸2》中與其進行激烈對決了。（選自：The Verge編譯：網易智能參與：小小）

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章