尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
在DeepMind的倫敦總部,人們正在觀看DeepMind的AI與人類職業玩家對決
網易智能訊1月25日消息,Google旗下DeepMind開發的人工智能AIphaStar在《星際爭霸2》(Starcraft II)中擊敗了兩位人類職業玩家,這是AI領域的新里程碑。在YouTube和Twitch上播放的比賽中,AI玩家在連續10局中反復擊敗人類。而在最後的對決中,職業選手格里戈爾茲·「曼娜」·科明茲(Grzegorz
「MaNa」 Komincz)為人類贏得了唯一的勝利。
相比人類玩家,AI的優劣勢很明顯
與兄弟AI AIphago登頂的圍棋所不同的是,《星際爭霸2》是不完美信息系統,有著阻礙信息順利獲取的戰爭迷霧,除此之外,操作的單位數量和頻率較大,且存在多線作戰,需要同時兼顧後方經營,和前方多線戰事。顯然,在多線決策方面AI的優勢要比線性思維的人類要大得多。
Atari、圍棋和星際爭霸2的比較
DeepMind的研究聯席負責人戴維·西爾弗(David Silver)在賽後表示:「AI的歷史被打上了許多重大的、標桿性勝利的印記。盡管還有很多工作要做,但我希望未來的人們在回顧(今天)時,認為這是AI系統向前邁進了一步的象徵。」
在視頻遊戲里擊敗人類玩家似乎是AI開發過程中的一個小插曲,但這也是一個重大的研究挑戰。《星際爭霸2》這樣的遊戲比圍棋之類棋盤遊戲更難玩。在視頻遊戲中,AI無法通過觀察每個棋子的移動來計算下一步棋,它們必須實時做出反應。
去年12月份的比賽截圖顯示,AlphaStar與人類玩家TLO的對決
這些因素似乎對DeepMind被稱為AlphaStar的AI系統並未構成多大障礙。首先,它打敗了人類職業玩家達里奧·溫什(Dario Wunsch,即TLO),然後將目標對準MaNa。這些比賽最初是於去年12月份在DeepMind的倫敦總部舉行的,但該公司今天播放了AlphaStar與MaNa的最後一場比賽,這是人類玩家唯一獲勝的比賽。
《星際爭霸》的職業評論員形容AlphaStar的表現是「非凡的」、「超人的」。在《星際爭霸2》中,玩家在建立基地、訓練軍隊和入侵敵人領土之前,會從相同地圖的不同側面展開行動。AlphaStar尤其擅長所謂的「微操」,即在戰場上快速、果斷地控制單個或少量部隊的能力。
盡管人類玩家有時能夠訓練出更強大的作戰單位,但AlphaZero還是能夠在近距離內戰勝他們。在一場遊戲中,AlphaStar用名為Stalker的快速移動單位騷擾MaNa。評論員凱文·范德庫伊(Kevin
van der Kooi)將其描述為「非凡的單位控制能力,很不常見」。MaNa在賽後表示:「如果我和任何人類比賽,他們都不會將Stalker運用得如此出神入化。」
這與我們在其他高級遊戲AI中看到的行為相呼應。當OpenAI去年在《Dota 2》中與人類職業選手對決時,它們最後以失敗告終。但專家們指出,這些AI是以一種「清晰而精確」的方式進行著遊戲。對此,我們無需感到奇怪,快速做出沒有任何錯誤的決定是機器的天賦異能。
專家們已經開始仔細分析這些比賽,並就AlphaStar是否擁有任何不公平的優勢展開辯論。這些AI在某些方面依然顯得笨拙,例如,AlphaStar的每分鐘點擊依然比人類低。但與人類玩家不同的是,它每次都能夠查看整個地圖,而不是手動導航。
DeepMind的研究人員表示,這並沒有為AlphaStar提供真正的優勢,因為它在任何時間只關注地圖的某個特定部分。但是,正如比賽所顯示的那樣,這並沒有阻止AlphaStar同時熟練地控制三個不同區域的單位。評論員們表示,這對人類來說是不可能的。值得注意的是,當MaNa在直播比賽中擊敗AlphaStar時,AI使用的是受限的錄影頭視角。
AlphaStar的另一個潛在痛點是,人類玩家雖然是職業玩家,但卻不是世界冠軍的標準。TLO還必須扮演《星際爭霸2》中他不熟悉的三個種族之一。
AlphaStar處理過程的圖形展示,該系統從上到下能看到整個地圖,並預測哪些行為將幫助獲得勝利
AI的重大進步?
撇開這些不談,專家們稱這場比賽是AI向前邁出的重要一步。長期參與《星際爭霸》AI場景的AI研究人員戴夫·丘吉爾(Dave Churchill)表示:「我認為AI取得了重大成就,至少比我在AI研究人員中聽到的最樂觀猜測提前了一年。」然而,邱吉爾補充說,由於DeepMind尚未發布任何關於這項工作的研究論文,因此很難說它是否顯示出任何技術上的飛躍。他指出:「我還沒有讀過這篇博客文章,也沒有接觸過相關的論文或技術細節。」
佐治亞理工學院AI副教授馬克·里德爾(Mark Riedl)表示,他對結果並不那麼驚訝,AI獲得勝利只是「時間問題」。里德爾補充說,他不認為這些比賽表明《星際爭霸2》已經被AI徹底掌控。他表示:「在上一場直播比賽中,限制AlphaStar的某些能力確實消除了它的許多人為優勢。但我們看到的更大的問題是,當人們可以把AI推出舒適區時,它就會崩潰。」
丹麥哥本哈根信息技術大學的塞巴斯蒂安·里斯(Sebastian Risi)表示:「這看起來是向前邁出的一大步。我們不知道這其間有多少創新,但培訓AI的方式似乎是關鍵。」里斯的同事尼爾斯·賈斯特森(Niels
Justesen)說:「我沒想到會發生這樣的事情,尤其是因為之前的端到端學習《星際爭霸》的嘗試遠遠沒有達到人類的水平。」
殘酷的強化學習AI競技場
最終,這類工作的最終目標不是利用AI在視頻遊戲中擊敗人類,而是改進AI的訓練方法,尤其是為了創建能夠在《星際爭霸》等複雜虛擬環境中運行的系統。
為了訓練AlphaStar, DeepMind的研究人員使用了被稱為強化學習的方法。AI智能體基本上是通過反復嘗試才能達到某些目標,比如贏球或者僅僅是生存下去。它們首先通過模仿人類玩家來學習,然後在類似競技比賽中相互對決。最強的AI會存活下來,最弱的則被淘汰。DeepMind可能,其每個AlphaStar智能體都以這種方式積累了大約200年的遊戲時間,遊戲速度也在加快。
DeepMind很清楚自己開展這項工作的目標。AlphaStar項目聯合負責人奧里爾·維尼亞斯(Oriol Vinyals)說:「首先,也是最重要的,DeepMind的任務是建立通用AI,它可以執行人類所能完成的任何心理任務。要做到這個目標,最重要的就是對我們的AI智能體在各種任務中的表現進行基準測試。」
科技媒體Engadget評論道,Google旗下的AI子公司DeepMind已經轉向電腦遊戲,其AI系統始終在進行微調,以適應《星際爭霸2》。今天的《星際爭霸2》比賽,是AlphaStar與職業玩家的第一次正面交鋒。在兩場五局的系列比賽中,AlphaStar戰勝了職業選手TLO和MaNa,贏得了10場勝利。而在連續十次失利後,人類玩家終於贏得了最後一場比賽。
DeepMind的野心
雖然遊戲並不能很好地展示這項技術,但它確實描繪了DeepMind在理解人類行為方面取得的長足進步。最終,這項技術可以被用於許多其他領域,如理論物理學,甚至醫學。紐約大學的朱利安·加里烏斯(Julian lius)表示:「我認為《星際爭霸》就像是在經營一家公司,尤其是後勤部門。關鍵是要規劃研發,在正確的時間把產品送到正確的地方,避免瓶頸。」
AlphaStar也可以幫助專業人士改善他們的策略。馬耳他大學的Georgios Yannakakis稱:「如果AI能夠找到最優的遊戲方式,那將是非常令人興奮的。這畢竟是人們構建AI的原因之一。目前來說,很多人都不想在任何遊戲中遇到DeepMind的AI對手,更不用說像《星際爭霸2》中與其進行激烈對決了。(選自:The Verge編譯:網易智能 參與:小小)