連德州撲克世界冠軍都敗給人工智能Pluribus,人類還玩的過機器嗎?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

美國卡內基—梅隆大學宣布,該校和臉書公司合作開發的人工智能Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手,成為機器在多人遊戲中戰勝人類的一個里程碑。

美國《科學》雜誌同日在線發表的相關論文顯示,Pluribus與13名德州撲克高手進行了1萬手不限注對局的六人桌比賽,每次比賽中由機器對5名人類選手,結果機器取得勝利。在另外一種形式的六人桌比賽中,由5個Pluribus與1名人類選手對局,結果機器分別在5000手對局中先後擊敗了德州撲克世界冠軍達倫·伊萊亞斯和克里斯·弗格森。

連德州撲克世界冠軍都敗給人工智能Pluribus,人類還玩的過機器嗎? 熱門 第1張

在比賽中,Pluribus會讓自己變得難以預測。例如常規打法是在牌最好的時候押注,但這很快會被對手識破,因此它會“耍點心眼”,不按常理出牌。分析顯示,它會做出一些多數人類玩家都認為不好的決策,這在客觀上也迷惑了對手。

研究人員指出,與讓機器下國際象棋和圍棋相比,德州撲克的挑戰更大。德州撲克比賽中每方都不知道對手的牌,對手還可能在押注時虛張聲勢,因此決策只能基於不完全信息,這與真實世界中的問題更接近。

卡內基—梅隆大學教授圖奧馬斯·桑德霍爾姆說,此前人工智能在“戰略性推理”方面取得的成就僅限於二人遊戲,此次在復雜遊戲中戰勝5名人類選手,將為人工智能解決真實世界問題提供新的可能性。

連德州撲克世界冠軍都敗給人工智能Pluribus,人類還玩的過機器嗎? 熱門 第2張

當計算機科學家們首次在創建能夠打敗頂級人類職業牌手的機器人領域取得進展時,人類至少有一點點慰藉,因為撲克機器人只在有限德州撲克發揮優異。複雜的下注尺度使得更普遍的無限德州撲克暫時是安全的。

2017年,一個叫做Libratus的機器人橫空出世,在單挑無限德州撲克中戰勝了一批頂級職業牌手,撲克社區不得不用撲克機器人只能在單挑撲克中取勝來安慰自己。

然而,在2019年6月,Libratus背後的研發者曝料他們的最新機器人Pluribus能夠在無限德州撲克六人桌打敗頂級人類職業牌手。

連德州撲克世界冠軍都敗給人工智能Pluribus,人類還玩的過機器嗎? 熱門 第3張

10年前,卡耐基梅倫大學的Noam Brown博士和Tuomas Sandholm教授開始將研究撲克作為解決其他復雜的非完整信息問題的一種手段。他們最近的撲克機器人是和Facebook的AI研究小組聯合開發的。

Brown和Sandholm在刊載於《科學》雜誌的學術論文中寫道:“過去二十年來,我們見證了AI系統在挑戰複雜撲克形式的飛速進展。然而,所有之前的突破僅限於兩人對弈。開發一個同時對抗多個牌手的超級AI被人們普遍認為是一個尚未達成的主要里程碑。”

Pluribus的性能評估涉及兩個對抗人類職業牌手的實驗。在第一個實驗中,五名人類牌手和Pluribus的一個拷貝坐在一桌。這個實驗的參與者有Jimmy Chou,Seth Davies,Michael Gagliano,Anthony Gregg,Dong Kim,Jason Les,Linus Loeliger,Daniel McAulay,2012 WSOP主賽事冠軍Greg Merson,兩副WSOP金手鐲得主Nick Petrangelo,Sean Ruane, Trevor Savage和Jacob Toole。

在為期12天的對戰中,雙方一共打了10000手牌。每個牌手都被分配了一個別名(網名),從而他們能夠跟踪對手的遊戲傾向,但他們打牌時不知道對手的真實身份。為了激勵人類牌手發揮出最佳水準,實驗者將根據他們的績效分配五萬美元的獎金。最終Pluribus在對抗中交出了每百手4.8BB的好成績。

Pluribus的研發者們在論文中寫道:“這在無人德州撲克六人桌被視作一個很高的贏率,特別是對抗一批精英級職業牌手。這表明Pluribus比人類牌手更厲害。”

第二個實驗的參與者是六副WSOP金手鐲得主Chris Ferguson和四屆WPT主賽事冠軍Darren Elias,他們每人迎戰Pluribus的五個拷貝。每個參與者將獲得2000美元的參賽獎勵,此外,成績更好者將獲得另外2000美元的額外獎賞。

這次仍然是對戰10000手牌。最終,Pluribus平均每百手牌贏了Elias 4BB,贏了Ferguson 2.5BB。Ferguson獲得了2000美元的額外獎賞。

Brown和Sandholme對於Pluribus的無限六人桌玩法可能對人類牌手有哪些啟示提出了他們的看法:“Pluribus證實了跛入是一種次優玩法的傳統人類智慧。雖然在最初編制Pluribus自我對戰的基本策略時採用了跛入,但隨著自我對戰的繼續,Pluribus逐漸在其策略中拋棄了這種行動。但是,Pluribus不認同’反主動下注’(donk bet)是個錯誤的普遍看法。Pluribus做反主動下注的頻率遠高於人類職業牌手。

因為撲克機器人已經跨越了人機對戰的一個主要里程碑,像Brown和Sandholm這樣的AI研究者可能開始投入更多時間到AI的其他應用,比如模擬戰爭、軍事策略分析和AI在商業市場的應用。