- +1
AI賭神誕生:匹茲堡賭場德?lián)淙藱C大戰(zhàn)落幕,人工智能完勝
如果以后要再拍一版《賭神》,也許主角們要面對的大BOSS不再是人類了。當(dāng)?shù)貢r間1月30日,在美國匹茲堡的大河賭場(Rivers Casino),一個名為Libratus的人工智能在共計12萬手的一對一無限注德州撲克比賽中擊敗了四名頂尖人類高手,斬獲20萬美元獎金。
這場德?lián)浣绲娜藱C“華山論劍”名為“Brains Vs. Artificial Intelligence: Upping the Ante”(人腦大戰(zhàn)電腦:升級版)。經(jīng)歷了20天的較量后,在個人戰(zhàn)績上,四名職業(yè)玩家Jason Lee、Dong Kim、Daniel McAulay 和Jimmy Chou均不敵人工智能;在總體戰(zhàn)績上,四名人類玩家共計輸給Libratus176萬美元籌碼。
輸給人工智能的人類是什么心情?
在這場德?lián)漕I(lǐng)域的人機巔峰對決中,人類可謂是慘敗。在共計20個比賽日中,人類團隊只在其中4天里贏得了籌碼。
1月30日傍晚,完成了3萬手比賽的Jimmy Chou筋疲力盡地告訴媒體,“這太難了。它(Libratus)不僅不留空子給我鉆,而且我真的覺得它在鉆我空子”。
Daniel McAulay說道,“在第10比賽日的時候,我還樂觀心很大,想把那AI拉下馬”。他們絞盡腦汁,每天比賽后都開會到深夜,但想出的戰(zhàn)術(shù)沒一個管用的。“是啊,我們就是完敗,還能說啥呢”。
而在四名人類高手中最終戰(zhàn)績最佳的Dong Kim或許“早已看穿了一切”,在賽程過半時,他就認定人類已經(jīng)沒有機會了。
Jason Lee下場后則迫不及待地想去找Libratus的開發(fā)者們聊一聊,“我就是想確定一下他們是不是把計算機偷偷塞在我們腦子里了,因為它改變戰(zhàn)術(shù)的時候就像是針對我們每個人發(fā)動的‘人身攻擊’”。
從“溜進”到“均衡”:人工智能一年半逆襲人類
Libratus的開發(fā)者是美國卡內(nèi)基梅隆大學(xué)(CMU)的計算機系教授托馬斯?桑德霍姆(Tuomas Sandholm)和其研究生諾姆?布朗(Noam Brown)。
事實上,在一年半以前,桑德霍姆就曾帶著AI來“踢館”,但那次比賽的結(jié)局完全不同。2015年4月24日至5月7日,同樣是在匹茲堡的大河賭場,桑德霍姆團隊開發(fā)的人工智能Claudico在連續(xù)兩周的無限注德州撲克比賽中輪流與四名排在世界前十的頂尖撲克選手(Doug Polk,Dong Kim,Bjorn Li和Jason Les)單挑80000回合。當(dāng)時,人類幾乎贏下了每個比賽日,最終以73萬美元的籌碼差完勝Claudico,以個人戰(zhàn)績排名而論,也只有一名人類選手不敵Claudico。
因此,當(dāng)時AI專家紛紛預(yù)測,計算機攻下德州撲克起碼還需要5年。這次開賽前,Libratus也不被看好,博彩公司為人類勝出開出的盤口從4賠1到5賠1不等。
那么,Libratus是如何在短短一年半內(nèi)逆襲人類的呢?
首先,是計算強度的大大提高。無論是Libratus還是Claudico,背后都是匹茲堡超算中心。這次截至比賽結(jié)束,Libratus 占用了超級計算機Bridges的2000萬到2500萬“核心小時”,是之前Claudico的10倍。
其次,桑德霍姆也在算法上做出了一些改進。除了采用一種新的平衡近似方法之外,也引進了在后期牌局中分析可能結(jié)果的幾種新方法。
Claudico和Libratus這兩個名字都源自拉丁文,Claudico意為“溜進”。而“溜進”在德?lián)渲兄复环N翻牌前的策略,即玩家不加注,只跟進1倍大盲注。而Claudico機如其名,在實戰(zhàn)中擅長將“溜進”策略運用到極致。
Libratus在拉丁語中的意思則是“均衡的”。這個名字一語雙關(guān),首先,它點出了桑德霍姆將納什均衡等博弈論運用在人工智能算法上;其次,Libratus的“套路”很深,能平衡地使用各種技巧,讓對手吃不準(zhǔn)。
納什均衡學(xué)得好,詐唬死你沒商量
百度首席科學(xué)家吳恩達(Andrew Ng)說道,“撲克是人工智能最難攻克的游戲之一。每一步?jīng)]有所謂的最優(yōu)解,人工智能要采取隨機的策略,這樣它詐唬的時候?qū)Ψ讲艜圆粶?zhǔn)。”
詐唬(bluffing)是德州撲克的一種經(jīng)典策略,它生動地體現(xiàn)了撲克游戲的“心理博弈”特征:即在手上的牌不夠大的時候,依然虛張聲勢地加注,以嚇退對手。為了達到好的詐唬效果,玩家的下注策略需要具備足夠的隨機性,以避免被對手摸清套路。總是詐唬的人和從不詐唬的人都不是一個好的德?lián)渫婕摇?/p>
在本次比賽中,人類玩家明顯地感覺到Libratus善于詐唬及不被詐唬。這得益于開發(fā)者們教會它運用博弈論和戰(zhàn)略決策理論,在充滿不確定性的情景中找到平衡風(fēng)險與收益的最佳策略,即所謂的“均衡”。
值得一提的是,這次比賽是以鏡像局的方式進行的。在每一對鏡像局中,AI和人類玩家的手牌是對調(diào)的。這種比賽方式不僅消除了抓牌運氣的影響,也為我們了解AI的出牌風(fēng)格提供了生動的視角。這比如其中一盤,人類高中Jason Lee起手牌是一對10(非梅花),前三張公共牌為K、9、4(其中有兩張梅花),第四張和第五張都開出了非梅花牌。此時,AI突然壓上所有籌碼,Lee選擇不跟。通過隔壁的鏡像局,我們發(fā)現(xiàn)AI當(dāng)時的起手牌確實是兩張梅花,也就是,AI最后在湊同花失敗的情況下,成功通過詐唬贏下了一局。而在鏡像局中,AI早早為手上一對10下了重注,最后人類玩家同樣選擇棄牌。
在現(xiàn)實生活中或許比阿爾法狗更有用
盡管就表面來看,Libratus這次奪魁像是阿爾法狗戰(zhàn)勝李世石的翻版,無非是再一次證明了人類玩游戲玩不過計算機。但事實上,解決棋類和解決撲克這兩個問題對人工智能而言,性質(zhì)和路徑非常不同。
就路徑來看,我們已經(jīng)發(fā)現(xiàn)相比起孕育在時髦的深度學(xué)習(xí)土壤中的阿爾法狗,Libratus或許更加像一個依賴超算能力的“經(jīng)典人工智能”(Good Old-Fashioned Artificial Intelligence)。除此之外,阿爾法狗通過計算每一步的勝率來進行決策,但Libratus面臨的決策情景則復(fù)雜得多,為此,開發(fā)者不得不引入博弈論來對問題進行處理。
這也是人類在德州撲克陣地上比圍棋多撐了一會兒的原因。此前20年間被人工智能攻克的西洋雙陸棋、跳棋、國際象棋和圍棋都是“完美信息”游戲,所有玩家在游戲中能獲得的確定性信息是對稱的。人工智能掌握這些游戲的難度,主要取決于游戲中需要做出的決策點(decision points)的數(shù)量,這決定了計算機需要的計算量。圍棋是上述幾種棋類中決策點數(shù)量最多的,因而也是最后被人工智能掌握的。一盤圍棋游戲約包含有10的170次方個決策點。
而計算機之父馮?諾依曼說過,“現(xiàn)實世界與此不同,現(xiàn)實世界包含有很多賭博、欺騙的戰(zhàn)術(shù),還涉及你會思考別人會認為你將做什么。”德州撲克就是這樣一種更接近現(xiàn)實世界的“非完美信息”游戲,玩家只掌握不對稱的信息,他不知道對手手中是什么牌,不知道五張公共牌會開出怎樣的結(jié)果,也不知道對手猜測自己握有怎樣的手牌。這些問題在計算范圍之內(nèi)。
因此,雖然一對一無限注德?lián)溆螒蛑邪?0的160次方個決策點,要少于圍棋,但它對人工智能的推理能力提出了更高的要求。
而通過博弈論讓人工智能學(xué)會找到平衡風(fēng)險與收益的方法,不僅會在牌桌上贏得籌碼,也將在現(xiàn)實生活中找到用武之地。這也是匹茲堡超算中心同意與桑德霍姆合作的原因。畢竟商業(yè)談判、網(wǎng)絡(luò)安全、出租車自動駕駛、機器人規(guī)劃、醫(yī)療規(guī)劃等領(lǐng)域都需要在“不完美信息”情景中做出決策。諾姆?布朗認為,現(xiàn)在人工智能已經(jīng)在圍棋、撲克等特定任務(wù)上媲美甚至超過人類,但我們最終追求的是能像人類一樣適應(yīng)現(xiàn)實生活中各種不確定性和完成各種任務(wù)的通用人工智能(GAI),而Libratus就在應(yīng)對不確定性這個問題上走出了關(guān)鍵一步。從這個意義上說,會玩德州撲克的AI或許比會下圍棋的AI更有用。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司