AI賭神誕生：匹茲堡賭場(chǎng)德?lián)淙藱C(jī)大戰(zhàn)落幕，人工智能完勝

澎湃新聞見習(xí)記者虞涵棋

2017-01-31 21:54

來源：澎湃新聞

如果以后要再拍一版《賭神》，也許主角們要面對(duì)的大BOSS不再是人類了。當(dāng)?shù)貢r(shí)間1月30日，在美國匹茲堡的大河賭場(chǎng)（Rivers Casino），一個(gè)名為Libratus的人工智能在共計(jì)12萬手的一對(duì)一無限注德州撲克比賽中擊敗了四名頂尖人類高手，斬獲20萬美元獎(jiǎng)金。

這場(chǎng)德?lián)浣绲娜藱C(jī)“華山論劍”名為“Brains Vs. Artificial Intelligence: Upping the Ante”（人腦大戰(zhàn)電腦：升級(jí)版）。經(jīng)歷了20天的較量后，在個(gè)人戰(zhàn)績上，四名職業(yè)玩家Jason Lee、Dong Kim、Daniel McAulay 和Jimmy Chou均不敵人工智能；在總體戰(zhàn)績上，四名人類玩家共計(jì)輸給Libratus176萬美元籌碼。

輸給人工智能的人類是什么心情？

在這場(chǎng)德?lián)漕I(lǐng)域的人機(jī)巔峰對(duì)決中，人類可謂是慘敗。在共計(jì)20個(gè)比賽日中，人類團(tuán)隊(duì)只在其中4天里贏得了籌碼。

1月30日傍晚，完成了3萬手比賽的Jimmy Chou筋疲力盡地告訴媒體，“這太難了。它（Libratus）不僅不留空子給我鉆，而且我真的覺得它在鉆我空子”。

Daniel McAulay說道，“在第10比賽日的時(shí)候，我還樂觀心很大，想把那AI拉下馬”。他們絞盡腦汁，每天比賽后都開會(huì)到深夜，但想出的戰(zhàn)術(shù)沒一個(gè)管用的?！笆前?，我們就是完敗，還能說啥呢”。

而在四名人類高手中最終戰(zhàn)績最佳的Dong Kim或許“早已看穿了一切”，在賽程過半時(shí)，他就認(rèn)定人類已經(jīng)沒有機(jī)會(huì)了。

Jason Lee下場(chǎng)后則迫不及待地想去找Libratus的開發(fā)者們聊一聊，“我就是想確定一下他們是不是把計(jì)算機(jī)偷偷塞在我們腦子里了，因?yàn)樗淖儜?zhàn)術(shù)的時(shí)候就像是針對(duì)我們每個(gè)人發(fā)動(dòng)的‘人身攻擊’”。

從“溜進(jìn)”到“均衡”：人工智能一年半逆襲人類

Libratus的開發(fā)者是美國卡內(nèi)基梅隆大學(xué)（CMU）的計(jì)算機(jī)系教授托馬斯?桑德霍姆（Tuomas Sandholm）和其研究生諾姆?布朗（Noam Brown）。

事實(shí)上，在一年半以前，桑德霍姆就曾帶著AI來“踢館”，但那次比賽的結(jié)局完全不同。2015年4月24日至5月7日，同樣是在匹茲堡的大河賭場(chǎng)，桑德霍姆團(tuán)隊(duì)開發(fā)的人工智能Claudico在連續(xù)兩周的無限注德州撲克比賽中輪流與四名排在世界前十的頂尖撲克選手（Doug Polk，Dong Kim，Bjorn Li和Jason Les）單挑80000回合。當(dāng)時(shí)，人類幾乎贏下了每個(gè)比賽日，最終以73萬美元的籌碼差完勝Claudico，以個(gè)人戰(zhàn)績排名而論，也只有一名人類選手不敵Claudico。

因此，當(dāng)時(shí)AI專家紛紛預(yù)測(cè)，計(jì)算機(jī)攻下德州撲克起碼還需要5年。這次開賽前，Libratus也不被看好，博彩公司為人類勝出開出的盤口從4賠1到5賠1不等。

那么，Libratus是如何在短短一年半內(nèi)逆襲人類的呢？

首先，是計(jì)算強(qiáng)度的大大提高。無論是Libratus還是Claudico，背后都是匹茲堡超算中心。這次截至比賽結(jié)束，Libratus 占用了超級(jí)計(jì)算機(jī)Bridges的2000萬到2500萬“核心小時(shí)”，是之前Claudico的10倍。

其次，桑德霍姆也在算法上做出了一些改進(jìn)。除了采用一種新的平衡近似方法之外，也引進(jìn)了在后期牌局中分析可能結(jié)果的幾種新方法。

Claudico和Libratus這兩個(gè)名字都源自拉丁文，Claudico意為“溜進(jìn)”。而“溜進(jìn)”在德?lián)渲兄复环N翻牌前的策略，即玩家不加注，只跟進(jìn)1倍大盲注。而Claudico機(jī)如其名，在實(shí)戰(zhàn)中擅長將“溜進(jìn)”策略運(yùn)用到極致。

Libratus在拉丁語中的意思則是“均衡的”。這個(gè)名字一語雙關(guān)，首先，它點(diǎn)出了桑德霍姆將納什均衡等博弈論運(yùn)用在人工智能算法上；其次，Libratus的“套路”很深，能平衡地使用各種技巧，讓對(duì)手吃不準(zhǔn)。

納什均衡學(xué)得好，詐唬死你沒商量

百度首席科學(xué)家吳恩達(dá)（Andrew Ng）說道，“撲克是人工智能最難攻克的游戲之一。每一步?jīng)]有所謂的最優(yōu)解，人工智能要采取隨機(jī)的策略，這樣它詐唬的時(shí)候?qū)Ψ讲艜?huì)吃不準(zhǔn)?！?/p>

詐唬（bluffing）是德州撲克的一種經(jīng)典策略，它生動(dòng)地體現(xiàn)了撲克游戲的“心理博弈”特征：即在手上的牌不夠大的時(shí)候，依然虛張聲勢(shì)地加注，以嚇退對(duì)手。為了達(dá)到好的詐唬效果，玩家的下注策略需要具備足夠的隨機(jī)性，以避免被對(duì)手摸清套路?？偸窃p唬的人和從不詐唬的人都不是一個(gè)好的德?lián)渫婕摇?/p>

在本次比賽中，人類玩家明顯地感覺到Libratus善于詐唬及不被詐唬。這得益于開發(fā)者們教會(huì)它運(yùn)用博弈論和戰(zhàn)略決策理論，在充滿不確定性的情景中找到平衡風(fēng)險(xiǎn)與收益的最佳策略，即所謂的“均衡”。

值得一提的是，這次比賽是以鏡像局的方式進(jìn)行的。在每一對(duì)鏡像局中，AI和人類玩家的手牌是對(duì)調(diào)的。這種比賽方式不僅消除了抓牌運(yùn)氣的影響，也為我們了解AI的出牌風(fēng)格提供了生動(dòng)的視角。這比如其中一盤，人類高中Jason Lee起手牌是一對(duì)10（非梅花），前三張公共牌為K、9、4(其中有兩張梅花)，第四張和第五張都開出了非梅花牌。此時(shí)，AI突然壓上所有籌碼，Lee選擇不跟。通過隔壁的鏡像局，我們發(fā)現(xiàn)AI當(dāng)時(shí)的起手牌確實(shí)是兩張梅花，也就是，AI最后在湊同花失敗的情況下，成功通過詐唬贏下了一局。而在鏡像局中，AI早早為手上一對(duì)10下了重注，最后人類玩家同樣選擇棄牌。

在現(xiàn)實(shí)生活中或許比阿爾法狗更有用

盡管就表面來看，Libratus這次奪魁像是阿爾法狗戰(zhàn)勝李世石的翻版，無非是再一次證明了人類玩游戲玩不過計(jì)算機(jī)。但事實(shí)上，解決棋類和解決撲克這兩個(gè)問題對(duì)人工智能而言，性質(zhì)和路徑非常不同。

就路徑來看，我們已經(jīng)發(fā)現(xiàn)相比起孕育在時(shí)髦的深度學(xué)習(xí)土壤中的阿爾法狗，Libratus或許更加像一個(gè)依賴超算能力的“經(jīng)典人工智能”（Good Old-Fashioned Artificial Intelligence）。除此之外，阿爾法狗通過計(jì)算每一步的勝率來進(jìn)行決策，但Libratus面臨的決策情景則復(fù)雜得多，為此，開發(fā)者不得不引入博弈論來對(duì)問題進(jìn)行處理。

這也是人類在德州撲克陣地上比圍棋多撐了一會(huì)兒的原因。此前20年間被人工智能攻克的西洋雙陸棋、跳棋、國際象棋和圍棋都是“完美信息”游戲，所有玩家在游戲中能獲得的確定性信息是對(duì)稱的。人工智能掌握這些游戲的難度，主要取決于游戲中需要做出的決策點(diǎn)（decision points）的數(shù)量，這決定了計(jì)算機(jī)需要的計(jì)算量。圍棋是上述幾種棋類中決策點(diǎn)數(shù)量最多的，因而也是最后被人工智能掌握的。一盤圍棋游戲約包含有10的170次方個(gè)決策點(diǎn)。

而計(jì)算機(jī)之父馮?諾依曼說過，“現(xiàn)實(shí)世界與此不同，現(xiàn)實(shí)世界包含有很多賭博、欺騙的戰(zhàn)術(shù)，還涉及你會(huì)思考別人會(huì)認(rèn)為你將做什么?！钡轮輷淇司褪沁@樣一種更接近現(xiàn)實(shí)世界的“非完美信息”游戲，玩家只掌握不對(duì)稱的信息，他不知道對(duì)手手中是什么牌，不知道五張公共牌會(huì)開出怎樣的結(jié)果，也不知道對(duì)手猜測(cè)自己握有怎樣的手牌。這些問題在計(jì)算范圍之內(nèi)。

因此，雖然一對(duì)一無限注德?lián)溆螒蛑邪?0的160次方個(gè)決策點(diǎn)，要少于圍棋，但它對(duì)人工智能的推理能力提出了更高的要求。

而通過博弈論讓人工智能學(xué)會(huì)找到平衡風(fēng)險(xiǎn)與收益的方法，不僅會(huì)在牌桌上贏得籌碼，也將在現(xiàn)實(shí)生活中找到用武之地。這也是匹茲堡超算中心同意與桑德霍姆合作的原因。畢竟商業(yè)談判、網(wǎng)絡(luò)安全、出租車自動(dòng)駕駛、機(jī)器人規(guī)劃、醫(yī)療規(guī)劃等領(lǐng)域都需要在“不完美信息”情景中做出決策。諾姆?布朗認(rèn)為，現(xiàn)在人工智能已經(jīng)在圍棋、撲克等特定任務(wù)上媲美甚至超過人類，但我們最終追求的是能像人類一樣適應(yīng)現(xiàn)實(shí)生活中各種不確定性和完成各種任務(wù)的通用人工智能（GAI），而Libratus就在應(yīng)對(duì)不確定性這個(gè)問題上走出了關(guān)鍵一步。從這個(gè)意義上說，會(huì)玩德州撲克的AI或許比會(huì)下圍棋的AI更有用。

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)