雖然完敗于德撲人工智能，人類牌手卻靠“認慫”偷了幾局

澎湃新聞見習記者虞涵棋

2017-04-10 12:45

來源：澎湃新聞

“我跟它（AI）打就一直認慫。”北京千山劇影視傳媒有限公司董事長、中國“龍之隊”隊員童舟這樣向澎湃新聞（www.usamodel.cn）介紹他曾連勝德撲AI四場的“心得”。

雖然5月份在烏鎮，圍棋“當今第一人”柯潔將與AlphaGo上演圍棋界人機對戰的終極一戰，但創新工場CEO李開復在4月5日斷言柯潔毫無勝算，比起來，4月6日到10日舉行的德州撲克人機大戰表演賽尚有10%的可能成為人類歷史上贏得人機對戰的絕唱。

這場德撲表演賽由創新工場與海南生態軟件園聯合主辦，比賽雙方為由杜悅、許朝軍、張淮、童舟、朱亞希、王天健共六位人類牌手組成的中國“龍之隊”和李開復母校美國卡內基梅隆大學（CMU）開發的德撲人工智能系統Libratus，比賽獎金為200萬元人民幣。

4月10日中午，在海南澄邁的比賽場地，室外陽光明媚，室內人類收獲了相當慘淡的賽果。在33000手牌后，6名牌手共計輸給人工智能Libratus792327分，可謂完敗。

但在個人戰績上，人類牌手還是創造了一些亮點的：點點網、啪啪創始人許朝軍曾收獲前三場連勝的“開門紅”，而童舟自第三場結束，即第2比賽日中午向隊友打賭必勝AI后，斬獲了從第四場到第七場的四連勝。在個人最終戰績上，童舟也是輸的最少的。

那么，是什么給了童舟信心，讓他在三場之后撂下狠話的呢？童舟在接受澎湃新聞（www.usamodel.cn)專訪時透露，他總結了第1比賽日后就找到了AI的幾個漏洞，并不斷示弱，引誘AI前來“偷雞”，由此反敗為勝。不過，AI每天都會修復前一天的漏洞，人類牌手只能重新開始尋找新的漏洞。

“跟AI完全不是在打德撲”

簡單來說，德撲是玩家用自己手中的2張底牌和牌桌上的5張公共牌進行組合，選出5張湊成最大的牌型（各種牌型有固定的大小順序，如5張同花順比4張同樣數字加一張單牌要大）。而牌桌上的5張公共牌分3個環節翻開，分別為翻牌（flop）、轉牌（turn）、河牌（river）。在翻牌的不同階段玩家都有加注的機會。

而最基本的下注策略有兩種，一是詐唬下注（bluffing），又稱為“偷雞”，即以嚇退對方蓋牌為目的的加注；二是價值下注（value bet），即在手中的牌有把握比對方大的時候，以引誘對方跟注而贏得更多籌碼為目的的下注。

童舟告訴澎湃新聞（www.usamodel.cn），他在第一天時完全按照和人類對戰的方式和AI打，結果發現無論是詐唬還是價值下注都討不到便宜，輸得很慘。后來，他發現AI有一些漏洞，“也不完全是漏洞，更準確地說是一些套路。”

這些套路是指AI打牌會出現一些重復的模式，使人類有跡可循。童舟發現“AI河牌加注1/5底池的時候基本上是在偷雞”，這樣人類牌手就可以抓住這些機會。

不過，AI每天晚上都似乎會修復前一日比賽中出現的“漏洞”，改變風格。幸運的是，童舟在第二天也同樣會抓到AI新的漏洞。

雖然這樣能夠有贏過AI的機會，但童舟也無奈地表示，這樣完全不像是在玩德撲了，他所做的就是“由它在主導，跟著它的路子，慢慢的它的漏洞就會暴露出來，然后就利用這個誤導它。”另一件令他無奈的事是，AI雖然會被人抓住“偷雞”的機會，但它是個防守非常穩健的選手，“想讓它輸很難，你贏它贏不多，如果你想贏它很多就會輸更多。”因此，童舟一直把底池控制得很小，不敢和AI“對飆”。

不過，盡管有這些可循的痕跡，“龍之隊”隊員依然稱贊AI是個非常優秀的德撲選手，甚至超過了人類所能理解的打法。一方面，AI讀牌方面的計算很強，“只要它覺得比你大一點點，它就會打價值（下注），只有國外一些頂級的牌手會這么做，很多中國人就過牌了。 ”童舟說道。

另一方面，AI下注非常大膽。有時候AI起手底牌很差，人類選手按照理性計算肯定會棄牌，但AI多次拿著很差的底牌（比如3和6）大膽冒進，結果在轉牌或河牌階段上演大逆轉（河牌真的開出了一張6），令人類選手匪夷所思，拍案叫絕，仿佛AI真的能猜到未翻開的牌一樣。

AI開發者：可能不會做多人德撲，一對一就是最好的

那么，德撲AI神乎其技的牌技究竟是基于怎樣的算法實現的呢？它與實現圍棋的AI路徑有何不同？這次與人類對戰的人工智能Libratus的開發者之一，美國卡內基梅隆大學（CMU）計算機系教授托馬斯?桑德霍姆（Tuomas Sandholm）的博士生諾姆?布朗（Noam Brown）在接受澎湃新聞專訪時說道，Libratus并沒有使用時髦的深度學習，但在殘局計算上下足了功夫。

事實上，世界范圍內有好幾個團隊都撲在開發德撲AI，而加拿大阿爾伯塔大學的一個團隊更是在今年1月初搶先發表論文，宣布他們的Deepstack成為首個擊敗人類牌手的德撲AI。諾姆承認，這些團隊實現德撲AI的核心路徑是相同的，都是一種名為“虛擬遺憾最小化”（counterfactual regret minimization）的算法。

但諾姆對他們的Libratus非常自信，認為它能在機器對戰中完勝其他的德撲AI。這是因為，他們不僅充分在算法中運用了博弈論的知識，更將AI的殘局計算能力大大強化了。“和圍棋不一樣，圍棋是越下越簡單的，殘局階段計算量更小。但德撲開到轉牌和河牌階段，局面更為復雜，存在的可能性更多。”諾姆說道。

值得一提的是，開發團隊并沒有使用深度學習訓練機器。阿爾法狗在學習數千萬張人類棋譜后才開始進入“左右互搏”的自我對弈階段，在AI上稱為強化學習（reinforcement learning）。而Libratus的開發者只是向它描述了德撲的游戲規則，就開始由它通過強化學習的方法自己摸索德撲應該怎么打。因此，Libratus的打法完全脫離人類經驗，天馬行空，在人類牌手看來十分激進。

Libratus接連在單挑中戰勝中美德撲高手，外界都開始關心AI離掌握多人德撲還有多遠。然而，諾姆卻透露，他們可能并不會去做多人德撲。因為，在他們看來，多人德撲超過了純粹競技的范圍，因此很難根據戰績來評估AI的水平。諾姆打了個比方，奧運會并沒有超過兩支隊伍的比賽，“因為你無法控制別的對手相互之間的互動，就算你自己做出的選擇是完美理性的，結果可能也體現不出來。”

桑德霍姆教授則笑著說，“為什么要玩多人德撲？一對一永遠是最好的游戲！”。

盡管德撲AI代表的“高情商”、“會欺騙”、“會博弈”的人工智能打開了通往更多現實場景應用的大門，不過，在近期，桑德霍姆和諾姆團隊還是會專注完善一對一德撲。“這畢竟是我們的招牌嘛。”諾姆說道。

“龍之隊”稍有不服

除了博弈論和殘局計算之外，此次的冠軍Libratus還有一個秘訣：它會在每一個比賽日結束后回顧這一天的對戰經歷，找出曾被人類利用的“套路”，并自我清除。也正因為如此，“龍之隊”的一位助理向澎湃新聞（www.usamodel.cn）透露，Libratus團隊并未提供每天的比賽數據，這讓人類團隊每晚在復盤上花了更多精力，也更難通過數據來分析AI的打法，形成針對性策略。

上述消息人士說道，“龍之隊”首次亮相就遭遇了AI。鑒于Libratus曾在1月份連續20個比賽日中擊敗了四名頂尖美國高手，因此他們原本就不抱有勝算，只是想盡力一搏，如果能有一名人類牌手僥幸領先，當然再好不過。然而，AI團隊不提供比賽數據的做法令他們稍有不服。甚至，在第1個比賽日，桑德霍姆教授沒有提供最后的勝負情況，因為一天的比賽運氣成分很大，他并不想讓“人類牌手打敗AI”成為新聞噱頭。該消息人士說道，“當然，即使提供給我們數據，大概也是輸，但這樣會輸得更心服口服。我能感到他們非常希望AI贏，但雙方在更平等的起點上，AI的勝利也會更令人信服。當然，整體來說，AI牌打得非常好，我們經常會對它的一些打法感到很佩服，確實很高明。”

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報