揭秘德撲AI賭神如何詐唬人類：不以人類為師，方能勝過人類

澎湃新聞見習記者虞涵棋

2017-02-04 22:01

來源：澎湃新聞

盡管美國卡內基梅隆大學（CMU）的計算機系教授托馬斯?桑德霍姆（Tuomas Sandholm）和其研究生諾姆?布朗（Noam Brown）在1月份捧紅了一位AI賭神Libratus，但每當問及個中原理，他們一直在賣關子。近日，為了迎接當地時間2月4日舊金山開幕的美國人工智能協會年會（AAAI），桑德霍姆和布朗終于在CMU網站上上傳了論文，揭曉了其中的謎團。

1月份在美國匹茲堡的大河賭場（Rivers Casino）舉行的一場人機“華山論劍”，引發了無數人工智能專家和德撲愛好者的關注。在連續20個比賽日中，一個名為Libratus的人工智能在共計12萬手的一對一無限注德州撲克比賽中擊敗了四名頂尖人類高手，共計領先人類團隊176萬美元籌碼。而Libratus最令人咋舌之處，是它非常善于詐唬對手同時又不被對手詐唬。那么這個AI賭神到底是如何煉成的呢？

殘局計算：人工智能的制勝之地

殘局計算一向是機器在棋類游戲中戰勝人類的法門。在2016年3月份阿爾法狗與世界圍棋冠軍李世石的人機大戰中，不少圍棋行家都指出阿爾法狗隨著比賽進程“越下越慢”，這說明在殘局階段發揮遠超人類的計算能力是阿爾法狗獲勝的關鍵。

但圍棋和德撲性質上是完全不同的。此前20年間被人工智能攻克的西洋雙陸棋、跳棋、國際象棋和圍棋都是“完美信息”游戲，所有玩家在游戲中能獲得的確定性信息是對稱的。人工智能掌握這些游戲的難度，主要取決于游戲中需要做出的決策點（decision points）的數量，這決定了計算機需要的計算量。人工智能在每一個決策點都能獨立地計算出一個最優解。

但德州撲克是一種包含很多隱藏信息的“不完美信息”游戲。玩家只掌握不對稱的信息，他不知道對手手中是什么牌，不知道五張公共牌會開出怎樣的結果，也不知道對手猜測自己握有怎樣的手牌。因而，雖然一局德撲中的決策點數量要少于一盤圍棋，但是這些決策點并不獨立，在每一個決策點上，玩家都需要再從全盤進行推理，這在計算量上是難以想象的。

因此，以往人工智能處理“不完美信息”游戲會采用一種縮略的方法，即將一盤大型游戲簡化為一盤近似的小游戲，在縮略的游戲中進行計算，并將結果輸出到真實游戲中。但在這個過程中，信息會不可避免地流失，因而此前人工智能遲遲未能攻克德州撲克。

比如在處理對方的下注籌碼上，由于在計算量上難以將對方所有的下注可能性都列入決策樹(Decision Tree)，因而有一種經典的行動翻譯法（action translation），例如將對手下注201美元近似為200美元進行簡化處理。

而桑德霍姆和布朗的這篇論文題為《不完美信息游戲中安全內嵌的殘局計算法》，介紹了一種新的殘局計算法，即通過納什均衡來計算該如何應對對手那些沒出現在決策樹上的招數，并以收益反饋對自身的出招進行動態修正，以期達到最大可能的收益，而非簡單地將對手的行為進行近似處理。

這種新的殘局計算法最大的特點，是開發者可以獲得一定程度的“確定性”。而“確定性”正是時下大熱的深度學習最缺乏的。

桑德霍姆說，“現在深度學習集萬千寵愛于一身，這也是它應得的，但深度學習不能給你確定性。”

基于深度神經網絡（deep neural networks）的深度學習無疑是目前人工智能領域最耀眼的明星，也是締造這一波人工智能熱潮的最大功臣。從Facebook的人臉識別系統到微軟的機器翻譯，再到震驚世界的谷歌圍棋AI阿爾法狗，深度學習風頭一時無二。

但深度學習有兩大局限性，注定它并不是人工智能萬靈丹。首先，深度學習的本質是機器通過分析海量數據習得一些模式，但并不是所有領域都能采集到海量數據。以自動駕駛為例，顯然通過積累海量事故經驗來習得避免事故發生是不現實的。此外，深度學習是一個知其然而不知其所以然的“黑匣子”，這在許多重大安全事件上并不能令人放心。自動駕駛的事故問責問題就是一例。

不以人類為師，方能勝過人類

美國《連線》雜志的一篇文章則指出，Libratus主要是依賴三套相輔相成的系統大獲成功。殘局計算是在比賽過程中發揮主要作用的系統。而比賽前期的學習系統和比賽后期的反饋系統同樣重要。前期的系統是所謂的強化學習（reinforcement learning）。這是一種將試誤理論發揮到極致的機器學習方法。簡單來說，Libratus通過自己與自己玩成千上萬局德撲來學習。與Libratus的從零開始學習不同，谷歌的圍棋AI阿爾法狗是在學習了3000萬張人類棋譜后才開始“左右互搏”進行自我強化的。

這種從零開始的強化學習基于一種“虛擬遺憾最小化”（counterfactual regret minimization）算法。Libratus的開發者并未通過人類的經驗的教會它怎么玩德撲，而僅僅給了它德撲的玩法規則，讓它通過“左右互搏”來自己摸索這個游戲該怎么去玩、如何能更大概率地獲勝。由于不受人類固有經驗的約束，Libratus試誤的過程十分大膽而隨意，下注的范圍天馬行空，遠遠超過一個普通玩家會嘗試的尺度。因此，Libratus玩德撲的風格迥異于人類，讓人捉摸不透，而這對獲勝十分關鍵：在玩德撲的過程中，下注要具備足夠的隨機性，這樣才會讓對手摸不清底細，同時也是成功詐唬住對手的關鍵。

與Libratus交手的四位人類職業玩家證實了Libratus下注十分大膽，不拘一格：它動不動就押下全部籌碼，多次詐唬住人類對手。

但Libratus并非第一個運用虛擬遺憾最小化算法的德撲機器人。早在2015年1月，加拿大阿爾特塔大學教授麥克?鮑林（Michael Bowling）在《科學》上發表論文，最早提出虛擬遺憾最小化算法可以破解一對一德撲比賽，但當時他們破解的是限注德撲比賽。鮑林是這樣描述這個算法的：“想象一個人每小時玩200局撲克，每天玩12小時，70年從未有一天間斷。同時，他在玩的過程中時刻考慮最差的情況，爭取最大程度的勝利，采取針對性的策略，并且永不失誤”。這樣一個玩家，又如何不能稱霸賭場呢？

值得一提的是，在2017年1月初，鮑林團隊趕在Libratus登場之前在預印本網站arXiv上上載了一篇論文，介紹了他們研發的能在一對一無限注德撲比賽中擊敗人類的機器人Deepstack，似乎有意“截胡”。

而在比賽后，開發者們會再對比賽的過程進行一次反饋。盡管Libratus的玩牌風格異于人類，但通過一天的比賽，頂尖人類高手仍可能識別出Libratus的一些“套路”，并加以利用。這第三套系統就是在每個比賽日結束后的夜晚找出并清除掉這些“套路”，不給人類任何可乘之機。

AI不是只有深度學習

總結完AI賭神Libratus的三大制勝法門，我們發現，Libratus之所以被視為人工智能發展的里程碑事件，其中一個重要原因是它并沒有采用深度學習。而沒有追隨深度學習潮流的Libratus，或許在現實生活中擁有更廣闊的用武之地：金融交易、網絡安全、商業拍賣、政治談判，這些情景都是充滿了各種博弈的“非完美信息”游戲，也都需要一定的“確定性”來讓人安心。

但不管怎樣，一個能在牌桌上詐唬住人類的AI賭神仍有點讓人“細思極恐”：如果未來有一天，一個AI外交官在談判桌上突然壓上所有籌碼，你跟還是不跟呢？

校對：余承君

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報