长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

雖然完敗于德撲人工智能,人類牌手卻靠“認慫”偷了幾局

澎湃新聞見習記者 虞涵棋
2017-04-10 12:45
來源:澎湃新聞
? 能見度 >
字號

“我跟它(AI)打就一直認慫。”北京千山劇影視傳媒有限公司董事長、中國“龍之隊”隊員童舟這樣向澎湃新聞(www.usamodel.cn)介紹他曾連勝德撲AI四場的“心得”。

雖然5月份在烏鎮,圍棋“當今第一人”柯潔將與AlphaGo上演圍棋界人機對戰的終極一戰,但創新工場CEO李開復在4月5日斷言柯潔毫無勝算,比起來,4月6日到10日舉行的德州撲克人機大戰表演賽尚有10%的可能成為人類歷史上贏得人機對戰的絕唱。

這場德撲表演賽由創新工場與海南生態軟件園聯合主辦,比賽雙方為由杜悅、許朝軍、張淮、童舟、朱亞希、王天健共六位人類牌手組成的中國“龍之隊”和李開復母校美國卡內基梅隆大學(CMU)開發的德撲人工智能系統Libratus,比賽獎金為200萬元人民幣。

4月10日中午,在海南澄邁的比賽場地,室外陽光明媚,室內人類收獲了相當慘淡的賽果。在33000手牌后,6名牌手共計輸給人工智能Libratus792327分,可謂完敗。

但在個人戰績上,人類牌手還是創造了一些亮點的:點點網、啪啪創始人許朝軍曾收獲前三場連勝的“開門紅”,而童舟自第三場結束,即第2比賽日中午向隊友打賭必勝AI后,斬獲了從第四場到第七場的四連勝。在個人最終戰績上,童舟也是輸的最少的。

那么,是什么給了童舟信心,讓他在三場之后撂下狠話的呢?童舟在接受澎湃新聞(www.usamodel.cn)專訪時透露,他總結了第1比賽日后就找到了AI的幾個漏洞,并不斷示弱,引誘AI前來“偷雞”,由此反敗為勝。不過,AI每天都會修復前一天的漏洞,人類牌手只能重新開始尋找新的漏洞。

“跟AI完全不是在打德撲”

簡單來說,德撲是玩家用自己手中的2張底牌和牌桌上的5張公共牌進行組合,選出5張湊成最大的牌型(各種牌型有固定的大小順序,如5張同花順比4張同樣數字加一張單牌要大)。而牌桌上的5張公共牌分3個環節翻開,分別為翻牌(flop)、轉牌(turn)、河牌(river)。在翻牌的不同階段玩家都有加注的機會。

而最基本的下注策略有兩種,一是詐唬下注(bluffing),又稱為“偷雞”,即以嚇退對方蓋牌為目的的加注;二是價值下注(value bet),即在手中的牌有把握比對方大的時候,以引誘對方跟注而贏得更多籌碼為目的的下注。

童舟告訴澎湃新聞(www.usamodel.cn),他在第一天時完全按照和人類對戰的方式和AI打,結果發現無論是詐唬還是價值下注都討不到便宜,輸得很慘。后來,他發現AI有一些漏洞,“也不完全是漏洞,更準確地說是一些套路。”

這些套路是指AI打牌會出現一些重復的模式,使人類有跡可循。童舟發現“AI河牌加注1/5底池的時候基本上是在偷雞”,這樣人類牌手就可以抓住這些機會。

不過,AI每天晚上都似乎會修復前一日比賽中出現的“漏洞”,改變風格。幸運的是,童舟在第二天也同樣會抓到AI新的漏洞。

雖然這樣能夠有贏過AI的機會,但童舟也無奈地表示,這樣完全不像是在玩德撲了,他所做的就是“由它在主導,跟著它的路子,慢慢的它的漏洞就會暴露出來,然后就利用這個誤導它。”另一件令他無奈的事是,AI雖然會被人抓住“偷雞”的機會,但它是個防守非常穩健的選手,“想讓它輸很難,你贏它贏不多,如果你想贏它很多就會輸更多。”因此,童舟一直把底池控制得很小,不敢和AI“對飆”。

不過,盡管有這些可循的痕跡,“龍之隊”隊員依然稱贊AI是個非常優秀的德撲選手,甚至超過了人類所能理解的打法。一方面,AI讀牌方面的計算很強,“只要它覺得比你大一點點,它就會打價值(下注),只有國外一些頂級的牌手會這么做,很多中國人就過牌了。 ”童舟說道。

另一方面,AI下注非常大膽。有時候AI起手底牌很差,人類選手按照理性計算肯定會棄牌,但AI多次拿著很差的底牌(比如3和6)大膽冒進,結果在轉牌或河牌階段上演大逆轉(河牌真的開出了一張6),令人類選手匪夷所思,拍案叫絕,仿佛AI真的能猜到未翻開的牌一樣。

AI開發者:可能不會做多人德撲,一對一就是最好的

那么,德撲AI神乎其技的牌技究竟是基于怎樣的算法實現的呢?它與實現圍棋的AI路徑有何不同?這次與人類對戰的人工智能Libratus的開發者之一,美國卡內基梅隆大學(CMU)計算機系教授托馬斯?桑德霍姆(Tuomas Sandholm)的博士生諾姆?布朗(Noam Brown)在接受澎湃新聞專訪時說道,Libratus并沒有使用時髦的深度學習,但在殘局計算上下足了功夫。

事實上,世界范圍內有好幾個團隊都撲在開發德撲AI,而加拿大阿爾伯塔大學的一個團隊更是在今年1月初搶先發表論文,宣布他們的Deepstack成為首個擊敗人類牌手的德撲AI。諾姆承認,這些團隊實現德撲AI的核心路徑是相同的,都是一種名為“虛擬遺憾最小化”(counterfactual regret minimization)的算法。

但諾姆對他們的Libratus非常自信,認為它能在機器對戰中完勝其他的德撲AI。這是因為,他們不僅充分在算法中運用了博弈論的知識,更將AI的殘局計算能力大大強化了。“和圍棋不一樣,圍棋是越下越簡單的,殘局階段計算量更小。但德撲開到轉牌和河牌階段,局面更為復雜,存在的可能性更多。”諾姆說道。

值得一提的是,開發團隊并沒有使用深度學習訓練機器。阿爾法狗在學習數千萬張人類棋譜后才開始進入“左右互搏”的自我對弈階段,在AI上稱為強化學習(reinforcement learning)。而Libratus的開發者只是向它描述了德撲的游戲規則,就開始由它通過強化學習的方法自己摸索德撲應該怎么打。因此,Libratus的打法完全脫離人類經驗,天馬行空,在人類牌手看來十分激進。

Libratus接連在單挑中戰勝中美德撲高手,外界都開始關心AI離掌握多人德撲還有多遠。然而,諾姆卻透露,他們可能并不會去做多人德撲。因為,在他們看來,多人德撲超過了純粹競技的范圍,因此很難根據戰績來評估AI的水平。諾姆打了個比方,奧運會并沒有超過兩支隊伍的比賽,“因為你無法控制別的對手相互之間的互動,就算你自己做出的選擇是完美理性的,結果可能也體現不出來。”

桑德霍姆教授則笑著說,“為什么要玩多人德撲?一對一永遠是最好的游戲!”。

盡管德撲AI代表的“高情商”、“會欺騙”、“會博弈”的人工智能打開了通往更多現實場景應用的大門,不過,在近期,桑德霍姆和諾姆團隊還是會專注完善一對一德撲。“這畢竟是我們的招牌嘛。”諾姆說道。

“龍之隊”稍有不服

除了博弈論和殘局計算之外,此次的冠軍Libratus還有一個秘訣:它會在每一個比賽日結束后回顧這一天的對戰經歷,找出曾被人類利用的“套路”,并自我清除。也正因為如此,“龍之隊”的一位助理向澎湃新聞(www.usamodel.cn)透露,Libratus團隊并未提供每天的比賽數據,這讓人類團隊每晚在復盤上花了更多精力,也更難通過數據來分析AI的打法,形成針對性策略。

上述消息人士說道,“龍之隊”首次亮相就遭遇了AI。鑒于Libratus曾在1月份連續20個比賽日中擊敗了四名頂尖美國高手,因此他們原本就不抱有勝算,只是想盡力一搏,如果能有一名人類牌手僥幸領先,當然再好不過。然而,AI團隊不提供比賽數據的做法令他們稍有不服。甚至,在第1個比賽日,桑德霍姆教授沒有提供最后的勝負情況,因為一天的比賽運氣成分很大,他并不想讓“人類牌手打敗AI”成為新聞噱頭。該消息人士說道,“當然,即使提供給我們數據,大概也是輸,但這樣會輸得更心服口服。我能感到他們非常希望AI贏,但雙方在更平等的起點上,AI的勝利也會更令人信服。當然,整體來說,AI牌打得非常好,我們經常會對它的一些打法感到很佩服,確實很高明。”

    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            百家乐官网百家乐官网伴侣| 百家乐官网视频游戏金币| 网络百家乐骗局| 菲律宾太阳城网| 新濠百家乐官网的玩法技巧和规则| 百家乐官网的胜算法| 亚洲顶级赌场手机版| 澳门百家乐网上娱乐场开户注册| 坐乾向巽24山向择吉| 百家乐官网赌场论坛在线| 百家乐官网算号软件| 大发888出纳柜台 2014| 百家乐投注技巧公式| 黄金城百家乐官网安卓版| A8百家乐官网娱乐城| 六合彩投注网| 大发888游戏平台 新葡京| 百家乐博弈指| 网络百家乐网站| 百家乐太阳城球讯网| 百家乐评级导航| 好运来百家乐官网的玩法技巧和规则| 百家乐官网长路投注法| 老虎机遥控器| 德州扑克单机游戏| 太阳城雨伞| 百家乐官网赌场大赢家| 百家乐官网赌场老千| 大发888大发娱乐场| 威尼斯人娱乐场网站| 全讯网直播| 大发888 3403| 顶级赌场手机版官方下载| 棋牌游戏开发商| 明升88 | 金字塔百家乐的玩法技巧和规则 | 真博国际| 大发888体育娱乐场| 大发888怎么提款| 皇冠真钱| 中金时时彩平台|