再下一城,AI玩德州扑克击败人类,这次难度更大

  继围棋界被人工智能(AI)统治后,人类的另一个竞技领域又将面临人工智能的威胁。近期,一款名为Pluribus的扑克机器人成功击败了多名顶尖的德州扑克选手。

  Pluribus与职业选手的比赛部分过程

  7月11日,美国卡内基·梅隆大学宣布,该校和脸书公司合作开发的人工智能Pluribus在六人桌德州扑克比赛中击败多名世界顶尖选手,成为机器在多人游戏中战胜人类的一个里程碑。

再下一城,AI玩德州扑克击败人类,这次难度更大

  根据美国媒体报道,此次人机对决的测试是在6月份进行的,采用的是六人牌局,玩的无限制德州扑克,这也是最流行的一种玩法,

  根据The Verge的报道,在历经12天,经过10000手的对局后,Pluribus在两种模式的比赛中都取得最终胜利,共击败了12名人类职业选手。一种模式是AI+5名人类玩家进行比赛;另一种是五个不同AI玩家+1位人类玩家,五名AI玩家互不协作。

  Over 12 days and 10,000 hands, the AI system named Pluribus faced off against 12 pros in two different settings. In one, the AI played alongside five human players; in the other, five versions of the AI played with one human player (the computer programs were unable to collaborate in this scenario).

  一位名为Trevor Savage的玩家参加了此次比赛,是一位有15年比赛经验的职业选手。他在赛后表示,Pluribus是个基本完美和能够获胜的玩家,它综合运用了高投注获胜玩家们都会采用的战术。

  而另一位曾在世界扑克系列赛六夺冠军的选手Chris Ferguson也坦言“Pluribus是个非常难对付的对手,每一手的对局都很难摸清它。”

  Pluribus靠什么取胜?

  据报道,Pluribus在比赛中非常擅长迷惑对手。此外,它严密的连贯性以及在小注局中获利的方法也受到了对局专业玩家的赞赏。

  例如常规打法是在牌最好的时候押注,但这很快会被对手识破,因此它会“耍点心眼”,不按常理出牌。分析显示,它会做出一些多数人类玩家都认为不好的决策,这在客观上也迷惑了对手。

再下一城,AI玩德州扑克击败人类,这次难度更大

  Pluribus联合开发者、脸谱AI研究人员Noam Brown说我们通常认为虚张声势是人类特有的行为,是一种需要依靠撒谎和欺骗的策略。但是这种艺术依然可以被归结为一些算法最优策略。

  他说:“人工智能并不把虚张声势看作是一种欺骗行为,它只专注在特定形式下做出能让自己赢得最多的决定。我所展示的是AI不仅可以采取虚张声势、故弄玄虚的策略,而且比人类做得更好。”

  "The AI doesn't see bluffing as deceptive. It just sees the decision that will make it the most money in that particular situation,” he says. “What we show is that an AI can bluff, and it can bluff better than any human."

  “现在可以肯定地说,我们已经处于一个超人类的水平,这是一个不会改变的事实。”

  "It's safe to say we're at a superhuman level and that's not going to change."

  玩德州扑克与围棋有什么区别?

  CNN在报道中解释道,让AI独孤求败的国际象棋和围棋是一种典型的两人对局比赛,是一种基于“完全信息”的比赛,因为比赛双方获得的信息都是一样的,且对于双方都是可见的。

再下一城,AI玩德州扑克击败人类,这次难度更大

  但是在扑克游戏里,你不可能知晓对手掌握的所有信息,所以这更难去预测对手的下一步行动,而这一难度会随着玩家的增多而提高,这些因素导致德州扑克对电脑而言是个要困难得多的比赛。

  它是如何运算的?

  Pluribus使用一种类似DeepMind公司人工智能围棋玩家的的强化学习形式,从零开始自学。它从随机地玩扑克开始,计算出哪个动作赢得更多而改进。每手牌结束后,它都会回顾自己的玩法,并检查如果采取不同的选项,看它是否能赚到更多的钱。如果替代方案能带来更好的结果,那么未来更有可能选择这一方案。

  通过与自己对弈数万亿张牌,Pluribus创造了一种基本策略,可以在比赛中使用。在每个决策点,它都会将游戏的状态与自己的蓝图进行比较,并提前搜索一些步骤,然后决定是否可以改进它。由于它自学了在没有人类输入的情况下玩游戏,人工智能获得一些人类玩家通常不会使用的扑克策略。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://9827qp.com/a/ziyuan/xianjindezhoupukeshoujiban/zaixiandezhoup/2019/0719/1035.html