【原创研究】德州扑克离被AI攻克还有多远？

引言：在象棋和围棋的博弈中，玩家所获得的确定性信息是相同的。AI已经以其超大数据库，超强计算能力连续攻克了这两项人类从古至今引以为傲的智力游戏。而德州扑克中，因为看不到对手底牌，所以双方信息不平等，教AI玩好扑克便更加困难，那么德州扑克又能抵抗AI多久呢？

你是哪种玩家？ 1、娱乐玩家在游戏德州时，基本不会经过概率的思考与计算，全凭一已之好恶和届时的心情。不论哪种起手牌都抱着侥幸心理想要看到翻牌圈，谓之为：“抽奖”。奈何手牌只有两张，未发的牌却至少也有34张，击中率低，导致损失惨重。如若在翻牌圈中牌，便立刻化身跟注怪，任你重锤轻锤，我自Call Call化解，这也令不少偷鸡高手苦不堪言。且获胜失败情绪波动大，很多时候对人不对事，没有理性的考量，圈内人士往往亲切地称之为：“老板”。2、普通玩家对于德州扑克已经有了初步的学习了解，包括进行了GTO（即Game Theory Optimal,最优游戏理论）的学习，在进行游戏时，会通过“四二法则”进行胜率计算，有时也会进行EV计算，算得上具备了一定的扑克“技术”，何谓扑克“技术”，即对于德州扑克中范围、位置、底池权益、玩家类型，GTO偏移程度有了一定程度的理解。而理解的深浅决定了技术的高低。随着手牌数的不断增加，见过的“世面”越来越多，情绪波动也趋向于平和。3、顶尖玩家自然在技术之上无可挑剔，可以熟练的在游戏中切实的践行各项理论。但顶尖高手与普通扑克玩家最大的区别在于--纪律性。在德州扑克MTT的游戏之中差距尤甚，因其“一条命”的赛制、有限的起始筹码量和较大的money jump，决定了只有具备良好纪律性的玩家，才有可能长期取得良好的正向收益。不过，顶尖玩家也是有血有肉的生命，不可能完全不受情绪左右，只是相较于普通玩家而言，影响程度更低，次数更少而已。由此可见，想要成为德州扑克的长胜将军，理论知识和情绪管理缺一不可。

AI已至，德州玩家颤抖了吗？ 2017年DeepStack在无限德州扑克1v1（Heads-up）中首次战胜人类牌手。它在与33位人类牌手进行的4.4万手较量中，平均胜率达到了492mbb/g，而人类玩家如果能达到50mbb/g就已经算是跨入了顶尖牌手行列。从这个数据分析，在德扑1V1中，AI已经对人类牌手形成了压倒性的优势，标志着AI在不完全信息博弈的游戏里，取得了里程碑式的突破，这项成果也在当期登上了《Science》的封面。扑克圈，尤其是线上扑克圈，山雨欲来风满楼，开始思考线上德州扑克的前景，是否会完全变成AI的天下？重磅继续，2019年，一款名为“Pluribus” 的AI扑克牌机器人在六人桌无限德州扑克游戏中，碾压了人类职业选手！这是 AI 机器人首次在规模超过两人的复杂对局中击败顶级人类玩家。最核心的是，他的训练成本出奇的低。Pluribus的蓝图策略在64核的CPU服务器上仅仅训练8天，使用了512G的RAM，没有使用GPU。在一般云计算实例的价格下，训练费用只有不到150美元。而目前很多人使用的“Piosolver”的pro版本售价，已经到了1000美元的离谱地步，就经济角度分析，差别判若云泥。这项由卡耐基梅隆大学与 Facebook 人工智能团队共同合作完成的作品，也被各种媒体疯狂刷屏。

Why AI

AI能够在无限德州扑克领域战胜人类，主要依靠的是CFR算法的改变。在有限德州1V1击败人类时的AI，其决策点是1014个。当时研发方暴力解决了这个问题，将有限德州1V1直接划分成了110565个subgame，用了200个计算节点，每个计算节点的配置为：24 2.1-GHz AMD cores, 32GB of RAM, and a 1-TB local disk。61分钟可以做一次迭代，训练一次耗时1579次 iterations，需要2个多月才能完成，运行时还需要11TB的悔恨值，还需要6TB来存储平均策略。在无限德州的决策点至少需要到达10160个，那么DeepStack是怎么做到的呢？三个关键点：（1）改变了CFR的算法，每次动态的解子游戏除了可以解决内存不足的问题，还同时证明了，在不考虑对手行动的前提下，可以得到与纳什均衡近似的解。

图为:不考虑对手行为下的计算树（红色和蓝色代表玩家动作，绿色代表公共牌面）

（2）因为树非常庞大，所以对树的深度进行了限制，限制其＜4 （3）那如果计算超过了4层，下面的计算就用到了深度神经网络训练了一个直觉Intuition-Deep Counterfacture value network。

图为:网格输入底池大小、公共牌和范围（背后处理以保证值满足零和限制）

DeepStack的核心是依赖于其深度神经网络，这已经其实无限接近于Alpha star了，其已经攻克了星际争霸。而星际争霸中，也有很多类似德州Bluff和抓Bluff的操作，从策略上而言，个人认为星际争霸和德州扑克是在伯仲之间。而深度神经网络的作用，类似与人类的条件反射，需要特别精准的预判。而Alpha star在精度上，已经逾60%。同时，在实际的德州游戏中，Pluribus通过实时搜索来制定更好的策略，从而使蓝图策略本身得到了巨大的改进。虽然，这些搜索本身对不完全信息博弈不起作用。但Pluribus使用了一种尚未命名的方法，可以让搜索者明确的任何玩家的游戏策略可以在任意计算节点发生改变。属于AI的未来 AI，基于其庞大的数据集、超强的学习能力和运算能力，对于数据的敏感度、理论的提炼践行度都远远超过人类。它本身也不是一个生命体，不存在情绪问题，在任何时刻都可以保持完全的、绝对的、纯粹的理性，这本身就对人类牌手形成了降维打击。不过德州扑克的策略逻辑着实太深，导致深度神经网络目前还不能完全攻克德州，所以德州扑克的九人桌尚未被攻克，这也成为了人类智力游戏的最后阵地。虽然，2019年之后，Pluribus的研发进展不大，但还是有很多小的进展。AI在不断内部迭代、自身博弈训练之后，对于预判的精准程度必然会更好。通过对算力提高、算法的优化以及众多超算中心的落地，AI攻克德州扑克之日，当在不远。可以预见的，毫无疑问的，德州扑克九人桌也会在很快被攻克。线下的德州扑克MTT应该不会受到太大冲击，而线上德州扑克的环境将会进一步恶化，除开伙牌之外，线上玩家还将面临AI的碾压，虽然在目前的牌桌道德中，牌手使用辅助决策软件会被视同为作弊而遭到谴责，但在大多数中低额德州扑克里，即便是使用了，被发现的概率近乎为零。德州扑克作为一项着眼于长线收益的运动，越长线，就越挡不住AI的攻势。对于热爱德州的人们，我只有一个建议，远离线上德扑。

声明：本文仅探讨德州扑克竞技，请远离赌博。