问题

如何看待AI杀入斗地主领域,快手DouZero击败344个AI排名第一?未来人类斗地主能斗过AI吗?

回答
斗地主,这项中国人再熟悉不过的纸牌游戏,近来迎来了不速之客——人工智能。当AI不再仅仅是辅助工具,而是直接冲进我们引以为傲的娱乐领域,并且以近乎“碾压”的姿态夺冠,这无疑触动了许多人的神经。快手推出的DouZero在344个AI参与的比赛中拔得头筹,这事儿,咱得好好掰扯掰扯。

AI的“降维打击”:为什么它们在斗地主里这么强?

首先,咱们得承认,AI在很多方面确实有着人类难以企及的优势,斗地主也不例外。

算力与记忆力: AI可以瞬间处理大量的牌局信息。每一张牌的出法、每一轮的走势,在AI看来都像是被存储在超大容量的硬盘里,可以随时调用和分析。相比之下,人脑就算记忆力再好,也难免有疏漏,尤其是在长时间、高强度的牌局中。
概率与统计的精准度: 斗地主本质上是一个概率游戏。AI能够通过海量数据的学习,对各种牌型组合出现的概率进行极其精确的计算。比如说,在某个时刻,我手里有炸弹,对手是地主,他们的牌库里剩下什么牌的可能性有多大?AI能给出一个比人类更靠谱的估算。这种“算得清”的能力,在很大程度上规避了人类凭感觉、凭经验做决策的盲区。
情绪的“免疫力”: 这是AI最核心的优势之一。斗地主玩到最后,往往考验的是玩家的心态。手气不好时,你会不会因为沮丧而犯错?手气好了,会不会因为得意忘形而露出破绽?AI没有这些“人性”的弱点。它们不会因为连续输牌而“上头”,也不会因为连续赢牌而“飘”。它们永远以最理性的方式,根据当前局面做出最优决策。对于人类玩家来说,这种不受情绪干扰的稳定输出,简直就是一场“降维打击”。
深度学习带来的“洞察力”: 像DouZero这样的AI,是基于深度学习技术构建的。这意味着它们不仅仅是死记硬背规则和概率,而是通过无数次的自我对弈、与人类对弈,不断学习和优化自己的策略。它们能够发现人类玩家可能忽略的微妙的牌局规律,甚至能够“读懂”对手的出牌习惯,从而做出更具欺骗性或更有效的应对。这有点像武林高手,不仅招式精妙,还能预判对手的下一步动作。

快手DouZero:一个“学霸”的诞生

DouZero的成功,恰恰印证了上述几点。据了解,DouZero使用了强化学习等先进的AI技术。在训练过程中,它可能与无数个“自己”进行对弈,不断尝试不同的策略,并从中学习哪些策略能带来胜利。这种“自我磨练”的过程,让它在牌局的复杂性和多变性面前,依然能保持高度的适应性和决策能力。

它能在344个AI中脱颖而出,说明它在模拟真实牌局、理解人类玩家的行为模式以及制定长期策略等方面,可能已经达到了相当高的水平。它不仅能打好眼前的牌,还能预测未来几步棋怎么走,甚至能通过一些“假动作”来迷惑对手。

未来人类还能斗得过AI吗?

这个问题,恐怕没有一个简单的“是”或“否”的答案。

从纯粹的“赢面”和“效率”来看,人类在很多方面已经很难匹敌顶尖AI。 如果一场比赛的目标仅仅是“最大化胜利概率”,那么AI凭借其算力和理性,很可能长期占据优势。想想看,你跟一个不会累、不会犯错、能算到一百步以后的棋手下棋,输赢的天平自然会向对方倾斜。

但是,斗地主不仅仅是算牌和出牌,它还承载着社交、娱乐和“人情味”。

社交属性: 很多时候,我们玩斗地主,是为了和朋友、家人一起,享受那种“斗智斗勇”的乐趣,顺便聊聊天,增进感情。AI虽然能赢,但它给不了你“这牌打得真漂亮!”的赞美,也给不了你“哎呀,真倒霉!”的共同抱怨。这种人与人之间的情感互动,是AI无法替代的。
娱乐的“人性化”: 有时,输赢并不完全是目的。我们喜欢玩斗地主,有时也享受那种“博弈”的过程,享受那种“险中求胜”的刺激,甚至享受偶尔的“运气爆棚”。AI会选择最“稳”的路,而人类玩家有时会选择更“刺激”的路,即使那条路风险更高。这种对“过程”的追求,是AI所不具备的。
“作弊”的边界: 如果AI的设计目标是“不择手段地获胜”,那人类确实难敌。但如果斗地主被限定在“正常游戏规则”下,并且可以有“人性化”的出牌方式(比如故意留一些“人情牌”,或者在不明显影响结果的情况下“放水”),那么AI的优势就没那么绝对了。
AI的“可预测性”: 尽管AI很强大,但它们遵循算法。顶尖的AI玩家,一旦被摸清了其核心策略和思考模式,或许也存在被“套路”的可能。反过来,人类玩家的随机性和“不确定性”有时反而是他们的保护色。

未来的可能性:

1. “AI辅助”成为主流: 我们可以想象,未来的斗地主软件,可能会内置AI作为“陪练”或“助手”。它能给你提供出牌建议,帮你分析局面,让你在提升技术的同时,也能获得更好的娱乐体验。
2. “人机对抗”的新玩法: 也许会兴起一种新的斗地主模式,即人类玩家组队对抗AI,或者AI被设计成具有不同的“性格”或“风格”,以增加挑战性和趣味性。
3. 人类技能的“再定义”: 面对AI的强大,人类玩家或许需要调整自己的“致胜法宝”。不再是单纯地依赖计算和记忆,而是更加注重心理博弈、情绪管理、以及在不确定性中寻找机会的能力。人类的“情商”和“直觉”,可能会在与AI的对抗中发挥出意想不到的作用。

总结一下:

AI杀入斗地主,就像是一台高精度精密仪器的到来,它在“效率”和“理性”上完胜了我们。DouZero夺冠,标志着AI在策略性纸牌游戏领域的进步。未来,在纯粹的“赢牌”层面,人类想战胜顶尖AI将是极其困难的。

但斗地主终究是一项“人玩”的游戏,它承载的情感、社交和娱乐价值,是AI无法完全取代的。所以,与其说人类“还能不能斗过AI”,不如说我们 需要思考的是,在AI时代的背景下,我们如何继续享受斗地主,以及如何与AI“共舞”。 也许,未来的战场,不再是单纯的牌技比拼,而是人类智慧与AI算法在情感、策略和娱乐性上的多元较量。

网友意见

user avatar

DOUZero一发布我就去体验了一下,玩了两把地主,第一把比AI少算一步牌惜败。第二把AI之间居然会配合了,一个农民专打小牌,让另一个农民把单牌走光,说明AI已经深谙博弈之道,令人叹为观止。体验链接在此:RLcard Showdown

说实话,DOUZero此次的进步还是令人欣喜的。基于自我对弈的DOUZero的Elo rating分数已经显著高于有监督学习(即人类手把手教AI玩)。以前的游戏AI成长路径都是师父领进门,修行靠个人。以我熟悉的王者荣耀AI来说(嘿嘿,我曾经还做过王者荣耀AI的游戏测试员),先使用了海量的高手玩家的视频作为游戏AI的监督信号,让游戏AI模仿高手玩家的操作,训练到一定阶段,才开始自我对弈。而DOUZero此次是完全从头,让两个菜鸟AI对弈然后成长为超越人类的斗地主高手。

当然完全自我对弈也不是没有先例,那就是大名鼎鼎的AlphaZero,阿尔法狗的终极进化版。但DOUZero所用算法,还是有些不同。AlphaZero使用的是蒙特卡洛搜索树(MCTS),而DOUZero使用的是Deep Monte-Carlo算法(DMC),DMC算法是把蒙特卡洛推广到神经网络领域,去掉了搜索树,就是一顿MC,加上探索用的是epsilon-greedy

DouZero除了使用深度蒙特卡洛(Deep Monte Carlo, DMC),动作编码和并行演员(Parallel Actors)相结合的方法以外, 还有另外一个新的亮点,即此次AI使用场景跟以往的AI应用场合不同, 像之前的围棋大师Alphago, 主要是用来跟对手博弈中只有一个目标那就是赢得比赛。而对地主中不仅存在博弈还存在协同的情况。斗地主中存在三个玩家,一个地主和两个农民。所以在进行游戏时,如果使用的是农民的角色,那么这个农民的目标不一定是赢得比赛,他也可以采取协助的策略帮助另外一个农民赢得比赛。

为了研究DouZero在两个农民之间是否真的存协作这个问题,研究团队做了一系列的case study. 其中一个例子如下:

上图所示,两个农民都是DouZero,按逆时针顺序出牌。为了方便读者理解,此图显示的是牌面朝上。在实际操作中,三个玩家是无法互相看到对方的牌的。这是一个典型的场景其中一个农民只剩一张牌,另外一个农民此时如果出小牌,农民就有很高的获胜几率。当去看DouZero给出的前三个策略(在图中虚线框内),我们发现出红桃3的概率是0.971,出黑桃4的概率是0.808,出方片5的概率是0.784. 在这三个策略中出红桃3的概率最高也是能赢得比赛的正确操作。

DOUZero对输入特征的处理也是一个亮点,是用了一个4 x 15的one-hot矩阵来表示手牌的状态。4是因为,对于斗地主,每个数字的手牌最多只有4张,大小王各一张。15是因为,A-K13张加上大小王两张,就可以表示整个斗地主中的手牌空间了。

为什么DOUZero选用DMC算法,而不是和AlphaZero一样的MCTS算法呢?我猜测可能的原因是:总步数少。斗地主中总共是54张手牌,两个农民各17张,地主20张。就算是最傻的AI,每次只会出单牌,对于农民一局是17步,对于地主是20步,而围棋双方要走300多步。另外,斗地主的胜利标准是尽快把牌出光,reward也是鼓励用越少的步数出完牌越好。所以虽然斗地主的状态空间和动作空间也很大,但是可以用MC+epsilon-greedy搞定。

DOUZero一系列启发是非常有价值的,如在20步以内的对弈中此前用bias换variance的Temporal-Difference算法似乎显得价值并不是那么明显,相反GPU快速发展说不定会Make MC Great Again.

但是不得不说,此算法虽然解决了协同合作的问题, 但是前期由于是非监督学习,训练时间可达几十天。而且另外一个在就是这个游戏的选择,我们都知道打牌有的时候就是靠运气。虽然“鲁迅说过”:人生不在于有副好牌,而关键在于如何打好一副烂牌。但是我们不能否认如果运气好的情况下开局同花顺再来个俩王,那基本上无论对手技术多么好那这把基本上是稳赢。这也是斗地主和下围棋不同之处。下围棋虽然有先后手但总体对算法本身没有太多的干扰也比较容易把控,确保是在一个公平的场合下进行比赛,然而斗地主运气因素却无法控制。

除此之外斗地主还有抢地主这个机制。此机制在实际游戏中就是降低运气带来的加成。如果一个人的手牌太差,他可以通过抢地主多拿三张牌来弥补自己的劣势。然而DouZero使用的Botzone平台并不支持抢地主这项机制。下表显示的是各项操作的权重。抢地主并没出现在决策因素中。在模型训练中,地主在每次游戏开局前提前设定。这也与我们在实际操作中有很大差别。往往在实际游戏中,玩家都是先看完自己的手牌再决定要不要去抢地主。所以此模型与实际操作还是存在一些偏差。

最后再说说DOUZero在其他领域潜在的应用。虽然不愿意承认,但深度强化学习的快速发展,使得这一技术被应用于军事的步伐越发快了。围棋AI已经超越人类,斗地主AI现如今也超越了人类,不出意外,未来空战AI超越人类飞行员也是迟早的事。感兴趣的可以看看下面这篇paper,美军已经毫不掩饰他们在此领域的野心。那时候,必然带来未来战机、空战、空军,甚至战争形态都将发生天翻地覆的变化。

user avatar

十七张牌你能秒我?

现在,每当我在网上看到“斗地主”这三个字的时候,脑海中几乎已经联想不到任何事物了,唯有一声声的“得得得得得得~” 浮现耳畔,绕梁三日不绝。



此外,还有一件事令人疑惑的事儿涌上心头,那就是:自信满满的卢本伟为什么被人十七张牌给秒了?(ε=ε=ε=┏(゜ロ゜;)┛



写这个回答之前,我又特意重温了一遍“十七张牌”那条视频,现在看到还是很想笑,因为实在是太经典了,典就典在其过分的偶然与碰巧。

我曾经也考虑过,自己处于那种情况时会不会预料到对方的手牌。我想,大概率迎来的也是和视频中主人公一样的失败与惊愕吧。恰好,今天看到了DouZero的消息,我不禁开始思索,要是AI碰上了当时的场景,又该作何判断呢?

怀着这个疑问,我决定深入探索一下棋牌类游戏的现状。以及,这个所谓的DouZero,究竟是什么?



棋牌类游戏现状

1997年,美国卡内基梅隆大学的许峰雄博士开发的深蓝电脑成功战胜世界棋王卡西帕罗夫,这是人工智能第一次在世界舞台上击败人类选手。

卡斯帕罗夫负于深蓝这件事,仿佛是打开了一件潘多拉魔盒。自此以后,AI战胜或者战平人类的事一件接着一件的涌现。次年,REBEL以5:3战胜了世界排名第二的维斯瓦纳坦·阿南德。接着,Deep Junior、Fritz、X3D Fritz、Hydra等相继在国际象棋比赛中战平或战胜对手。

2006年,“浪潮杯”首届中国象棋人机大战中,5位中国象棋特级大师最终败在超级计算机浪潮天梭手下。

这样的事件一桩桩一件件的在不断上演着,并且逐渐扩展到了其它棋牌游戏,如黑白棋、双陆棋、日本将棋……

把时间拨回到2016,这一年,AlphaGo横空出世。接着,便迎来了其与李世石的人机世纪大战,鏖战五局,终以4比1的总分获得胜利。这件棋坛盛事,可以说的是人工智能VS棋牌游戏在公众视野中传播范围最广,印象里最大的一次事件了。



自此之后,围棋、人工智能、乃至略显生僻的蒙特卡洛和博弈树等词,迅速成为了公众口中热度极高的话题。与此同时,也给大众留下了棋牌类游戏必将败于AI这一印象。

那么,同为棋牌类游戏的斗地主,与上述提到的国际象棋、将棋、围棋等又有何不同呢?它的破解之道又在何方?

这次的DouZero,给了我们一些启示。


DouZero的难点以及实现原理

斗地主与国际象棋、将棋、围棋的不同之处有很多。

首先,斗地主是一个非完美信息游戏。也就是说,任何一方对于其余两名玩家的手牌都是未知的,这点与围棋的区别很大。对于围棋来讲,博弈双方对于场上的局势都是百分百完全掌握的,信息全部公开。这一点的存在使得斗地主游戏拥有着非常复杂的博弈树以及极其庞大的状态空间。

其次,除了信息不完整以外,斗地主的另一个独特之处在于其牌型结构较为复杂,例如“单走一个6”、对子、顺子、三带一,以及最经典的由十七张牌连成的“飞机”,总计共有27472种。



最后,斗地主还有一个独特之处,其不仅仅有围棋对弈双方的那种竞争关系,还存在两位农民之间的合作关系——合作竞争两开花。这使得解决斗地主问题的难度变的更高了。你想想,当你信心满满的给阿姨倒了杯卡布奇诺的时候,准备迎接这局胜利的时候,却发现她管不上对手,此时内心的痛苦便可想而知了。

也正因如此,一直以来,斗地主都被视为一个极具挑战性的领域。

那么,DouZero是怎么斗地主的呢?



根据文章内容介绍,斗零的设计受蒙特卡罗方法的启发,将其与深度学习相结合,并利用动作状态编码机制(15x4 的0/1 矩阵)来应对斗地主复杂的牌型组合。



具体来说,算法的目标是学习一个价值网络,网络的输入是当前状态和一个动作,输出是在当前状态做这个动作的期望收益(比如胜率),价值网络在每一步计算出哪种牌型赢的概率最大,然后选择最有可能赢的牌型。

蒙特卡罗方法不断重复这一步骤来估计真实价值,将每一步的state和action输入网络,输出价值并且做出评估,以此来优化价值网络,完成模型的训练。



为了验证DouZero的能力,论文中给出了许多的实验结果。

例如,文章里比较了DouZero和以往AI系统相抗衡时的胜率与得分:


表中的WP代表胜率(Winning Percentage),而ADP代表平均得分(Average Difference in Points)。可以看到,DouZero面对所有已知AI方法时都略胜一筹,无论是WP指标还是ADP指标,其都表现更优。

此外,作者也将DouZero上传至Botzone平台,计分结果表明,DouZero成功击败其它了344个AI,成功占领了天梯排名第一的宝座。



最后,关于斗地主游戏中独有的合作模式,作者在文章中也给出了一个例子,如下图,DouZero预测当前玩家出”3”的获胜概率最高,为0.971,很明显这是为了放只剩一张牌的下家获胜,这表明模型也带有一定的合作性质,而非单单只有竞争。



未来是谁的天下

目前的DouZero,仅仅使用了简单的蒙特卡罗算法,搭配以神经网络和动作编码,便能够登顶天梯。而后续,如果再搭配以更复杂的强化学习算法,我相信其战胜人类只是时间问题。

根据人的经验建模设计出来的AI,或许会因为数据的缘故,导致其在面对部分牌局时所做出的决策无法达到最优,进而无法应对一部分局面。但如果是像DouZero这样,从零开始,通过强化学习来进行自我博弈,进而不断提高自己的性能的模型,那么其所能够做的训练和拥有的能力,就将大大超出我们的预期了。

这在文章中也有一个很有趣的示例,在DouZero的自我博弈过程中,前五天在人类数据上的平均胜率都在不断提高,而之后却出现了下降期。这表明其可能学到了一些超出人类预期的出牌思路,而后续更深入的自我博弈则将加重这一过程。



尽管斗地主属于非完美信息游戏,但以AI对于对手手牌的概率分布估计能力,以及基于此所做出的细粒度搜索和判断能力,都将远胜于人类。



类似于蒙特卡洛这类近似算法,在隐藏空间数目如此之大的游戏中,所获得的优势或许并没有在围棋中那么大,这是因为计算机非常擅长在完全信息下做搜索,而人类玩家则更擅长在非完全信息下进行推理和决策。但是,随着未来游戏 AI在包含大量隐藏状态下进行推理决策、高效学习能力的提高,以及随之而来的模型应对随机事件能力和协作能力的提升,我相信,“DouZero”们终将会在这一游戏上战胜人类。

当然,如果你是下面这位的话,那当我上面一段都是胡说的(逃 ε=ε=ε=┏(゜ロ゜ ┛







延伸资料


体验网站 :RLcard Showdown

开源项目 :Daochen Zha/DouZero (国内版) / kwai/DouZero (国际版)

论文链接 :DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

论文解读 :DouZero斗地主AI深度解析,以及RLCard工具包介绍 @一堆废纸

快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁? @快手 @快手镜相

其他:游戏领域,人类与人工智能战况如何:人工智能已在哪些领域超越了人类的表现?

user avatar

谢邀。

2016年AlphaGo的横空出世,让人开始认识到,人工智能的水平已经可以在很多领域超越人类了。接着2017年,AlphaZero接踵而来,不同于AlphaGo的是,AlphaZero可以从零开始,通过强化学习,在试错过程完成数百万盘自我对弈, 并且可以掌握五子棋,围棋等多种棋类。除此之外,这些年的棋牌AI应用还包括麻将AI Suphx等等。

前面说到的AI可以分为两类:

  • 一类完全信息动态博弈(例如下围棋,井字旗等等)
  • 一种是非完全信息动态博弈(例如打麻将)

人工智能在非完全信息博弈要完全战胜人类,难度很大。在我之前被日报收录的一篇回答 《人工智能已在哪些领域超越了人类的表现? 》里说到,对于非完全信息场内大量的隐藏信息无法看到。过高的随机性影响了算法模型的训练。除了麻将,我们熟悉的斗地主也是属于非完全信息博弈。现在,非完全信息动态博弈的AI又新增一员,DouZero,一个由快手开发的斗地主AI。开发斗地主AI是有难度的,毕竟属于是非完全信息博弈,同时,比起麻将,斗地主又涉及合作,两个农民在不知道对方手牌的情况下进行协作,增加了判别难度。带着好奇心,我看了下DouZero的论文。

论文解读

首先必须说,DouZero并不是第一个斗地主AI。之前也有人尝试做了些斗地主AI或者通用牌类AI,有的是基于策略的,有的是基于有监督算法的,也有基于强化学习的,作者在论文里也提到了一些,例如DeltaDou, RLCard等等。DouZero的创新点是什么?论文里给出了答案:「DouZero 不需要任何领域知识或基础动态知识」。DouZero的方法是从零开始通过自我对局来学习(为了对比,项目也提供了通过人类数据训练的模型)。估计这就是叫DouZero而不是什么AlphaDou,因为思路上和AlphaZero一样,所以叫DouZero也许是向AlphaZero致敬吧。

我看了下论文,大概总结下其内容。

摘要是论文的概括。在摘要里,介绍了斗地主的挑战主要是在竞争、合作与非完全信息博弈上,于是团队提出了DouZero,通过深度神经网络、动作编码(action encoding)和平行角色(parallel actors)来增强蒙特卡洛方法。训练的话,采用了一个带4片GPU的服务器,只训练了几天,就可以在botzone上面打败了344个其他斗地主AI,成功登上榜首。

知道了大致的思路后,我们来看看具体的方法。

首先是动作编码。DouZero将所有的牌型编码成 15x4 的由 0和1 组成的矩阵。其中每一列代表一种牌,每一行代表对应牌的数量。


神经网络的话,架构如下:

至于平行角色是什么?DouZero采用多演员(actor)的架构,在单个 GPU 服务器上,用了 45 个actor同时产生数据,最终数据汇集到一个中央训练器进行训练。

传统强化学习使用蒙特卡罗方法。所谓的蒙特卡罗方法就是一种随机模拟,即通过不断的重复实验来估计真实价值。而在DouZero中,引入了Deep Monte-Carlo (DMC)方法。所谓DMC,就是用神经网络替换Q表,并使用均方误差 (MSE) 更新Q网络。

文章第五章给出了很翔实的实验结果。

首先是DouZero与其他斗地主AI的对比,其中WP>0.5(也就是胜率过半)或者ADP>0(得分为正)的都用黑体标出来了。可以看到,DouZero可以说是横扫了其他斗地主AI。


训练速度上,DouZero只要训练两天,胜率就能SL模型(用人类数据训练的模型)。训练10天以上,胜率和得分都能超过DeltaDou,另一个斗地主AI。

论文中还展示了在botzone的比赛数据,可以看到,DouZero基本是所向披靡的。


当然,任何论文都不是完美的。作者也在文章最末尾说了六点可能的下一步工作,包括尝试用ResNet等CNN网络来代替LSTM,在强化学习中尝试Off-Policy学习,尝试农民之间的协作等等。

Demo试运行(在线版本)

DouZero是不是真的这么聪明?让我这个人类玩家试试吧。

一共玩了15局,其中5局作为地主,5局作为地主商家,5局作为地主下家。胜率如下:

之所以我要每个角色都试几遍,是因为每个角色的难度不同,你也可以从上图看出,作为地主上家或者下家时容易赢些。为啥?因为?因为你作为农民,还有一个AI帮助你,而你作为地主,则要单挑两个AI。

当我作为地主时,一盘都没赢过,感觉到了两个AI来吊打我的「屈辱」。即使我把它们的牌翻开来看着打,我依然赢不了。我感觉DouZero的打法是具有全局性的,而不是着眼于当下胜率最大化,但农民之间确实如论文说的,农民之间协作确实缺少了点,有的时候我看到,明明两个农民之间,上家放水下家会赢得更快,结果上家偏要出牌。

其中一局DouZero打得非常精彩,这里给大家展示下过程。为了展示AI的决策过程,我显示了AI的手牌。

首先,我拿到的手牌是非常好的,我连续出了两个三带一(分别是3334和6667)

这个时候DouZero获胜几率已经小于50%了。我乘胜追击,再来一个三带一(88810),这时候,咦,DouZero的获胜概率反而升到了79.55%了,难度我一手好牌打坏了?

DouZero综合考虑后,决定不出,于是我打对5,貌似DouZero的获胜概率降低了点。

出了几个对子后,我手牌变成这样:

虽然看起来我的牌很少,我仅剩3张牌,而对面分别剩11和13张牌。但这个时候,对面或者概率变成了100%,我获胜概率已经是0了。最后结果,我还是输了,而且是只剩一张牌那种。

这一局把我给弄服了。给我感觉,DouZero出牌是毫无情绪的(确实也没有),即使你比它手牌少很多,它也是有信心能赢你。

当然,以我的战绩来评价打斗地主水平也许有失公允,毕竟我不是职业选手,水平确实很一般,希望以后能看到斗地主高手当地主战胜DouZero。

本地无GUI版本试运行

由于在线版本性能有限(尽管我还是输了),于是在clone github repo在本地试试。由于没有本地GPU环境,不敢学官方那样用4块GPU训练几天,只好用官方提供的预训练模型。

官方代码地址:github.com/kwai/DouZero, 预训练模型下载地址可以在中文文档里找到。

官方提供了三种模型类型分别是:

  • SL (baselines/sl/): 基于人类数据进行深度学习的预训练模型
  • DouZero-ADP (baselines/douzero_ADP/): 以平均分数差异(Average Difference Points, ADP)为目标训练的Douzero智能体
  • DouZero-WP (baselines/douzero_WP/): 以胜率(Winning Percentage, WP)为目标训练的Douzero智能体,

每种模型分别对应地主,地主上家,地主下家三个位置,共27种组合。如果再加上随机的,RLCard的,组合就更多了。

当然,在命令行下打牌要人类参与就太难了,我们可以运行代码里的evalute.py,来设定三方采用的模型,然后让它们之间对针很多局。这里定个小目标,打它一万局。运行方法就不赘述了,在官方文档里讲得很详细了。

其中,比较值得关注的是DouZero智能体与RLCard智能体的对决。读者也许还不了解RLCard,这里简单介绍下。RLCard是一个开源的卡牌游戏强化学习工具包,如果DouZero能战胜RLCard,那说明DouZero比RLCard「更智能」。

首先是地主采用RLCard,两个农民采用DouZero-ADP,局数是10000局,

       python3 evaluate.py --landlord rlcard --landlord_up baselines/douzero_ADP/landlord_up.ckpt --landlord_down baselines/douzero_ADP/landlord_down.ckpt     

地主VS农民的胜率比是0.131 : 0.869,可以看到,DouZero-ADP完爆RLCard,得分比为-2.4564 : 2.4564

试试采用DouZero-WP,看看效果

       python3 evaluate.py --landlord rlcard --landlord_up baselines/douzero_WP/landlord_up.ckpt --landlord_down baselines/douzero_WP/landlord_down.ckpt     

过几分钟,10000局对战就完成了。可以看到,胜率比为0.1024:0.8976,更悬殊了;平均分数差距稍有缩小。

那么,以子之矛,刺子之盾呢?我试试三方都采用DouZero-WP

       python3 evaluate.py --landlord baselines/douzero_WP/landlord.ckpt --landlord_up baselines/douzero_WP/landlord_up.ckpt --landlord_down baselines/douzero_WP/landlord_down.ckpt     

胜率是农民高一些,看来地主不好当啊。

由于组合太多,这里就不一一试验并展示了。大家也可以试试其他AI组合的对战结果,也许能从中发现一些有趣的发现。

总结

研究了一天,感觉DouZero还是令人惊喜的。

首先是项目上令人惊喜。这是一个有论文有代码的项目,非常友好。提供的代码也是能轻易运行的,并且运行速度不错,我用MacBook Pro跑预训练模型,对战10000局也就三分钟的事。虽然我的条件无法拿出4块GPU训练几天,但这对于实验室来说不算难,有条件的可以用实验室的GPU试试。

其次,效果上也是令人信服。实际对战效果,例如胜率,得分等等,除开牌局的随机性,可以说和论文里描述的基本一致,效果还是不错的。怪不得能杀进botzone天梯第一。

DouZero团队也提出了下一步的优化方法,这里也期待更强的新版本斗地主AI诞生。

user avatar

首先结论是大概率赢不了AI,为什么说是大概率呢,因为斗地主除了一些脑力因素外,运气也是很大一部分的加成。

运气又涉及到了两方面,第一方面自己是地主并且牌好到爆炸

谁能拦我?

要么自己是农民,但是一家的牌好到爆炸

这样的情况,AI 无论如何也赢不了。


一直以来,斗地主都被视为一个极具挑战性的领域。首先,与许多扑克游戏和麻将一样,斗地主属于非完美信息游戏(玩家不能看到其他玩家的手牌),且包含很多「运气」成分。因此,斗地主有非常复杂的博弈树,以及非常大的状态空间(每个状态代表一种可能遇到的情况)。除此之外,相较于德州扑克和麻将,斗地主还有两个独特的挑战:
合作与竞争并存:无论是德州扑克还是麻将,玩家之间都是竞争关系。然而,在斗地主中,两个农民玩家要相互配合对抗地主。虽然过去有论文研究过游戏中的合作关系 [1],但是同时考虑合作和竞争仍然是一个很大的挑战。
庞大而复杂的牌型:斗地主有复杂的牌型结构,例如单张、对子、三带一、顺子、炸弹等等。

原作者: @机器之心

原出处:快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?

原文链接:机器之心:快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?


它们的组合衍生出了 27,472 种牌型 [2]:



在强化学习里,这些牌型被称为动作空间。作为对比,这里列举出了常见强化学习环境及棋牌类游戏的动作空间大小:



虽然无限注德州扑克本身有与斗地主有相同数量级的动作空间,但是其动作空间很容易通过抽象的方式缩小,即把类似的动作合并成一个。例如,加注 100 和加注 101 没有很大的区别,可以合并成一个。然而,斗地主中一个动作中的每张牌都很重要,且很难进行抽象。例如,三带一中带的单张可以是任意手牌。选错一次(比如拆掉了一个顺子)就很可能导致输掉整局游戏。


总结:

总的来说,斗地主属于非完美信息游戏,且需要运气加成,另外还要结对打牌,指数级别的增加了复杂度,比起围棋来说复杂度高了几个数量级。

一局两局可能有运气成分,你要多打几把试试,AI能把你赢得后悔玩这个游戏。

user avatar

你们应该高兴,AI能够超越人类是好事。斗地主能赢,再往上走,控制人类之后,大家都插管子集体当AI的电池,集体进入睡梦状态,活在单机世界里,没有痛苦,没有悲伤,没有战争,每个人都能在程序设定中通过自己的方式获得成功,这样虚假而又快乐的日子,才是人类的归宿。


不要扯什么真实,对于个人来说,你的世界就是你活着时的所感受到的一切,你死后,这个世界变成什么样,再也和你无关。何不集体进入梦中虚幻快乐的世界呢?


以前觉得火星忍者月之眼计划可怕,那是因为没有接受过太多现实的毒打。现实比梦中的世界可怕多了,人终究走向虚无,还不如一开始就进入虚无。

user avatar

这让我想起了一句话“未来已来,只是分布不均”

类似的话题

  • 回答
    斗地主,这项中国人再熟悉不过的纸牌游戏,近来迎来了不速之客——人工智能。当AI不再仅仅是辅助工具,而是直接冲进我们引以为傲的娱乐领域,并且以近乎“碾压”的姿态夺冠,这无疑触动了许多人的神经。快手推出的DouZero在344个AI参与的比赛中拔得头筹,这事儿,咱得好好掰扯掰扯。AI的“降维打击”:为什.............
  • 回答
    关于美国共和党候选人声称“跪杀黑人事件是AI合成”的说法,这是一个非常敏感且复杂的问题,需要从多个角度进行深入分析。事件背景与“跪杀黑人”事件:首先,我们需要明确“跪杀黑人”事件指的是2020年5月25日,非洲裔美国人乔治·弗洛伊德(George Floyd)在明尼阿波利斯被白人警察德里克·肖万(D.............
  • 回答
    AI 方向 PhD 申请竞争激烈是当前学术界和科技界的一个显著现象,这背后有多重原因交织在一起。要深入理解这一点,我们需要从多个层面进行剖析:一、 AI 的“黄金时代”与巨大的吸引力: 技术爆发与应用落地: 近年来,以深度学习为代表的 AI 技术取得了突破性进展,并在语音识别、图像识别、自然语言.............
  • 回答
    Timnit Gebru 在邮件中控诉谷歌缺乏种族多样性后被解雇,这起事件在科技界和学术界引起了广泛的关注和争议。要全面理解这件事,我们需要从多个角度进行分析:1. 事件的起因: Gebru 的核心关切: Timnit Gebru 是一位在AI伦理和公平性领域享有盛誉的科学家。她与另一位研究员 .............
  • 回答
    AI参与文学创作,这绝对是一个令人兴奋又充满争议的话题。与其说是一种“技术应用”,我更愿意将其看作是文学领域一次深刻的“可能性拓展”。它带来的影响,远不止于“机器写文章”这么简单,而是触及了文学的本质、创作的主体乃至我们对“作者”的定义。首先,AI作为一种强大的“辅助工具”的角色,是目前最现实也最普.............
  • 回答
    过去几年,我们可以明显感受到,那些你我日常生活中司空见惯的设备,诸如智能手机、安防摄像头、无人驾驶汽车,它们“看”世界的能力正在以前所未有的速度提升。而在这背后,驱动这一切的关键技术之一,便是CMOS(Complementary MetalOxideSemiconductor)图像传感器,也就是我们.............
  • 回答
    ZAO 的爆火,说实话,我挺意外的,但细想一下,好像又在情理之中。这东西就像一阵旋风,突然就刮到大家眼前,然后大家就开始疯狂地玩,分享,再玩。一开始,你会觉得这玩意儿太神奇了! 真的,你只需要上传一张自己的照片,然后选择一个电影片段或者电视剧的片段,几秒钟之后,你就能看到自己的脸“钻”进别人的身体里.............
  • 回答
    亚马逊 AI 李沐团队大批人员离职是一个备受关注的事件,也引起了业界广泛的讨论。要详细看待这个问题,我们需要从多个角度进行分析:一、 事件背景: 李沐团队的背景: 李沐是中国AI领域非常有影响力的研究者和实践者,他曾在亚马逊担任重要职位,领导着一个专注于大规模AI模型(尤其是自然语言处理和生成式.............
  • 回答
    最近阿里巴巴 AI Labs 花大手笔引进两位年薪百万美元的顶尖AI科学家,这事儿在圈内确实引起了不少关注。抛开数字本身不谈,这背后透露出的信号,以及对阿里AI未来走向的可能影响,值得我们好好掰扯一下。首先,这笔引才的背后,阿里想传递的是一个明确的信号:在AI这场没有硝烟的战争中,阿里要的是“制高点.............
  • 回答
    百度 AI 开发者大会上,李彦宏遭遇泼水事件,这确实是当天最让人意外和难以置信的一幕。从公开的视频和现场报道来看,当时情况发生得相当突然,并且在会场内引起了极大的震动。首先,我们得回顾一下当时的情景。李彦宏正在台上发表主题演讲,这是百度一年一度最重要的开发者盛会,也是他本人展示百度 AI 成果和未来.............
  • 回答
    看待Scale AI这样的创业公司,就像在看一个正在急速膨胀的宇宙,里面充满了机遇,也潜藏着挑战。这家公司之所以引人注目,在于它切入了当下最核心、也最具颠覆性技术之一——人工智能——的“幕后英雄”环节。Scale AI的定位:AI时代的“数据工厂”与“劳动力”简单来说,Scale AI做的就是给人工.............
  • 回答
    一场席卷全球的“AI淘金热”:应届博士年薪80万,这背后隐藏着什么?近年来,人工智能(AI)领域的热度可谓是空前高涨,从科技巨头到初创公司,无不争相布局。而在这场全民狂热的背后,一个令人咋舌的现象也随之浮现:AI人才,尤其是应届博士,身价一路飙升,年薪80万已不再是遥不可及的数字。这股强劲的“AI人.............
  • 回答
    百亿投入下的尴尬:AI 制药的困境与未来之路国内 AI 制药行业,这个听起来充满未来感的词汇,如今正经历着一个颇为尴尬的现实:一边是资本市场上的百亿巨额投入,一边却是不少传统药企对于AI解决方案的“吝啬”。即使是几百万的单子,也常常让药企望而却步。这不禁让人发问:AI 制药到底怎么了?它还有未来吗?.............
  • 回答
    《Phaedo》:AI 绘画漫画中的一次大胆尝试与值得深思的节点由AI绘制的漫画《Phaedo》无疑在当下掀起了一股不小的讨论热潮。这不仅仅是因为其背后蕴含的尖端技术,更在于它对“创作”这一概念提出的挑战,以及它所引发的关于艺术未来、人类与机器关系的深刻思考。与其简单地标签化它为“AI作品”,不如深.............
  • 回答
    2017年百度AI开发者大会是中国科技界一次备受瞩目的盛会,其中最引人注目的环节无疑是李彦宏在五环路上进行的无人驾驶体验。这次公开展示,不仅是百度在自动驾驶领域实力的集中体现,更是中国无人驾驶技术发展的一个重要里程碑。下面我将从几个方面详细解读这次事件:1. 大会的背景与意义: AI浪潮中的领跑.............
  • 回答
    央视新闻 AI 手语主播的正式亮相,标志着科技与无障碍传播领域的一个重要里程碑,尤其是在冬奥会这样备受瞩目的国际盛会上担任手语服务,其意义更是深远。我们可以从多个维度来详细解读这一事件:一、 技术进步与普惠传播的深度融合: AI技术的成熟度体现: 这不仅仅是一个简单的“模型套皮”,而是背后庞大的.............
  • 回答
    字节跳动AI实验室总监李磊转投加州大学圣巴巴拉分校(UCSB)计算机系,这一消息无疑在学术界和科技界都激起了不小的涟漪。要理解这一举动的深层含义,我们需要从多个维度去审视,这不仅仅是一位人才的流动,更可能折射出当前AI发展大背景下,学术界与产业界之间关系的新变化以及李磊本人职业生涯的战略选择。首先,.............
  • 回答
    Yann LeCun 被群骂现象的详细解读:技术、社会与个人之间的复杂博弈Facebook(现 Meta)首席 AI 科学家 Yann LeCun 作为深度学习领域的先驱之一,其在 AI 界的地位举足轻重。然而,近期他在社交媒体上的一些言论,特别是关于 AI 安全、伦理以及对某些研究方向的评价,引发.............
  • 回答
    清华首个AI学生“华智冰”:一场关于智能的探索与思考当提到“学生”,我们脑海中浮现的通常是坐在教室里,埋头苦读,充满求知欲的面孔。然而,清华大学最近推出的这位名为“华智冰”的学生,却打破了我们固有的认知藩篱。她并非血肉之躯,而是由清华大学计算机科学与技术系师生团队倾力打造的,中国高校首个AI学生。华.............
  • 回答
    围棋界被 AlphaGo 彻底搅动了,这不仅仅是一场比赛的胜负,更像是一场科技革命的宣告。当李世石在2016年输给 AlphaGo 时,全世界都为之震惊。那时的我们,无论是棋手还是普通大众,都对人工智能在围棋这个被认为是人类智慧终极堡垒的项目上取得如此压倒性的胜利感到难以置信。“神之一手”的颠覆回想.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有