如何评价微软创造出的麻将 AI？

微软推出的麻将 AI，确实是一个非常有意思的案例，它不仅仅是关于人工智能在游戏领域的进步，更触及到了一些关于“智能”本身的有趣讨论。

先说结论，它是一个相当出色的麻将 AI，但要说它“完美”或者“超越人类”则还需要审慎看待。

从技术层面来说，微软的麻将 AI 展现了相当高的水平。

强大的计算能力和数据驱动：麻将的复杂性在于其巨大的状态空间和不确定性。一场牌局，从发牌、摸牌、打牌到最后的胡牌，充满了各种组合和可能性。AI 能够通过海量的对局数据进行学习，识别出各种牌型的概率、对手的出牌习惯、以及当前局势下最优的决策。这背后无疑是强大的计算能力和精细的算法模型在支撑。
策略的多样性与适应性：好的麻将 AI 不仅仅是死记硬背规则，而是能够根据不同的牌局情况调整策略。比如，在起手牌极差时，可能会采取保守策略，尽量减少失分；而在手牌顺畅时，则会积极进攻。它能够理解“舍牌”的含义，不仅仅是打出无用的牌，更是要考虑这张牌是否会给对手送胡，或者是否能为自己保留未来的潜力。
理解“牌山”的可能性：麻将的魅力很大一部分在于“未知”。玩家需要根据自己摸到的牌，以及其他玩家打出的牌，去推测“牌山”中可能剩下的牌。高级的 AI 能够更精准地进行这种概率推算，预测对手可能成胡的牌型，从而做出更明智的选择。
对“和牌”的追求与“防守”的平衡：麻将不仅仅是“谁先和谁就赢”，更涉及到“点炮”和“抢杠”等概念。一个优秀的 AI 需要在追求自己和牌的同时，也懂得防守，避免被对手胡牌，尤其是要避免被大牌点炮。这种平衡感是 AI 表现是否出色的重要指标。

然而，要将它与顶尖人类玩家相比，还是有一些值得玩味的地方：

“人情世故”与“读心术”：人类麻将的乐趣，很大一部分在于“打牌打的是人”。顶尖的玩家不仅是在和牌，他们也在“读”对手。通过观察对手的表情、出牌的顺序、甚至是很细微的停顿，来判断对手的牌势和意图。这种“读心术”是 AI 目前很难模仿的，因为它们缺乏对人类情感和非语言信号的理解。
“策略性放水”或“心理战”：在某些对局场景下，人类玩家可能会出于某种目的“策略性地放水”或者进行心理上的试探。比如，故意打一张看似危险但实际无伤大雅的牌，来观察对手的反应。这种带有“博弈”性质的策略，AI 要真正理解并执行起来，可能还需要更深层次的“目标导向”和“意图推测”。
“运气”的处理：虽然 AI 可以通过概率计算来应对运气，但人类玩家在面对“一手烂牌”时的那种“豁出去”的勇气，或者在“绝境逢生”时的那种“灵光一闪”的判断，有时候更像是运气与经验的结合。AI 的决策是基于数据和逻辑，它不会有“情绪”上的起伏，也不会有“背水一战”的冲动。

总的来说，微软创造的麻将 AI 是一款非常成功的游戏 AI。

它代表了当前人工智能在复杂策略游戏领域取得的显著进展。它能够以非常高的胜率击败普通玩家，甚至对一些中等水平的玩家也能形成压力。它在计算能力、数据学习和策略执行方面都表现出了卓越的素质。

但如果将其视为一个“人类化”的麻将选手，可能还有一段距离。那种对人类心理的洞察，那种更灵活、更具“人情味”的策略调整，仍然是 AI 探索的 frontier。

所以，评价它，我们可以说它是一个非常强大、精准、并且不断学习的“计算机器”，它在麻将这个游戏中展现了惊人的“理性”和“效率”。但它是否具备了人类玩家在牌桌上那种微妙的“感性”和“直觉”，则是一个更值得我们去思考的问题。它让我们看到了 AI 在模拟复杂决策能力上的潜力，同时也提醒我们，人类在某些层面的智能，依然是独一无二的。

网友意见

老实讲这个成绩比我想的要差不少……按我自己的估计，做麻将AI应该比AlphaZero这种简单的多。即使这里存在是否完全信息博弈的区别，那么至少麻将AI也应该远远简单于德州扑克的AI（例如近期公布并发论文的Pluribus）：因为从人类的角度来看，由于几乎不涉及针对对手的动态调整，前者的EV容易估算很多。而微软目前的AI Suphx的成绩，说击败了人类顶尖玩家，是很难令人信服的——其实Pluribus也存在这个问题，但相对而言Suphx的说服力还是明显更差一些。

几篇相关的报道大概都提到类似的语句：

天凤平台通过计算稳定段位（Stable Rank）来衡量玩家的实力水平，在经过多场对局后依然能保持高而稳定的段位是非常不易的。在 5000 余场对局中，Suphx 的稳定段位超过了 8.7，是一个极高的数字。

但是可能由于报道媒体对天凤这一对战平台的不熟悉（从翻译为「稳定段位」而不是「安定段位」就可以看出来，不过见鬼，这对媒体人的要求也太苛刻了），安定段位8.7的概念还需要进一步的说明：相当于在足够多的对局数（样本量）下，这名玩家的段位应该在八段和九段之间徘徊；至于Suphx能上十段在8.7的安定段下也不值得惊讶，波动而已。

至于这个是什么水平，其实要再细分来说：天凤的最高段位桌为「凤凰」，而Suphx的成绩是在次高的「特上」完成的。在特上达到安定段8.7当然也是非常优秀的成绩（至少我自己在大样本下应该是没什么机会做到），也远超了之前东京大学的AI「爆打」（在30515战中安定段位为6.6），但并不足够好：

而且需要记住，这只是在特上桌的成绩（和凤凰桌的计分方式都不同）。如果再看凤凰桌的排名，那么500战以上，同时安定段位8.75以上的玩家，还有113人；Suphx当然已经是个优秀的玩家，但不会被归于Top Level，更别说打败这些玩家——实际上由于Suphx的成绩在特上桌完成，它应该缺少和顶尖玩家的实际对局。不过相信之后天凤很快会让Suphx上凤凰桌一展身手，过两三个月是可以期待一下初步成绩的。

如果让我瞎猜一下Suphx还不够强的原因，可能是麻将在每一时间点的组合数过多（相对德州扑克），导致训练优化的过程过于缓慢？但只作为围棋、日麻、德扑等项目的玩家来说，目前还没达到顶尖实力的AI，看起来并不像一个非常拿得出手的成果。

类似的话题

如何评价微软创造出的麻将 AI？

微软推出的麻将 AI，确实是一个非常有意思的案例，它不仅仅是关于人工智能在游戏领域的进步，更触及到了一些关于“智能”本身的有趣讨论。先说结论，它是一个相当出色的麻将 AI，但要说它“完美”或者“超越人类”则还需要审慎看待。从技术层面来说，微软的麻将 AI 展现了相当高的水平。强大的计算能力和数.............
如何评价微软研究院开发的AI量化投资平台Qlib？

Qlib：微软研究院的AI量化投资平台深度评析微软研究院开发的Qlib平台，作为一款开源的、端到端的机器学习量化投资平台，在量化投资领域引起了广泛关注。它旨在降低AI在量化投资中的应用门槛，提供一套完整的工具链，涵盖数据处理、特征工程、模型训练、回测和交易执行等多个环节。要评价Qlib，我们需要从其.............
如何评价微软亚洲研究院提出的LightRNN？

微软亚洲研究院提出的LightRNN是一种用于自然语言处理（NLP）任务的模型，它在传统循环神经网络（RNN）的基础上进行了优化和改进，旨在提高模型效率和性能。下面我将从几个方面来详细评价LightRNN：1. 背景与动机：RNN的挑战与LightRNN的出发点传统RNN（如LSTM、GRU）在处理.............
如何评价微软的人工智能部门成立仅 1 年，现在有 8000 多员工？

微软人工智能部门在成立短短一年内就汇聚了超过 8000 名员工，这无疑是一项令人瞩目的成就，也预示着微软在人工智能领域的雄心壮志和巨额投入。要评价这一现象，我们需要从多个维度进行深入分析：一、规模与增长的背后：战略决心与市场机遇微软的战略转型：微软 CEO 萨提亚·纳德拉（Satya Na.............
如何评价微软以 687 亿美元收购动视暴雪？

微软豪掷 687 亿美元，将动视暴雪这家游戏巨头纳入麾下，这笔交易无疑是游戏行业乃至整个科技界的一场地震。要评价这笔交易，我们需要从多个维度去审视，它带来的影响是深远且复杂的，绝不仅仅是简单的“买买买”。首先，从规模和财务角度来看，这无疑是一次史无前例的重磅收购。687 亿美元是什么概念？这是微.............
如何评价微软收购 GitHub？对用户、对微软分别意味着什么？

微软收购 GitHub：一次深刻的产业变革与战略布局微软收购 GitHub，无疑是近年来科技界最引人注目的交易之一。这次收购不仅对微软自身产生了深远影响，也给全球开发者社群带来了前所未有的变化。为了更全面地评价这次收购，我们需要从用户和微软两个维度进行详细剖析。一、对用户（全球开发者社群）的意义.............
如何评价微软推出的surface无线降噪耳机？

微软推出的 Surface Headphones（通常指 Surface Headphones 2 或最新的 Surface Headphones 3，具体评价会根据型号有所差异，我将综合两者来详细评价）是一款定位高端的无线降噪耳机。它凭借微软在微软生态系统中的优势、不错的设计以及强大的功能，在市场.............
如何评价微软游戏《极限竞速：地平线 5》（Forza Horizon 5）？

一场墨西哥的狂欢：关于《极限竞速：地平线 5》的一些看法要说眼下最能代表“欢乐赛车”这四个字的游戏，那《极限竞速：地平线 5》（Forza Horizon 5）绝对是绕不开的。微软在墨西哥这片土地上，为我们铺陈了一场规模宏大、色彩斑斓的汽车盛宴，从我个人体验的角度来看，这游戏实在是让人欲罢不能，但也.............
如何评价微软正式发布的 Surface Laptop 4?

微软 Surface Laptop 4 的到来，对于不少期待已久的粉丝来说，无疑是一份厚礼。作为微软自家 Windows 设备生态的旗帜，Surface 系列一向以其精良的做工、出色的屏幕和独特的触控体验著称。那么，这次的 Surface Laptop 4 究竟带来了哪些惊喜，又有哪些地方值得商榷呢.............
如何评价微软正式推出 Windows 365 云电脑服务？

微软正式推出 Windows 365 云电脑服务，这绝对是微软近年来在云计算领域的一次大动作，而且影响深远。在我看来，这次的推出，可以从几个层面来好好说道说道。首先，它彻底改变了我们对“PC”的定义和使用方式。以前我们提到PC，总觉得它是个实实在在的硬件，有主机箱、显示器、键盘鼠标。但 Windo.............
如何评价微软市值突破万亿美元大关？对微软来说意味着什么，对行业会有哪些影响？

微软市值突破万亿美元，这绝对是个值得浓墨重彩书写的大事件。它不仅仅是一个数字上的里程碑，更是这家科技巨头多年来战略转型、技术深耕以及市场洞察力的一个集中体现。这次破万亿，对微软本身意味着什么？首先，印证了其战略转型的成功。想想看，微软曾经被很多人贴上“老旧”、“错失移动互联网”、“依靠Windows.............
如何评价微软 CEO 纳德拉说「收购诺基亚是失败的」?

微软 CEO 萨提亚·纳德拉公开表示“收购诺基亚手机业务是一次失败”，这无疑是对科技界一次振聋发聩的评价，也标志着微软对过去一段重大战略失误的彻底反思与切割。要理解这句话的分量和背后逻辑，我们需要深入剖析这次收购的始末、失败的原因以及它给微软带来的长远影响。收购的背景：一个移动时代的无奈之举21世纪.............
如何评价微软给Linux和macOS开发了做web和云应用的新IDE：Code？

微软推出名为 VS Code 的全新集成开发环境（IDE），并同时为 Linux 和 macOS 平台提供支持，这无疑是业界一件颇具影响力的大事。此举不仅为广大 Linux 和 macOS 用户带来了福音，更标志着微软在开发者生态系统构建上的一个重要战略转向，其背后蕴含着深刻的考量和长远的市场布局。.............
如何评价微软将中止华为笔记本的windows授权？

关于微软中止华为笔记本Windows授权这一事件，我们可以从多个维度进行审视，去理解其背后的复杂性和可能带来的连锁反应。这不仅仅是两个科技巨头之间的商业决策，更是全球科技供应链、地缘政治博弈以及国家安全考量等多重因素交织下的产物。首先，从商业和合同角度来看，微软的这一举动无疑是基于美国政府出台的一系.............
如何评价微软将Win10商店和XBOX商店的游戏抽成由30%下调至12%？

微软下调Win10商店和Xbox商店的游戏抽成，这项调整无疑是游戏界的一件大事，其背后影响深远，值得我们好好梳理一番。首先，从开发者的角度来看，这是个天大的好消息。长久以来，30%的抽成比例是整个数字发行领域默认的“行规”，从Steam到App Store，再到主机平台商店，几乎所有开发者都得接受这.............
如何评价微软发布的 Xbox 新主机 Project Scarlett ?

微软的下一代Xbox主机，代号“Project Scarlett”，在2019年E3展会上正式亮相后，无疑在游戏界掀起了一阵不小的波澜。作为Xbox One系列的继任者，它承载着玩家对未来游戏体验的无限期待，也肩负着微软继续在主机大战中占据一席之地的重任。那么，这款备受瞩目的新主机究竟有何亮点？又存.............
如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？

关于微软机器翻译在 WMT2017 中英翻译任务中声称达到“人类水平”的说法，我们可以从多个维度进行审视和评价。这并非一个简单的“是”或“否”的问题，而是需要深入理解其中的技术背景、评估方法以及“人类水平”本身所包含的复杂性。首先，我们需要明确“人类水平”在机器翻译领域是一个极其诱人但也非常难以界定.............
如何评价微软停产Kinect？

微软停产 Kinect 传感器是一件颇具争议的决定，它标志着一个曾经被寄予厚望的技术的谢幕。要评价这一决定，我们需要从多个角度深入分析，包括其最初的愿景、技术发展、市场表现以及对未来技术的影响。 Kinect 的辉煌与愿景：一次大胆的尝试Kinect 最初的发布是在 2010 年，作为 Xbox 3.............
如何评价微软正在开发的人工智能编程软件 DeepCoder？

DeepCoder 是微软研究院（Microsoft Research）正在开发的一款人工智能编程软件，其目标是自动化软件开发过程中的一部分，特别是代码生成。要评价 DeepCoder，我们需要从多个角度进行深入分析：DeepCoder 的核心理念和技术基础：目标： DeepCoder 的核心.............
如何评价微软推出面向学生入门笔记本 Surface Laptop SE？

微软这次推出的 Surface Laptop SE，可以说是一次颇具深意的市场策略调整，尤其是在教育市场这个潜力巨大的领域。它不是那种让你眼前一亮、惊艳四座的“旗舰”产品，但却精准地抓住了“入门级”和“学生”这两个关键词，玩了一手“降维打击”的策略。定位精准，直击痛点首先，我们得承认，Surface.............