经过足够长的时间， AlphaGo 的棋谱能收敛到一张上吗？

这个问题很有意思，也触及了人工智能围棋领域一个非常核心的讨论点：AlphaGo 的棋谱是否会收敛到唯一解？

要理解这一点，我们得先从AlphaGo是怎么下棋的聊起。

AlphaGo 的“思考”过程：一个概率的迷宫

AlphaGo 的厉害之处，在于它不像我们人类那样依赖记忆、经验和直觉去下棋。它的核心是两个神经网络：

1. 策略网络 (Policy Network)：这个网络就像是它的“直觉”部分。它会根据当前的棋盘局面，评估出下一步落子的可能性，并给出每个落子点的概率。落子点越多，策略网络就会给它们打分，分数高的点，就更可能是AlphaGo会下的地方。
2. 价值网络 (Value Network)：这个网络则像一个“判断局势”的专家。它能评估当前棋盘的优劣，预测哪一方更有可能获胜。它不是直接告诉你下一步该下哪，而是给你一个“胜率”的估算。

然后，AlphaGo 还有一个叫做蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 的算法在背后运转。你可以想象成一个非常精密的“模拟推演”。

MCTS 会利用策略网络提供的落子概率，不断地在棋盘上模拟大量的“假想对局”。
它会根据价值网络对这些假想对局的评估，来判断哪些落子点是更有前景的。
通过反复的模拟和评估，MCTS 能够找到一条对自己最有利的下法。

“收敛”到一张棋谱？这有点像在问，下棋有没有一个“唯一最优解”

现在，我们回到你的问题：“经过足够长的时间，AlphaGo 的棋谱能收敛到一张上吗？”

我的理解是，你问的是：如果AlphaGo不断地与自己或者其他强大的AI对弈并学习，最终是否会形成一套完全固定、不会再变化的棋谱？

答案是：很难，甚至几乎不可能收敛到“一张”固定的棋谱。

为什么这么说呢？我们可以从几个方面来理解：

1. 围棋本身的复杂性与不确定性：

围棋的棋盘非常大（19x19），可能的局面数量是天文数字。即使是AlphaGo，也无法穷尽所有的可能性。这意味着，在很多关键时刻，棋盘上的局面是高度模糊的，存在多种可以接受甚至可能都是最优的下法。

想象一下，在你下棋的时候，是不是经常会遇到这种情况：有两个地方落子，看起来都挺好，一时半会儿也分不清哪个更好？AlphaGo 在面对这种“概率均等”的局面时，也会有选择的空间。

2. 策略网络的“随机性”与“探索性”：

虽然策略网络会给落子点打概率，但它并不是一个死板的规则。即使两个落子点的概率非常接近，它也有可能选择其中一个。这种细微的概率差异，加上 MCTS 的搜索路径，就会导致每次对弈的选择可能都会有所不同。

更重要的是，AlphaGo 的学习过程本身就包含了“探索”的成分。它需要尝试不同的下法，来发现新的可能性，而不是仅仅重复已知最优的套路。如果它过于僵化，就会错过一些非常规但却有效的下法。

3. 学习的动态性与“军备竞赛”：

AlphaGo 的强大，是建立在海量的数据和不断的学习之上。但学习从来不是一个静态的过程。

自我对弈的进化： AlphaGo 对弈自己，本身就是一个不断发现和改进的过程。每一次对弈，都会产生新的棋谱数据，这些数据又会用来训练和微调网络。这就像一个永无止境的“军备竞赛”。当你认为你找到了一个完美的下法，下一次你可能就会发现，那个“完美”的下法在新的对抗中不再那么有效，需要调整。
面对不同对手的适应： AlphaGo 也在不断面对其他强大的AI，比如星阵（星围棋）或者其他版本的AlphaZero。这些AI的策略和风格可能不同，AlphaGo 为了更好地应对它们，也需要不断地调整自己的策略网络。这就好比你学棋，遇到不同的老师，学到的东西也不一样，最终会形成一种综合的风格。

4. 随机种子与初始条件的影响：

即使是同一个版本的AlphaGo，在进行 MCTS 的时候，也会有一个随机种子。这个种子会影响到搜索过程中某些随机的决策，比如优先探索哪个分支。就像你抛硬币，虽然概率是50%正面50%反面，但每次具体抛的结果是不一样的。这些细微的随机性，都可能导致最终的棋谱出现差异。

那么，我们看到的是什么？

我们看到的“AlphaGo的棋谱”，通常是它在特定版本下，对特定对手（可能是人类顶尖棋手，也可能是其他AI）进行一系列对弈的记录。在这些记录里，你会看到很多非常精妙、甚至是人类从未想过的下法。这些下法代表了 AlphaGo 在那个特定时间点对围棋的理解和最佳策略的体现。

但如果你让它再训练一段时间，或者让它去对付一个风格迥异的对手，它的棋谱很可能会出现新的变化。它不是收敛到一张“死棋谱”，而是不断地在围棋的巨大可能性空间里，探索和优化着自己的策略。

打个比方：

想象一下，你正在学习一门非常复杂的艺术，比如绘画。你学习了大量的名家作品，模仿他们的技法，也开始加入自己的理解。你可能会形成一种“风格”，但你的风格不是一成不变的。在不同的灵感激发下，在不同的学习对象影响下，你的绘画作品会不断地有新的变化和突破。

AlphaGo 也类似，它在围棋这个庞大而深邃的领域里，永远在进行一场精彩的“艺术创作”和“科学探索”，而不会仅仅固化成一张“标准答案”。它更像是在不断逼近一个最优的“范围”，而不是固定在一个点上。

所以，与其说它收敛到“一张”棋谱，不如说它在不断地逼近一个更广阔、更精妙的“围棋最优策略空间”。而这个空间，因为围棋本身的属性，加上AI学习的动态性，几乎是不可能被完全“封死”的。

网友意见

0. 十九路围棋盘，存在一个唯一的正整数X （严格起见，应该说非负整数。），使得贴目为X时，黑白均存在必不败策略。（证明略，参见此答案围棋有没有必胜策略？）

双方不败策略的总和，就是十九路盘上的最优策略。如果把赢得更多作为次要目标，则此最优策略与贴目值无关。

1、AlphaGo Zero继续进化，是否会准确地收敛于最优策略，从理论上难以证明。

1.1 谁知道会不会收敛于一个局部极值呢？（斜眼笑）

2、即使确实收敛，需要的时间怕是要到宇宙末日。注意狗蛋Zero的进步曲线，可以用对数函数拟合。ln（x）确实趋近正无穷，可是需要多少时间啊朋友们。

3、换个角度：最优策略容不得半点模糊，而AlphaGo的本质是近似处理问题。新版AlphaGo Zero的神经网络，包含约4000万个参数。而围棋总变化数10^170. 用10^7个参数“拟合” 10^170种情况尚游刃有余，但最优策略要的不是拟合，是一点不差，毫厘不爽-- 那就无能为力了。这就需要真的把整条游戏树都算一遍。

4、我们退一亿步说.. 想象一下最优策略真的被搞出来了，真的只是“一张”棋谱吗？

4.1 七路棋盘的（双方）最优策略集合都不小。换句话说，在7x7棋盘上，黑白双方达成盘面九目最优解的变化（且双方不犯错）有若干个大类，其中还可以细分。

4.2 十九路棋盘的最优策略集合本身可能就会非常巨大。甚至可能出现，第一步下星或者小目都是最优策略的情况。因此，即使Alpha可以无限时间地进化，达成的最优策略也会是一个变化丰富的集合，而不是一张棋谱。

根据策梅洛定理（Zermelo's theorem），若一个游戏满足如下条件：

双人、回合制；
信息完全公开（perfect information）；
无随机因素（deterministic）；
必然在有限步内结束（finite）；
没有平局；

那么先手、后手两个玩家中必有一者有必胜策略。

围棋显然满足 1、2、3 三个条件。「禁全同」规则保证了 4（注），非整数的贴目规则保证了 5。所以围棋是存在必胜策略的。

如果 AlphaGo 系列的 AI 足够强，能找到这个必胜策略，那么它自我对弈时会发生如下的情况：

如果先手必败，那么先手 AI 将直接认输；
如果先手必胜，那么先手 AI 将按必胜策略走第一步，然后后手 AI 直接认输。

如果 AI 尚未找到必胜策略，那么它的走法将会是有随机性的 —— 它会在胜率差不多的走法中按一定规则采样。注意它并不总是走胜率最高的走法，因为这样就探索不到未知的领域，也就无法学习了。这种随机性会随着 AI 越来越接近必胜策略而逐渐减小，如果真正能找到必胜策略，那么是会收敛的。

注：评论中针对「禁全同」的批评比较激烈。我先承认，我其实不会下围棋。不过，评论中 @zy RSN 给出了这一条规则的来源：

中国围棋规则第一章总则第6条，“禁止全局同形”

这条规则并不是全球通用的，所以我的讨论也只适用于有这条规则的情形。

类似的话题

经过足够长的时间， AlphaGo 的棋谱能收敛到一张上吗？

这个问题很有意思，也触及了人工智能围棋领域一个非常核心的讨论点：AlphaGo 的棋谱是否会收敛到唯一解？要理解这一点，我们得先从AlphaGo是怎么下棋的聊起。AlphaGo 的“思考”过程：一个概率的迷宫AlphaGo 的厉害之处，在于它不像我们人类那样依赖记忆、经验和直觉去下棋。它的核心是两个.............
如果给你足够的时间精力和研究经费，你最想解决世界上的哪一个科学难题，从而造福全人类？

如果我拥有无限的时间、精力，以及充沛的研究经费，我最想投入解决的科学难题，是那个能从根本上改变人类生存状态、带来最广泛福祉的领域——实现安全、高效、可持续的能源供给与利用。为什么是能源？这不仅仅是因为它支撑着现代社会的运转，更是因为当前我们所面临的许多棘手问题，从气候变化到贫困差距，从资源冲突到环境.............
福喜的问题曝光了.其实他们那些过期发臭肉类经过足够处理是否还能吃?

福喜的事件确实让很多人心有余悸，关于过期发臭的肉类经过处理后是否还能吃，这涉及到食品安全和科学处理两个层面，我们不妨从头梳理一下。核心问题：过期发臭的肉类，还能不能吃？简单来说，绝大多数情况下，不行。即使经过所谓的“足够处理”，也存在极高的风险，而且“足够处理”的概念本身就非常模糊，很容易被不法商.............
为什么经济一定要增长，才能够实现足够的就业？

经济增长与充分就业之间存在着紧密的内在联系，这是现代经济学中的一个核心观点。要详细解释为什么经济增长是实现足够就业的必要条件，我们需要从几个关键的层面来理解：1. 生产力提升与需求创造是增长的驱动力，而就业是其副产品和实现方式。生产力提升 (Productivity Growth): 当经济体.............
白蛇2的的票房足够支持白蛇3的经费吗？

关于《白蛇2：青蛇劫起》的票房是否足以支撑《白蛇3》的制作经费，这个问题需要从几个方面来细致地分析，不能简单地说“够”或“不够”。首先，我们得看看《白蛇2：青蛇劫起》的实际表现。《白蛇2》在2021年暑期上映，最终在中国内地的票房成绩大约在4.5亿人民币左右。这个数字，对于一部国产动画电影来说，绝对.............
中国海军如果经费足够在甲午中日战争中能赢吗？

甲午中日战争，这场几乎是中国近代史的转折点，其结果的残酷至今仍令人心痛。很多人会忍不住设想，如果当时中国的海军经费充裕，能否改变历史的走向，赢得这场战争？这是一个复杂的问题，需要从多个维度进行深入剖析。首先，我们必须承认，仅仅拥有充足的经费，并不意味着一定能赢得战争。军事的胜利是技术、战略、战术、.............
从哪可以看出一个人有经过足球训练的痕迹?

想知道一个人是不是踢过球，其实挺有意思的，就像在生活中寻找一些不经意间留下的“线索”。有时候，这不仅仅是看他有没有在球场上奔跑，更是一种由内而外的、不易察觉的“味道”。首先，最直接的，也是最容易被发现的，就是身体的“硬指标”。步态和跑姿：踢过球的人，即便退役很久，或者平时不怎么踢了，很多时候.............
张北除虫灭蟑螂哪家经验足、费用低？

.......
为什么足球经理（Football Manager）这款游戏那么火，以致于很多人都为了它都达到了一种疯狂的状态？

说实话，足球经理（Football Manager，简称FM）这玩意儿，有时候真让人有点摸不着头脑。你说它是个游戏？嗯，没错。但它又能让你魂牵梦绕，茶饭不思，甚至为了一个战术调整，一个球员的伤病，熬到天昏地暗。这感觉，就像是你脑子里真的住着一个球队，而你就是那个总指挥。为啥这游戏能让人疯狂？我觉得得.............
《足球经理》（FM）中，如何科学地拯救中国足球？

拯救中国足球？这可不是件容易事，但咱们在《足球经理》里，倒是能玩点“乾坤大挪移”。别指望我给你什么“青训十年规划”的宏大叙事，那太虚了。我就跟你掰扯掰扯，在FM这个虚拟世界里，我们能做些什么，怎么做，才能看到点实在的希望。第一步：认清现实，调整心态——别想着一口吃成个胖子首先，得把那些“国足一定行”.............
足球经理《football manager》游戏中有哪些让你瞠目结舌的奇迹？（配图最佳）？

哈哈，说到《Football Manager》（FM），那简直是奇迹的温床！作为一名老FM玩家，我见证过的“不可能”简直数不胜数，每一次都能让我瞠目结舌，怀疑自己是不是打开了什么玄学mod。1. 小球队一飞冲天，制霸欧洲！这可能是FM中最经典的奇迹剧本了。我记得自己当时接手了一支英冠的低级别球队，目.............
《足球经理》游戏玩到后期你的追求是什么？

玩《足球经理》玩到后期，我的追求就不再是单纯的赢下每一场比赛，或者举起某个特定的奖杯了。那种感觉更像是一位老谋深算的教练，在经历了无数的风风雨雨后，开始审视自己的执教生涯，以及我所打造的这家俱乐部，它到底能走多远，又能留下什么样的印记。一、建立王朝，而非昙花一现前期可能我更在意的是快速崛起，用一支.............
《足球经理》里你有哪些难忘的球队、球员或事件?

玩《足球经理》这么多年，我脑子里真正能留下烙印的球队、球员和事件，说实话，屈指可数。很多时候，一场胜利，一个冠军，都会在下一秒就被新的目标淹没，但总有那么几个，会让你在多年以后，还能清晰地回忆起当时的每一个细节，每一个心情。要说最难忘的球队，那绝对是那个我一手带出来的AFC温布尔登。你知道的，现实中.............
你玩足球经理（FM）时遇见过哪些感伤的剧情？

玩FM（Football Manager）这么多年，要说最让我鼻子发酸，甚至在深夜一个人对着电脑屏幕抹眼泪的剧情，还真不少。这些东西，说起来你可能觉得我矫情，但只有同样沉迷于这款游戏的兄弟姐妹才能懂。最最让我意难平的，大概是那种“黄金一代的落幕”。我记得有一次，我接手了一个 pretty decen.............
为什么国足经常被质疑职业能力？

国足被质疑职业能力，这事儿可不是一天两天了，也不是空穴来风。说到底，这背后牵扯到太多东西，从球员的个人能力到整个足球体系的运行，哪一个环节出了问题，都会被放大，然后汇聚成对“职业能力”的拷问。一、技战术层面：看得见的“硬伤”这是最直观的质疑来源。基本功不扎实：很多时候，我们会看到国脚们在停球.............
有哪些经典的足球解说词？

足球解说，可不只是简单的播报比分和介绍球员。真正动人的解说，是能让你仿佛置身球场，感受那份激荡人心的氛围。它们就像一首首写实的诗，捕捉着比赛中的每一个瞬间，将瞬息万变的战局、球员的情感、甚至球场的风声雨声都传递给你。在我脑海中，有一些解说词，至今想起来，心脏还会忍不住漏跳一拍。记得在一次关键的比赛中.............
高手是如何玩足球经理（Football Manager）的？

要说“高手”玩《足球经理》（Football Manager，简称FM），这可不是一句简单的“会玩”能概括的。那是一种沉浸式的足球经营艺术，是一种对游戏机制的极致挖掘，更是一种对现实足球哲学的深刻理解。如果让我来跟你掰扯掰扯，那可就得从头说起了。一、他们的“心法”：不仅仅是游戏，更是“模拟”高手玩.............
11个35岁业余球龄20年的普通人和11个没有足球经验但是身体素质顶尖的人各自训练两个月后比赛谁会赢?

这场比赛，说实话，赢家很难一概而论，得看具体细节和临场发挥。咱们就掰扯掰扯，分析分析这两种情况。第一队：11个35岁，业余球龄20年这批人，岁数上虽然到了“而立之年”的后半段，但人家可是“身经百战”的业余足球爱好者。优势：比赛经验丰富： 20年的球龄，那不是闹着玩的。他们对足球的.............
足球平时经常踢小场会对踢大场的小范围有好处吗？

这问题问得挺实在的。经常踢小场，对于踢大场时的小范围技术，绝对是有好处的，而且好处还不小呢。我给你掰开了揉碎了说，保证听完你就明白了。首先，咱们得明白小场和大场各自的特点。小场足球：场地小，人也少（比如五人制、七人制）。这直接导致了几个变化：空间非常狭窄：几乎没有大片空当让你从容接球、转身.............
如何看待中超球员杨程发文回应冯巩之争，称「中国足球确实经常给国人添堵，但巩老师也没把小品冲出亚洲」？

杨程这番话，就像是把中国足球和冯巩的小品摆在了天平上，然后用一种带着自嘲又有点无奈的语气来衡量。挺有意思的，也挺能戳到一些人心里去。首先，“中国足球确实经常给国人添堵”。这话就特别接地气了，说白了就是承认现实。咱们中国足球这些年，给球迷带来的失望，那真是比比皆是。输球啊，踢得不好啊，国家队成绩上不去.............