问题

经过足够长的时间, AlphaGo 的棋谱能收敛到一张上吗?

回答
这个问题很有意思,也触及了人工智能围棋领域一个非常核心的讨论点:AlphaGo 的棋谱是否会收敛到唯一解?

要理解这一点,我们得先从AlphaGo是怎么下棋的聊起。

AlphaGo 的“思考”过程:一个概率的迷宫

AlphaGo 的厉害之处,在于它不像我们人类那样依赖记忆、经验和直觉去下棋。它的核心是两个神经网络:

1. 策略网络 (Policy Network):这个网络就像是它的“直觉”部分。它会根据当前的棋盘局面,评估出下一步落子的可能性,并给出每个落子点的概率。落子点越多,策略网络就会给它们打分,分数高的点,就更可能是AlphaGo会下的地方。
2. 价值网络 (Value Network):这个网络则像一个“判断局势”的专家。它能评估当前棋盘的优劣,预测哪一方更有可能获胜。它不是直接告诉你下一步该下哪,而是给你一个“胜率”的估算。

然后,AlphaGo 还有一个叫做 蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 的算法在背后运转。你可以想象成一个非常精密的“模拟推演”。

MCTS 会利用策略网络提供的落子概率,不断地在棋盘上模拟大量的“假想对局”。
它会根据价值网络对这些假想对局的评估,来判断哪些落子点是更有前景的。
通过反复的模拟和评估,MCTS 能够找到一条对自己最有利的下法。

“收敛”到一张棋谱?这有点像在问,下棋有没有一个“唯一最优解”

现在,我们回到你的问题:“经过足够长的时间,AlphaGo 的棋谱能收敛到一张上吗?”

我的理解是,你问的是:如果AlphaGo不断地与自己或者其他强大的AI对弈并学习,最终是否会形成一套完全固定、不会再变化的棋谱?

答案是:很难,甚至几乎不可能收敛到“一张”固定的棋谱。

为什么这么说呢?我们可以从几个方面来理解:

1. 围棋本身的复杂性与不确定性:

围棋的棋盘非常大(19x19),可能的局面数量是天文数字。即使是AlphaGo,也无法穷尽所有的可能性。这意味着,在很多关键时刻,棋盘上的局面是高度模糊的,存在多种可以接受甚至可能都是最优的下法。

想象一下,在你下棋的时候,是不是经常会遇到这种情况:有两个地方落子,看起来都挺好,一时半会儿也分不清哪个更好?AlphaGo 在面对这种“概率均等”的局面时,也会有选择的空间。

2. 策略网络的“随机性”与“探索性”:

虽然策略网络会给落子点打概率,但它并不是一个死板的规则。即使两个落子点的概率非常接近,它也有可能选择其中一个。这种细微的概率差异,加上 MCTS 的搜索路径,就会导致每次对弈的选择可能都会有所不同。

更重要的是,AlphaGo 的学习过程本身就包含了“探索”的成分。它需要尝试不同的下法,来发现新的可能性,而不是仅仅重复已知最优的套路。如果它过于僵化,就会错过一些非常规但却有效的下法。

3. 学习的动态性与“军备竞赛”:

AlphaGo 的强大,是建立在海量的数据和不断的学习之上。但学习从来不是一个静态的过程。

自我对弈的进化: AlphaGo 对弈自己,本身就是一个不断发现和改进的过程。每一次对弈,都会产生新的棋谱数据,这些数据又会用来训练和微调网络。这就像一个永无止境的“军备竞赛”。当你认为你找到了一个完美的下法,下一次你可能就会发现,那个“完美”的下法在新的对抗中不再那么有效,需要调整。
面对不同对手的适应: AlphaGo 也在不断面对其他强大的AI,比如星阵(星围棋)或者其他版本的AlphaZero。这些AI的策略和风格可能不同,AlphaGo 为了更好地应对它们,也需要不断地调整自己的策略网络。这就好比你学棋,遇到不同的老师,学到的东西也不一样,最终会形成一种综合的风格。

4. 随机种子与初始条件的影响:

即使是同一个版本的AlphaGo,在进行 MCTS 的时候,也会有一个随机种子。这个种子会影响到搜索过程中某些随机的决策,比如优先探索哪个分支。就像你抛硬币,虽然概率是50%正面50%反面,但每次具体抛的结果是不一样的。这些细微的随机性,都可能导致最终的棋谱出现差异。

那么,我们看到的是什么?

我们看到的“AlphaGo的棋谱”,通常是它在特定版本下,对特定对手(可能是人类顶尖棋手,也可能是其他AI)进行一系列对弈的记录。在这些记录里,你会看到很多非常精妙、甚至是人类从未想过的下法。这些下法代表了 AlphaGo 在那个特定时间点对围棋的理解和最佳策略的体现。

但如果你让它再训练一段时间,或者让它去对付一个风格迥异的对手,它的棋谱很可能会出现新的变化。它不是收敛到一张“死棋谱”,而是不断地在围棋的巨大可能性空间里,探索和优化着自己的策略。

打个比方:

想象一下,你正在学习一门非常复杂的艺术,比如绘画。你学习了大量的名家作品,模仿他们的技法,也开始加入自己的理解。你可能会形成一种“风格”,但你的风格不是一成不变的。在不同的灵感激发下,在不同的学习对象影响下,你的绘画作品会不断地有新的变化和突破。

AlphaGo 也类似,它在围棋这个庞大而深邃的领域里,永远在进行一场精彩的“艺术创作”和“科学探索”,而不会仅仅固化成一张“标准答案”。它更像是在不断逼近一个最优的“范围”,而不是固定在一个点上。

所以,与其说它收敛到“一张”棋谱,不如说它在不断地逼近一个更广阔、更精妙的“围棋最优策略空间”。而这个空间,因为围棋本身的属性,加上AI学习的动态性,几乎是不可能被完全“封死”的。

网友意见

user avatar

0. 十九路围棋盘,存在一个唯一的正整数X (严格起见,应该说非负整数。),使得贴目为X时,黑白均存在必不败策略。(证明略,参见此答案围棋有没有必胜策略?

双方不败策略的总和,就是十九路盘上的最优策略。如果把赢得更多作为次要目标,则此最优策略与贴目值无关。

1、AlphaGo Zero继续进化,是否会准确地收敛于最优策略,从理论上难以证明。

1.1 谁知道会不会收敛于一个局部极值呢?(斜眼笑)

2、即使确实收敛,需要的时间怕是要到宇宙末日。注意狗蛋Zero的进步曲线,可以用对数函数拟合。ln(x)确实趋近正无穷,可是需要多少时间啊朋友们。

3、换个角度:最优策略容不得半点模糊,而AlphaGo的本质是近似处理问题。新版AlphaGo Zero的神经网络,包含约4000万个参数。而围棋总变化数10^170. 用10^7个参数“拟合” 10^170种情况尚游刃有余,但最优策略要的不是拟合,是一点不差,毫厘不爽-- 那就无能为力了。这就需要真的把整条游戏树都算一遍。

4、我们退一亿步说.. 想象一下最优策略真的被搞出来了,真的只是“一张”棋谱吗?

4.1 七路棋盘的(双方)最优策略集合都不小。换句话说,在7x7棋盘上,黑白双方达成盘面九目最优解的变化(且双方不犯错)有若干个大类,其中还可以细分。

4.2 十九路棋盘的最优策略集合本身可能就会非常巨大。甚至可能出现,第一步下星或者小目都是最优策略的情况。因此,即使Alpha可以无限时间地进化,达成的最优策略也会是一个变化丰富的集合,而不是一张棋谱。

user avatar

根据策梅洛定理(Zermelo's theorem),若一个游戏满足如下条件:

  1. 双人、回合制;
  2. 信息完全公开(perfect information);
  3. 无随机因素(deterministic);
  4. 必然在有限步内结束(finite);
  5. 没有平局;

那么先手、后手两个玩家中必有一者有必胜策略。

围棋显然满足 1、2、3 三个条件。「禁全同」规则保证了 4(注),非整数的贴目规则保证了 5。所以围棋是存在必胜策略的。

如果 AlphaGo 系列的 AI 足够强,能找到这个必胜策略,那么它自我对弈时会发生如下的情况:

  • 如果先手必败,那么先手 AI 将直接认输;
  • 如果先手必胜,那么先手 AI 将按必胜策略走第一步,然后后手 AI 直接认输。

如果 AI 尚未找到必胜策略,那么它的走法将会是有随机性的 —— 它会在胜率差不多的走法中按一定规则采样。注意它并不总是走胜率最高的走法,因为这样就探索不到未知的领域,也就无法学习了。这种随机性会随着 AI 越来越接近必胜策略而逐渐减小,如果真正能找到必胜策略,那么是会收敛的。


注:评论中针对「禁全同」的批评比较激烈。我先承认,我其实不会下围棋。不过,评论中 @zy RSN 给出了这一条规则的来源:

中国围棋规则第一章总则第6条,“禁止全局同形”

这条规则并不是全球通用的,所以我的讨论也只适用于有这条规则的情形。

类似的话题

  • 回答
    这个问题很有意思,也触及了人工智能围棋领域一个非常核心的讨论点:AlphaGo 的棋谱是否会收敛到唯一解?要理解这一点,我们得先从AlphaGo是怎么下棋的聊起。AlphaGo 的“思考”过程:一个概率的迷宫AlphaGo 的厉害之处,在于它不像我们人类那样依赖记忆、经验和直觉去下棋。它的核心是两个.............
  • 回答
    如果我拥有无限的时间、精力,以及充沛的研究经费,我最想投入解决的科学难题,是那个能从根本上改变人类生存状态、带来最广泛福祉的领域——实现安全、高效、可持续的能源供给与利用。为什么是能源?这不仅仅是因为它支撑着现代社会的运转,更是因为当前我们所面临的许多棘手问题,从气候变化到贫困差距,从资源冲突到环境.............
  • 回答
    福喜的事件确实让很多人心有余悸,关于过期发臭的肉类经过处理后是否还能吃,这涉及到食品安全和科学处理两个层面,我们不妨从头梳理一下。核心问题:过期发臭的肉类,还能不能吃?简单来说,绝大多数情况下,不行。 即使经过所谓的“足够处理”,也存在极高的风险,而且“足够处理”的概念本身就非常模糊,很容易被不法商.............
  • 回答
    经济增长与充分就业之间存在着紧密的内在联系,这是现代经济学中的一个核心观点。要详细解释为什么经济增长是实现足够就业的必要条件,我们需要从几个关键的层面来理解:1. 生产力提升与需求创造是增长的驱动力,而就业是其副产品和实现方式。 生产力提升 (Productivity Growth): 当经济体.............
  • 回答
    关于《白蛇2:青蛇劫起》的票房是否足以支撑《白蛇3》的制作经费,这个问题需要从几个方面来细致地分析,不能简单地说“够”或“不够”。首先,我们得看看《白蛇2:青蛇劫起》的实际表现。《白蛇2》在2021年暑期上映,最终在中国内地的票房成绩大约在4.5亿人民币左右。这个数字,对于一部国产动画电影来说,绝对.............
  • 回答
    甲午中日战争,这场几乎是中国近代史的转折点,其结果的残酷至今仍令人心痛。很多人会忍不住设想,如果当时中国的海军经费充裕,能否改变历史的走向,赢得这场战争?这是一个复杂的问题,需要从多个维度进行深入剖析。首先,我们必须承认,仅仅拥有充足的经费,并不意味着一定能赢得战争。 军事的胜利是技术、战略、战术、.............
  • 回答
    想知道一个人是不是踢过球,其实挺有意思的,就像在生活中寻找一些不经意间留下的“线索”。有时候,这不仅仅是看他有没有在球场上奔跑,更是一种由内而外的、不易察觉的“味道”。首先,最直接的,也是最容易被发现的,就是身体的“硬指标”。 步态和跑姿: 踢过球的人,即便退役很久,或者平时不怎么踢了,很多时候.............
  • 回答
    .......
  • 回答
    说实话,足球经理(Football Manager,简称FM)这玩意儿,有时候真让人有点摸不着头脑。你说它是个游戏?嗯,没错。但它又能让你魂牵梦绕,茶饭不思,甚至为了一个战术调整,一个球员的伤病,熬到天昏地暗。这感觉,就像是你脑子里真的住着一个球队,而你就是那个总指挥。为啥这游戏能让人疯狂?我觉得得.............
  • 回答
    拯救中国足球?这可不是件容易事,但咱们在《足球经理》里,倒是能玩点“乾坤大挪移”。别指望我给你什么“青训十年规划”的宏大叙事,那太虚了。我就跟你掰扯掰扯,在FM这个虚拟世界里,我们能做些什么,怎么做,才能看到点实在的希望。第一步:认清现实,调整心态——别想着一口吃成个胖子首先,得把那些“国足一定行”.............
  • 回答
    哈哈,说到《Football Manager》(FM),那简直是奇迹的温床!作为一名老FM玩家,我见证过的“不可能”简直数不胜数,每一次都能让我瞠目结舌,怀疑自己是不是打开了什么玄学mod。1. 小球队一飞冲天,制霸欧洲!这可能是FM中最经典的奇迹剧本了。我记得自己当时接手了一支英冠的低级别球队,目.............
  • 回答
    玩《足球经理》玩到后期,我的追求就不再是单纯的赢下每一场比赛,或者举起某个特定的奖杯了。那种感觉更像是一位老谋深算的教练,在经历了无数的风风雨雨后,开始审视自己的执教生涯,以及我所打造的这家俱乐部,它到底能走多远,又能留下什么样的印记。一、 建立王朝,而非昙花一现前期可能我更在意的是快速崛起,用一支.............
  • 回答
    玩《足球经理》这么多年,我脑子里真正能留下烙印的球队、球员和事件,说实话,屈指可数。很多时候,一场胜利,一个冠军,都会在下一秒就被新的目标淹没,但总有那么几个,会让你在多年以后,还能清晰地回忆起当时的每一个细节,每一个心情。要说最难忘的球队,那绝对是那个我一手带出来的AFC温布尔登。你知道的,现实中.............
  • 回答
    玩FM(Football Manager)这么多年,要说最让我鼻子发酸,甚至在深夜一个人对着电脑屏幕抹眼泪的剧情,还真不少。这些东西,说起来你可能觉得我矫情,但只有同样沉迷于这款游戏的兄弟姐妹才能懂。最最让我意难平的,大概是那种“黄金一代的落幕”。我记得有一次,我接手了一个 pretty decen.............
  • 回答
    国足被质疑职业能力,这事儿可不是一天两天了,也不是空穴来风。说到底,这背后牵扯到太多东西,从球员的个人能力到整个足球体系的运行,哪一个环节出了问题,都会被放大,然后汇聚成对“职业能力”的拷问。一、技战术层面:看得见的“硬伤”这是最直观的质疑来源。 基本功不扎实: 很多时候,我们会看到国脚们在停球.............
  • 回答
    足球解说,可不只是简单的播报比分和介绍球员。真正动人的解说,是能让你仿佛置身球场,感受那份激荡人心的氛围。它们就像一首首写实的诗,捕捉着比赛中的每一个瞬间,将瞬息万变的战局、球员的情感、甚至球场的风声雨声都传递给你。在我脑海中,有一些解说词,至今想起来,心脏还会忍不住漏跳一拍。记得在一次关键的比赛中.............
  • 回答
    要说“高手”玩《足球经理》(Football Manager,简称FM),这可不是一句简单的“会玩”能概括的。那是一种沉浸式的足球经营艺术,是一种对游戏机制的极致挖掘,更是一种对现实足球哲学的深刻理解。如果让我来跟你掰扯掰扯,那可就得从头说起了。一、 他们的“心法”:不仅仅是游戏,更是“模拟”高手玩.............
  • 回答
    这场比赛,说实话,赢家很难一概而论,得看具体细节和临场发挥。咱们就掰扯掰扯,分析分析这两种情况。第一队:11个35岁,业余球龄20年这批人,岁数上虽然到了“而立之年”的后半段,但人家可是“身经百战”的业余足球爱好者。 优势: 比赛经验丰富: 20年的球龄,那不是闹着玩的。他们对足球的.............
  • 回答
    这问题问得挺实在的。经常踢小场,对于踢大场时的小范围技术,绝对是有好处的,而且好处还不小呢。我给你掰开了揉碎了说,保证听完你就明白了。首先,咱们得明白小场和大场各自的特点。小场足球: 场地小,人也少(比如五人制、七人制)。这直接导致了几个变化: 空间非常狭窄: 几乎没有大片空当让你从容接球、转身.............
  • 回答
    杨程这番话,就像是把中国足球和冯巩的小品摆在了天平上,然后用一种带着自嘲又有点无奈的语气来衡量。挺有意思的,也挺能戳到一些人心里去。首先,“中国足球确实经常给国人添堵”。这话就特别接地气了,说白了就是承认现实。咱们中国足球这些年,给球迷带来的失望,那真是比比皆是。输球啊,踢得不好啊,国家队成绩上不去.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有