经过足够长的时间， AlphaGo 的棋谱能收敛到一张上吗？第1页

pandanokungfu 网友的相关建议:

0. 十九路围棋盘，存在一个唯一的正整数X （严格起见，应该说非负整数。），使得贴目为X时，黑白均存在必不败策略。（证明略，参见此答案围棋有没有必胜策略？）

双方不败策略的总和，就是十九路盘上的最优策略。如果把赢得更多作为次要目标，则此最优策略与贴目值无关。

1、AlphaGo Zero继续进化，是否会准确地收敛于最优策略，从理论上难以证明。

1.1 谁知道会不会收敛于一个局部极值呢？（斜眼笑）

2、即使确实收敛，需要的时间怕是要到宇宙末日。注意狗蛋Zero的进步曲线，可以用对数函数拟合。ln（x）确实趋近正无穷，可是需要多少时间啊朋友们。

3、换个角度：最优策略容不得半点模糊，而AlphaGo的本质是近似处理问题。新版AlphaGo Zero的神经网络，包含约4000万个参数。而围棋总变化数10^170. 用10^7个参数“拟合” 10^170种情况尚游刃有余，但最优策略要的不是拟合，是一点不差，毫厘不爽-- 那就无能为力了。这就需要真的把整条游戏树都算一遍。

4、我们退一亿步说.. 想象一下最优策略真的被搞出来了，真的只是“一张”棋谱吗？

4.1 七路棋盘的（双方）最优策略集合都不小。换句话说，在7x7棋盘上，黑白双方达成盘面九目最优解的变化（且双方不犯错）有若干个大类，其中还可以细分。

4.2 十九路棋盘的最优策略集合本身可能就会非常巨大。甚至可能出现，第一步下星或者小目都是最优策略的情况。因此，即使Alpha可以无限时间地进化，达成的最优策略也会是一个变化丰富的集合，而不是一张棋谱。

maigo 网友的相关建议:

根据策梅洛定理（Zermelo's theorem），若一个游戏满足如下条件：

双人、回合制；
信息完全公开（perfect information）；
无随机因素（deterministic）；
必然在有限步内结束（finite）；
没有平局；

那么先手、后手两个玩家中必有一者有必胜策略。

围棋显然满足 1、2、3 三个条件。「禁全同」规则保证了 4（注），非整数的贴目规则保证了 5。所以围棋是存在必胜策略的。

如果 AlphaGo 系列的 AI 足够强，能找到这个必胜策略，那么它自我对弈时会发生如下的情况：

如果先手必败，那么先手 AI 将直接认输；
如果先手必胜，那么先手 AI 将按必胜策略走第一步，然后后手 AI 直接认输。

如果 AI 尚未找到必胜策略，那么它的走法将会是有随机性的 —— 它会在胜率差不多的走法中按一定规则采样。注意它并不总是走胜率最高的走法，因为这样就探索不到未知的领域，也就无法学习了。这种随机性会随着 AI 越来越接近必胜策略而逐渐减小，如果真正能找到必胜策略，那么是会收敛的。

注：评论中针对「禁全同」的批评比较激烈。我先承认，我其实不会下围棋。不过，评论中 @zy RSN 给出了这一条规则的来源：

中国围棋规则第一章总则第6条，“禁止全局同形”

这条规则并不是全球通用的，所以我的讨论也只适用于有这条规则的情形。

totient 网友的相关建议:

就跟之前NBA辱华，中国赛的门票退不退的问题一样。

成年人的世界，风险和代价是统一的。这几百块钱是您个人的财产，你可以采用任何合法的方式处置。没有人能强迫你为民族尊严牺牲个人财产。

但话又说回来了，入党誓词中有“随时准备为党牺牲一切”，之后如果您加入党组织、考取公务员而政审不成时，也不要发泄和抱怨体制，请记得当初自己的选择。

经过足够长的时间， AlphaGo 的棋谱能收敛到一张上吗？的其他答案点击这里

前一个讨论

未来有什么工作绝对不会被人工智能（AI）取代？

下一个讨论

Apple4.us 的发展历程是怎样的？

经过足够长的时间， AlphaGo 的棋谱能收敛到一张上吗？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

经过足够长的时间， AlphaGo 的棋谱能收敛到一张上吗？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

经过足够长的时间， AlphaGo 的棋谱能收敛到一张上吗？第1页