0. 十九路围棋盘,存在一个唯一的正整数X (严格起见,应该说非负整数。),使得贴目为X时,黑白均存在必不败策略。(证明略,参见此答案围棋有没有必胜策略?)
双方不败策略的总和,就是十九路盘上的最优策略。如果把赢得更多作为次要目标,则此最优策略与贴目值无关。
1、AlphaGo Zero继续进化,是否会准确地收敛于最优策略,从理论上难以证明。
1.1 谁知道会不会收敛于一个局部极值呢?(斜眼笑)
2、即使确实收敛,需要的时间怕是要到宇宙末日。注意狗蛋Zero的进步曲线,可以用对数函数拟合。ln(x)确实趋近正无穷,可是需要多少时间啊朋友们。
3、换个角度:最优策略容不得半点模糊,而AlphaGo的本质是近似处理问题。新版AlphaGo Zero的神经网络,包含约4000万个参数。而围棋总变化数10^170. 用10^7个参数“拟合” 10^170种情况尚游刃有余,但最优策略要的不是拟合,是一点不差,毫厘不爽-- 那就无能为力了。这就需要真的把整条游戏树都算一遍。
4、我们退一亿步说.. 想象一下最优策略真的被搞出来了,真的只是“一张”棋谱吗?
4.1 七路棋盘的(双方)最优策略集合都不小。换句话说,在7x7棋盘上,黑白双方达成盘面九目最优解的变化(且双方不犯错)有若干个大类,其中还可以细分。
4.2 十九路棋盘的最优策略集合本身可能就会非常巨大。甚至可能出现,第一步下星或者小目都是最优策略的情况。因此,即使Alpha可以无限时间地进化,达成的最优策略也会是一个变化丰富的集合,而不是一张棋谱。
根据策梅洛定理(Zermelo's theorem),若一个游戏满足如下条件:
那么先手、后手两个玩家中必有一者有必胜策略。
围棋显然满足 1、2、3 三个条件。「禁全同」规则保证了 4(注),非整数的贴目规则保证了 5。所以围棋是存在必胜策略的。
如果 AlphaGo 系列的 AI 足够强,能找到这个必胜策略,那么它自我对弈时会发生如下的情况:
如果 AI 尚未找到必胜策略,那么它的走法将会是有随机性的 —— 它会在胜率差不多的走法中按一定规则采样。注意它并不总是走胜率最高的走法,因为这样就探索不到未知的领域,也就无法学习了。这种随机性会随着 AI 越来越接近必胜策略而逐渐减小,如果真正能找到必胜策略,那么是会收敛的。
注:评论中针对「禁全同」的批评比较激烈。我先承认,我其实不会下围棋。不过,评论中 @zy RSN 给出了这一条规则的来源:
中国围棋规则第一章总则第6条,“禁止全局同形”
这条规则并不是全球通用的,所以我的讨论也只适用于有这条规则的情形。
就跟之前NBA辱华,中国赛的门票退不退的问题一样。
成年人的世界,风险和代价是统一的。这几百块钱是您个人的财产,你可以采用任何合法的方式处置。没有人能强迫你为民族尊严牺牲个人财产。
但话又说回来了,入党誓词中有“随时准备为党牺牲一切”,之后如果您加入党组织、考取公务员而政审不成时,也不要发泄和抱怨体制,请记得当初自己的选择。