来自周志华教授的朋友圈,周教授同意转载:
“花半小时看了下文章,说点个人浅见,未必正确仅供批评:
1. 别幻想什么无监督学习,监督信息来自精准规则,非常强的监督信息。
2. 不再把围棋当作从数据中学习的问题,回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。
3. 如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。
4. 类似想法以往有,但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构,存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设,所以这个尝试相当大胆。
5. 工程实现能力超级强,别人即便跳出盲点,以启发式搜索界的工程能力也多半做不出来。
6. 目前并非普适,只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。“
我读着新版本AlphaGo的论文,对比前一个版本(即AlphaGo Fan)的论文。直观感受如下:
旧版AlphaGo:
AlphaGo Zero:
如果我对围棋一无所知,读初代AlphaGo的论文,可能会有以下疑问:
策略网络和价值网络,结构和功能很接近啊,为什么不合并成一个呢?
为什么要用专家的棋谱作为初始训练样本?从一张白纸开始训练岂不是更具有普遍性?
快速走子是什么鬼?只用价值网络评估不是更有效率吗?
为什么要输入围棋知识?AlphaGo的强化学习过程难道学不到这些知识吗?
旧版的AlphaGo,虽然神功小成,但斧凿痕迹显著。好似一只机器人女友,虽有绝色容颜,却长着机械手、声音冷如谷歌娘(误)。理想的围棋人工智能,应该是简洁、优雅、浑然天成,就像死宅们的老婆新垣结衣一样(大雾)。
而新版的AlphaGo,真的造出了栩栩如生的Gakki(误)。
具体地说,AlphaGo Zero相比于初代AlphaGo,有以下几点改进:
1、将策略网络和价值网络合并,组成一个可以同时输出策略p和价值v的新网络。
1.1、简化了新网络的结构。新策略·价值网络的输入特征平面由48个减少到了17个。其中,涉及围棋知识的输入特征(气(liberty)、征子(ladder))被删去。
2、新策略·价值网络只需通过强化学习来训练,无需监督学习。即无需输入人类高手棋谱作为初始训练样本,只需用随机落子作为初始训练样本。
3、优化了蒙特卡洛搜索树,主要是省去了快速走子(rollout policy),节约大量实战计算成本。
3.1、 快速走子策略也需要输入大量人类已知的围棋知识,比如如何点死大眼(Nakade, 如点死直三、丁四、刀把五等棋型的唯一招法)。省去快速走子,也就省去了输入这些知识的麻烦。
4、改卷积网络为残差网络,提高训练效率。
留下的,是一个从零开始训练的神经网络,以及用简单到不能再简单的MCTS算法行棋的AlphaGo Zero。
知易行难。这些改进貌似不难想到,是因为AlphaGo Zero本来就是研究者理想中的女神。而初版AlphaGo不够女神,不是因为研究者不想,而是暂时做不到。举个例子,AlphaGo Fan版本中,神经网络的输入由48个特征平面构成。其中两个平面分别表示,某一步棋是否是成功的征子,和某一步棋是否是成功的逃征子。
这是征子的基本图。白1逃跑,黑2、4以下分别从两侧叫吃白棋,使白方始终只有一口气。一直追到棋盘尽头,白方最终无路可逃。黑棋大获全胜。
而如果征子路上有对方的小伙伴接应,比如上图右上角的黑棋。那么征子就会失败,并且白棋满盘皆输。
征子是围棋的基本知识,初学者在前两三节课就会学到。但实战的征子可以非常复杂,甚至搞晕职业棋手。
这张图来自职业棋谱,赵善津胜王铭琬。注意,白棋中央一大坨已经被征死了。白方看错了引征,招致全盘皆输。
征子也能搞晕神经网络。我刚才在某计算机围棋的讨论区看到Joona Kiiski网友的观点,和大家分享一下:
- The learning was based on self-play. Understanding ladders is perhaps not so important if your opponent doesn't understand them either... Every time a decisive ladder appears on the board, the result is practically a coin toss.
- And as others have pointed out, unlike almost all other go features, ladders are not at all a local feature. The features need to build up through a huge number of convolution layers, before it works. And it's difficult to build this understanding incrementally (unlike e.g. life & death where you can start with simple cases and then move to more difficult cases), so we lack bias to direct the learning to the right direction.
大意如下:
和绝大部分围棋的特征(比如死活、官子、定式等)不同,征子完全不是局部特征,而是全局特征。这就意味着,在神经网络能正确处理征子之前,征子的特征需要通过大量卷积层来慢慢建立。这会给神经网络的训练带来潜在的麻烦。
如果对局双方(黑AlphaGo-白AlphaGo)都不懂征子,那么总体结果也不会差太多吧。每个征子的结果就好像投硬币一样随机,总的胜负加起来差不多是零。
更要命的是,在征子上一旦出现失误,大胜的棋局会直接变成大败。
据此可以推测,征子的这些麻烦特性,使得初代AlphaGo不得不把征子作为输入神经网络的特征之一。(另一个软件Zen,即使和初代AlphaGo做了类似的处理,实战的征子依然会偶尔出错,被人类棋手逆袭了好多盘。)
AlphaGo Zero的神经网络,大胆省去了征子特征的输入。细细品味训练过程,略微吃惊:神经网络直到训练的(相对)后期才学会征子。
David Silver在Reddit的问答中表示:
AlphaGo Zero has no special features to deal with ladders (or indeed any other domain-specific aspect of Go). Early in training, Zero occasionally plays out ladders across the whole board - even when it has quite a sophisticated understanding of the rest of the game. But, in the games we have analysed, the fully trained Zero read all meaningful ladders correctly.
大意如下:
在训练早期,Zero偶尔会把征子走到棋盘的尽头(注:就像上面那图里硬跑征子的白棋一样。正确的策略是不去跑征子,及时止损)-- 即使她对围棋的其它部分已经有了相当深刻的认识。不过,在我们分析的Zero完全体对局中,她总能正确判断一切有意义的征子。
或许是开发团队好运,更有可能是反复尝试以后才成功。总之,在征子上,AlphaGo Zero涉险过关。
同理,分拆策略、价值网络,以及采用快速走子,是旧版AlphaGo的暂时妥协,而在新版终于得以解决。
DeepMind,及其母公司谷歌的终极目标不是破解围棋,而是造出通用人工智能。通用智能不需要额外专业知识。AlphaGo Zero在无围棋知识输入的前提下达到如此高度,可以说离通用智能又近了一步。
大道至简。对于AlphaGo,最简洁的,就是最美的。
说棋。
摒弃人类棋谱输入,从零(Zero因此得名)开始训练阿尔法狗。去年谷李大战以来,棋迷翘首以盼的“纯净版”阿尔法狗终于问世。
更恐怖的是,Zero经过三天训练就达到AlphaGo Lee的水平 (即去年战胜李世乭的版本,ELO ~3750。对比今日柯洁ELO ~3660.),节约了90%+的时间。见下图。
四十天之后,Zero甚至超越了姐妹版本Master,对Master实现90%胜率。Master和Zero的主要区别是,Master有人类棋谱输入,经历监督学习(SL)而非强化学习(RL)。
我在论文中学到了一句拉丁语,starting tabula rasa, 从一张白纸开始。看Zero的训练过程,就像看一个婴儿成长,妙趣横生。
第三个小时,如同幼儿堆石子。第二十小时,有板有眼。第70小时,复杂局面处理自如,已是顶尖高手。
看AlphaGo学会的定式,更是有趣。A行是AlphaGo在训练过程中学会的人类定式。B行则是在训练的不同阶段,AlphaGo最喜欢的定式。
B行第一个,黑棋下在1,1,显然是卖萌,此时大概是第10个小时。B行第二个,黑星位,白棋外靠(!),黑退,白扳粘的变化。此变化不在人类课本当中,白2略惊悚,直观看也是白棋稍亏。果然,在40小时以后,本定式被无情淘汰(见下图)。
第三变,点三三!千呼万唤始出来。
20小时以后此变化出现频率猛增,并一度达到3%,此后缓慢回落,最终稳定在0.5%。这是我曾经最喜欢的定式之一,也是定式书上必介绍的一个基本型。黑地白势,各得其所。
作为对比,点三三的另一变如下:
在五十小时后,黑5飞的频率大增。至70小时,此变频率达0.2%。从最终的自战对弈来看,此变的频率似乎超过了黑5扳(有待查证)。很有意思,AlphaGo对此定式的认识过程和人类有些相似。长久以来,黑5扳都是点三三的标准变化。直到最近十年左右,黑5飞才开始变得频繁起来。由于Master的影响,人类棋手开始频繁点三三,并且把黑5飞作为标准变化。上图的后续只是此定式的一变,在Zero自战谱中还看到了一些微小的改动。
下一个“定式”最有意思。
1-5正常。白6奇思妙想!人类绝少在开局阶段往二路下。白10贴以后,黑棋需要补断,白棋活角。局部尚未定型,得失不明。可惜此变昙花一现,不知AlphaGo是否发现了局部更好的手段。
欣赏一局完全体Zero的棋谱
37-41,潇洒、放肆、不拘一格。状态爆表的一流棋手偶尔也有如此表演,而这对于AlphaGo只是正常操作。
白130. 官子同样滴水不漏。(黑只能在A位接。若在B位吃,白O17即可出棋。白棋点完以后,T17有先手味道。)
Zero的Elo等级分是5000分,人间已无敌手。但其左右互搏仍互有胜负,可见离围棋上帝尚有距离。Zero当为近阶段围棋人工智能的高峰,但尚不是围棋的终点。
于我,AlphaGo Zero还有以下几个悬念:
1、Zero的策略·价值网络是否对所有贴目值都生效,还是只针对7.5目。再进一步,AlphaGo Zero心目中的最佳贴目是多少。
更新:虽然没有明确回答本问题,但Julian援引樊麾的评论,称AlphaGo Zero不能评价“耳赤妙手”,因为Zero仍然只是在7.5贴目的规则下行棋。
2、Zero的官子,特别是小官子阶段,是否会犯错。重点是,有无因为官子失误而被翻盘的棋局。
3、以大贴目为前提,Zero会如何应对白方的模仿棋。
三千年的围棋,AlphaGo只用三天走过。谨以《贺新郎·读史》结束本文:
人猿相揖别。只几个石头磨过,小儿时节。铜铁炉中翻火焰,为问何时猜得?不过几千寒热。人世难逢开口笑,上疆场彼此弯弓月。流遍了,郊原血。
一篇读罢头飞雪,但记得斑斑点点,几行陈迹。五帝三皇神圣事,骗了无涯过客。有多少风流人物?盗跖庄屩流誉后,更陈王奋起挥黄钺。歌未竟,东方白。
谢邀。
上面是AGZ(alphagozero)的进步图。
看完了介绍的pdf后感觉如下:
1,人类的智能理解可能有缺陷。在深度学习出来之后,其黑盒导致很多特征不被人理解,很多人一直猜测这是软件问题还是人类无法理解一些智能特征。AGZ至少可以推测人类可能无法理解一些智能。这个特点类似没有视力的动物可能无法理解有视力动物的感觉。
这个比如:白板AGZ 对 人棋谱指导AGZ 胜率高很多,说明人的积累的智慧很可能有缺陷。
因为两者算力是一样的。
比如72小时谱的左下角和右上角变化都很奇怪。
2,人类甚至可能无法察觉自己的缺陷。
但是人对于白板AGZ下出的棋结果并不惊讶,说明我们可能察觉不出这种缺陷。类似于业余选手看不出职业选手的选择一样,还觉得大家手法差不多。
在没有AGZ 之前,我们只有猜测,在AGZ之后,至少做到了“知不知”这点。
3,AGZ在完全不计算的情形下也有3000积分水平,难以想象。
这个可以再和人进行比赛下:人一秒一子,AGZ不计算全凭估值,看看直觉本身到底占围棋棋力的多少,以及人的直觉有多靠谱。
4,关掉计算,就是关掉一种智力能力。可以算是一种降维攻击手段啊。
5,如果某天AI 能教给我们一种新的智能手段,也算是见证历史了。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有