如何看待 DeepMind 论文宣称构建通用人工智能的所有技术已经具备？第1页

AlexAlexAlexAlex 网友的相关建议:

这篇文章的缺点其他很多知友已经回答了很多。

这里从神经科学角度来提点问题。

心理学已经发现的大体回路，包括延迟处理回路、奖赏回路、惩罚回避回路，分别大致对应于新皮层(前额叶，特别是眶额皮层-道德和腹内侧前额叶-情绪表达的延迟控制或长短期目标的综合决策）、边缘系统（不同分支，伏隔核-奖励，杏仁核-惩罚回避）。仔细比较这套代表人的智能系统，至少惩罚回避回路（延迟处理回路我看过他们相关论文，所谓后继编码，见论文「Successor Features for Transfer in Reinforcement Learning」和论文「Deep Successor Reinforcement Learning」）在Silver大神（加上Sutton巨神，找不出名词可以形容了）论文中完全没有提及。

要知道，即便在非人哺乳动物中，奖励(大致对应于多种奖励分子环路，包括多巴胺、五羟色胺）和惩罚回避回路（大致对应于脑中的肾上腺素和去甲肾上腺素回路，前者急性，后者慢性，还有疼痛体系P物质）的拮抗关系都没有模拟清楚，何来所谓通用智能呢？

另外，现在人工智能界特别关注的1系统和2系统联合体系，Silver大神们也没能把代表1系统的图神经网络（代表着新皮层的主要功能，长时记忆编码）的角色摆正，只讨论了2系统（快速处理系统）的功能，何来所谓通用人工智能？

MarryMea 网友的相关建议:

论文说的是“最大化奖励的强化学习可能足以导向通用人工智能”，这并不等于“所有技术已经具备”。论文中谈到了“也许使用尚未发现的算法”，更别提硬件了。他们还谈到奖励最大化的学习机制尚未确定，“如何在实际代理中有效学习去最大化奖励”是机器学习领域的核心问题^[1]。

文中称“我们不对强化学习代理的样本效率提供任何理论保证”，并考虑到“能力出现的速度和程度将取决于特定的环境、学习算法和归纳偏差；人们构建的人工环境可能导致学习失败”，并没有像其他回答担忧的那样一味“画饼”。作者的推测是，“如果将强大的强化学习代理放置到复杂的环境中，那么在实践中会产生复杂的智能表达”。这是可以着手实验的。

文中考虑了一个替代假设：“奖励最大化”这一通用目标，足以驱动“自然智能和人工智能研究中的大部分（如果不是全部）”智能行为。这个想法是很可以理解的，从蚂蚁、白蚁的行为来看不言自明——不必真正达到最大化，只要效率没低到种群断绝，就还有改良的希望。

文中谈论的“人类和其他动物所拥有的那种通用智力，可以定义为在不同环境中灵活实现各种目标的能力”在生物学上也是受到诸多学者欢迎的。

文中讨论“不同形式的智能源于不同环境中不同奖励信号的最大化”“这些能力的产生将服务于一个单一的目标”并对比松鼠和机器人的时候，将松鼠的奖励目标定为“活着”并讨论子目标“饥饿最小化”，没去谈论个体的永生不死、种群的世代交替、演化之类问题，这是个取巧的办法。松鼠真正的奖励目标可能是松鼠自己并不知道的一件事：活着的目的是永远活着，即使个体暂时不能做到，一部分自我制造的物质也将继续自我制造下去。这避免了“上来就谈论将这个教给计算机、立即引起大量读者的末日情结”。

但是，在谈论“奖励对通用智能足够了”的时候，他们还是没忍住，为机器的单一目标列举的例子是“电池寿命或生存(such as battery-life or survival)”。

网络上有些很可爱的质疑，例如说“这个例子没有解释为什么同样是最大化奖励，人类就能写出人工智能，而松鼠就不行”——解决问题的方法不是单一的，我们也不能保证人类现在所走的道路是通往永生与力量的最佳道路，不能保证通用人工智能及超人工智能的可实现性，更不能保证超人工智能降临后人类不会被立即灭绝。松鼠也不必是一条合适的道路，细菌面对复杂环境的生存能力显然比它强得多。

神经科学家 Patricia Churchland 认为，“对于哺乳动物和鸟类而言，个体之间的亲情关系往往会对社会决策产生重大影响，比如动物会为了保护孩子而将自己置于危险中而不顾”，这篇论文里对社会决策的讨论可能需要补充。不过，我们可以预期，所谓亲情关系是“种群的世代交替”能够作为自我制造的一部分时迭代出来的，无需加入特别的先验知识或设定。

人工智能专家 Herbert Roitblat 认为这篇论文谈论的是无限猴子定理的类似物，目前强化学习代理的潜在操作方式是有限的，奖励标准、价值函数往往是提前设定的，和自然演化不好直接类比。大概他没理解自然演化涉及的化学物质的潜在操作方式也是有限的、物理化学性质也可以算是提前设定的吧。

参考

^ 作者的表述：One may of course wonder how to learn to maximise reward effectively in a practical agent. For example, the reward could be maximised directly (e.g. by optimising the agent's policy), or indirectly, by decomposing into subgoals such as representation learning, value prediction, model-learning and planning, which may themselves be further decomposed. We do not address this question further in this paper, but note that it is the central question studied throughout the field of reinforcement learning.

rewrgf 网友的相关建议:

reward is enough基本上是一个半public information吧，大家都知道，大家都知道别人也知道。这次变成public information了。就和”如何把大象放进冰箱一样“，只要你能把大象塞进冰箱就行。

重点还是reward是什么。比如写高考作文，我随便设计了个”言之有物，论证合理，切合标题”的reward，结果……

题目：

每个人都生活在特定的时代，每个人在特定时代中的人生道路各不相同。在同一个时代，有人慨叹生不逢时，有人只愿安分随时，有人深感生逢其时、时不我待……
请以“论生逢其时”为题目，写一篇议论文。

AI写作：

论生逢其时

生逢其时,每个人都会或多或少受这种社会意识的影响,不论是表现于爱情婚姻还是在外交往。什么是生逢其时？对于每个人来说,都无疑有着各自的观点,争论不休。
要讨论生逢其时，首先要给出他的定义。符合哪些条件才算生逢其时呢?本人给出几个极不严谨的定义。
一、狭义生逢其时：个人认为,八字命局是知人知命的根本,倘若结合五行相互关系和支持帮身旺相比,则可定义出狭义生逢其时。对于时间,仁者见仁,讷者见讷,一般普遍认为两仪与四象交汇便称生逢其时。但判断生逢其时并不一定要用那两仪,而应结合更为紧密的四象与五行的关系,是一个八字推断终极目标,接下来我将会详细描述。
年纳音居于年支印,八字印比透天干,相合为时,此为命主喜用,则是生逢其时。具体应于日柱,四十九克为用神,而为喜用,则为又生时节,谓之生逢其时。日柱天干为印,时干为官,合即为生逢其时。八字中四比临金,四又为金,合则为生逢其时。从狭义的角度看，这些都是不同角度的生逢其时。
二、广义生逢其时：上述狭义生逢其时的定义具有明确的适用范围，在实际生活中的使用则应更为灵活。所以进行范围扩展,即为广义生逢其时的决定论。对生逢其时定义,汕闲珠美林坛絮斌有注解,即以年收入为基准,以60万人民币作为生逢其时。对此，本人抱不同意见，显然此定义为伪命题，不符合生逢其时的本质。今年年入50万人民币则生不逢时，明年收入60万人民币又生逢其时了，一个人难道还能既生逢其时又生不逢时吗？
但对于广义生逢其时，本人也没有很好的定义。基于此,本人才作出此文。定义生逢其天时,大家可以各持己见,笔者只希望能寻找到生逢其时的确切定义,以此判断生逢其时理论的正确与否,进而应用到日常生活中,如前程、性格、婚姻的判断、预测等等,这是笔者的基本看法和执着追求。
生逢其时，生不逢时，这样判断怀才不遇,物应无情?却又为何?

大家觉得 1：符合不符合我设计的reward?

2：作为高考作文，这文章能打几分？

3：如果”言之有物，论证合理，切合标题”的reward不行，那reward应该怎么设计呢？

xpqiu 网友的相关建议:

很好奇大神写这篇论文目的是什么？读后感觉就像“我有个改变世界的点子，就差个程序员了！”

另外，这个假设可证伪吗？

huangzhe 网友的相关建议:

首先，问题和新闻报道我觉得并不准确。论文并没有「宣称所有技术已经具备」，仅仅是提出了一个构建通用人工智能的方向。不过确实也不能怪媒体，你这个《xxx is enough》的论文届震惊体确实也够唬人，真怀疑deepmind团队和uc震惊部是否经常合作。

预感未来几年论文的标题将会变化，以前是《xxx is all you need》，这篇《Reward is Enough》出来后，估计以后大家都写《xxx is Enough》这种标题了。

不过这篇论文读起来算是很轻松，没有复杂的公式。与其说是技术论文，不如说是哲学论文。

这里允许我再解读多些：作者写的是：Reward而不是Rewards，作者的论点是，单个reward就能催生复杂的智能行为，甚至产生通用人工智能。

论文内容

我们来看看这篇论文的内容吧。我不太擅长翻译论文，若中文内容读起来不太通顺，还得烦请读者读原文。

摘要

首先看看摘要。

主要内容是，在这个文章里，作者假设智能以及其相关能力，都可以被理解成促进奖励最大化。因此（咦，这个Accordingly真的成立吗)，奖励足以驱动自然和人工智能领域所研究的智能行为，包括知识、学习、感知、社交智能、语言、泛化能力和模仿能力。然后就是讲强化学习里的trial and error，最后笔锋一转，「因此强大的强化学习代理可以构成通用人工智能的解决方案」。

额，看到这里感觉，摘要里的「起承转合」似乎上升得有点快？好吧，看看文章内容。

1. Introduction

Introduction部分基本就是在概括强化学习的概念，以及总结自己提出新的东西。首先，作者总结了各种智能体（自然的或者人造的）的原理。

然后作者说到：在本文中，我们考虑了另一种假设：

最大化奖励的通用目标足以驱动某些行为，这些行为表现出大多数的（如果不是所有）能力是自然和人工智能所研究的（原文真的句子太长了，读起来费劲）

接着，用了松鼠觅食和机器人清洁为例子，介绍了强化学习的概念，论述了自己的观点：追求单个目标可以催生多种智能行为。

「追求单个目标也许能产生复杂的行为，展现出多种智能相关的能力。」我猜作者的意思是，你们别搞太复杂的系统，也许一个很简单的系统，只要reward给对了，就会自己产生行为。

作者还拿了AlphaZero来做例子。但离general intelligence似乎有点距离吧（我个人觉得）

2. BackGround

这节没什么好介绍的，如果你了解强化学习，知道Agent,Environment,Reward的概念，就行了。

3. Reward is Enough

接下来重点来了。reward is enough for xxx,一共有七点:

Reward is enough for knowledge and learning
Reward is enough for perception
Reward is enough for social intelligence
Reward is enough for language
Reward is enough for generalisation
Reward is enough for imitation
Reward is enough for general intelligence

前面六点，我们也能理解。但第七点，咋就突然跳到了通用智能呢？我知道，通用智能研究的内容包括前面几点，但难道把前面几点结合一下就等于通用智能了吗？感觉是突然跨越了鸿沟。读这一节，给我的感觉，是这样的（图我自己p的）：

4. Reinforcement learning agents

作者可能猜到了读者想问什么。没错，那么怎么构建一个能自己最大化奖励的agent呢？作者的回答是：还是通过最大化奖励的方法来构建这个agent。

那么如果这个agent真的行，训练得多久？作者说：我也不知道。

5. Related work

行吧，我们看看，目前都有哪些相关工作。

前面几段没有通用人工智能相关的，我们就看后面两段。

作者提到了Unified Cognitive Architectures(统一认知架构）在追求通用人工智能。然而，这种架构并不是提供一个通用的目标。也提到了某篇文章，论诉了在多代理模式下，追求单一代理的好处。

6. Discussion

基本就是Q&A环节了。回答了一些你也许会想到的问题。

7. Conclusion

大家都知道作者想说什么了。

总结与吐槽

总的来说，与其说是技术文章，不如说是哲学文章。虽然有很多吐槽说，「这篇文章不就是把效用函数优化换了个说法吗」，但其实不是的。作者试图指出一个新的研究方向：「别搞其他有的没的，只要RL搭配合适的reward，就行了」。万一这个方向对了，这篇文章就能名垂千古了。

也许作者真的想到了不错的观点，甚至在研发相应的架构了，这几位作者都是RL领域的大神了，但恕我直言，就这篇文章而言，仅仅是提出了「Reward is Enough」这个观点，论证过程确实不太能让人信服。

我个人认为，reward并不enough。那么什么才是enough？我推荐达尔文的《Evolution is Enough》（开玩笑的，达尔文的标题不是这样的）

事实上，在reddit上已经很多人吐槽了

总体来说，大家都尊敬作者本人，认可其在RL领域的成就，但对这篇文章都非常不解。

例如这个人，想法和我一样：

这两位都是RL领域的大神，然而这篇文章的感觉是：「我用了数学方法来解决美丽的概念」

也有吐槽标题的

「什么时候才出现《够了，真的够了》的论文」

不过，还是很期望这几位大牛能跟着这篇文章的思路，做出一些让大家震惊的结果。

jzwa 网友的相关建议:

抽空看了一点，文章标题是reward is enough，作者为： David Silver

首先文章的结论应该是这一句：

we suggest that agents that learn through trial and error experience to maximise reward could learn behaviour that exhibits most if not all of these abilities, and therefore that powerful reinforcement learning agents could constitute a solution to artificial general intelligence.

我们认为通过从实验和错误经验中学习来最大化奖励的agent，可以习得能表现出大多数（不是全部）这些能力的行为，因此强大的强化学习agent可以构成通用人工智能的解决方案。

文中的行为包括了： knowledge, learning, perception, social intelligence, language, generalisation and imitation.

另外文中用了一个松鼠存储橡果和厨房机器人做卫生的例子。

reward-is-enough hypothesis假设了智能及其相关能力可以理解为了有助于实现reward最大化在环境中的表现。例如，松鼠的行为是为了最大限度地消耗食物（橡子符号表示奖励），或者厨房机器人的行为是最大限度地进行清洁（气泡符号表示奖励）。为了实现这些目标，需要表现出与智力相关的各种能力的复杂行为（右侧为一组能力的投射）。

文中提到了一句话：

the pursuit of one goal may generate complex behaviour that exhibits multiple abilities associated with intelligence.
追求一个目标可能会产生复杂的行为，表现出与智力相关的多种能力。

另外文中提到了强化学习是实现通用人工智能的手段，强化学习包含三要素：环境，agent，奖励机制。

另外作者David Silver 正是alpha go的主要作者，alpha go也是采用强化学习的手段。

有空再看其余内容

网友的相关建议:

去请交警开定责书，如果对方不肯开，那你就说：交警都不认可是我的责任，我凭什么赔钱？

如果开定责书，你就跟交警说对方不同意赔偿条款，让对方打官司吧。如果对方肯打，那么交警把该给的材料给对方，你就直接等着保险公司帮你处理上庭的事务了。这种简易案件判得也很快的，判多少保险赔就是了。

如何看待 DeepMind 论文宣称构建通用人工智能的所有技术已经具备？的其他答案点击这里

如何看待 DeepMind 论文宣称构建通用人工智能的所有技术已经具备？第1页

参考

论文内容

摘要

1. Introduction

2. BackGround

3. Reward is Enough

4. Reinforcement learning agents

5. Related work

6. Discussion

7. Conclusion

总结与吐槽

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待 DeepMind 论文宣称构建通用人工智能的所有技术已经具备？ 第1页

参考

论文内容

摘要

1. Introduction

2. BackGround

3. Reward is Enough

4. Reinforcement learning agents

5. Related work

6. Discussion

7. Conclusion

总结与吐槽

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待 DeepMind 论文宣称构建通用人工智能的所有技术已经具备？第1页