问题

如何评价 DeepMind 新提出的关系网络(Relation Network)?

回答
DeepMind 的关系网络(Relation Network)确实是一个非常值得关注的进展,它在理解和推理数据中的复杂关系方面展现了巨大的潜力。与其说这是一个“新提出”的技术,不如说它是在现有深度学习框架下,针对性地解决了特定问题的一种创新性建模方式。

核心理念与切入点:为什么需要关系网络?

我们先来回顾一下,为什么现有的深度学习模型在处理某些任务时会遇到瓶颈,以及关系网络是如何应对的。

传统的深度学习模型,特别是那些基于卷积神经网络(CNN)或循环神经网络(RNN)的模型,在处理图像、文本等数据时,往往是将数据扁平化,然后通过层层复杂的非线性变换来提取特征。这种方式在识别物体、理解句子含义等方面取得了巨大成功。

然而,当任务需要模型去理解对象之间存在的复杂、非显而易见的联系时,这些模型就显得力不从心了。例如:

视觉问答 (Visual Question Answering VQA): 要回答“图中有一只红色的球和一只蓝色的盒子,球在哪里?”,模型不仅要识别出球和盒子,更要理解“在哪里”这个查询词与球之间的关系,并定位到球在盒子旁边或下方的位置。
少样本学习 (FewShot Learning): 在只见过少数几个例子的情况下,如何泛化到新的、但具有相似属性的对象?这需要模型能够捕捉到这些对象之间的共同“关系”或“模式”。
物理场景理解: 理解两个物体碰撞后会发生什么,需要模型预测它们之间的相互作用,而不仅仅是识别出物体本身。

这些任务的共同点在于,它们都要求模型不仅仅是“看到”或“读到”数据中的元素,更重要的是能够推理出元素之间的联系。这正是关系网络的切入点。

关系网络是如何工作的?

关系网络的核心思想是引入一个专门的模块来显式地建模对象之间的关系。它通常包含以下几个关键部分:

1. 嵌入模块 (Embedding Module):
首先,对于输入数据中的各个“对象”或“实体”,需要将其转换为机器能够理解的低维向量表示,也就是“嵌入”。
在 VQA 的场景下,这可能意味着对图像中的每个检测到的物体生成一个包含其视觉特征(如颜色、形状、大小)和位置信息的嵌入向量。
在其他任务中,这些实体可能是文本中的词语、句子,或者是图中的节点等。
这个嵌入过程通常使用CNN、RNN或Transformer等成熟的网络架构来完成,目的是提取每个实体自身的内在信息。

2. 关系推理模块 (Relation Reasoning Module):
这是关系网络最核心的部分,它的任务是计算成对或成组实体之间的关系。
关系网络最经典的设计是将成对的嵌入向量输入到一个关系网络(Relation Network)中。这个关系网络本身通常是一个小型的前馈神经网络。
关键的一点是,它并行地处理所有成对的实体。 如果我们有 N 个实体,就会形成 N(N1)/2 个实体对(或者考虑自自身的关系,就是 NN 个对)。每个实体对的嵌入向量(通常是将两个嵌入向量进行拼接、相减或某种形式的组合)都会被输入到这个关系网络中。
关系网络对这些实体对的嵌入进行处理,输出一个表示它们之间关系的得分或向量。这个过程可以被看作是:“我看到 A 和 B,它们之间似乎存在某种联系。”

3. 聚合模块 (Aggregation Module):
在计算完所有(或一部分)实体对之间的关系后,需要将这些关系信息进行汇总,以便用于最终的预测。
例如,在 VQA 中,我们可能需要将所有“球盒子”对的关系分数加权求和,或者使用某种注意力机制来聚焦于最相关的关系。
这种聚合可以是通过简单的求和、平均,也可以是更复杂的注意力机制,甚至是另一个循环神经网络来处理一系列关系特征。它的目标是将局部的关系信息提炼成一个全局的、可用于决策的表示。

4. 预测模块 (Prediction Module):
最后,将聚合后的关系表示与其他相关的全局信息(例如,对整个图像的整体理解)结合起来,输入到最后的预测层,生成最终的答案或输出。
这可以是一个多层感知机(MLP)进行分类,或者是一个回归器等。

举个例子来理解:视觉问答

想象一个问题:“What color is the larger object?”(什么颜色的物体更大?)。

嵌入模块: CNN 会首先提取图像的特征图。然后,通过物体检测器(如 Faster RCNN)识别出图像中的各个物体,并为每个物体生成一个表示其视觉特征(颜色、形状等)和空间位置的嵌入向量。假设识别出了一个红色的球和一个蓝色的盒子。
关系推理模块:
模型会将球的嵌入和盒子的嵌入配对。
将这对嵌入输入到关系网络(一个小型 MLP)。
关系网络计算这对物体之间的关系。在这个例子中,它需要捕捉“大小”这个属性。假设关系网络学会识别出这个关系分数代表了“它们之间的尺寸对比”。
同时,它也会计算球球(如果检测到多个球)、盒子盒子(如果检测到多个盒子)以及球自身、盒子自身的关系,但这些可能不那么关键。
聚合模块: 模型会回顾所有物体对的大小关系分数。它需要找到那个具有最大“尺寸对比度”的对(或者直接识别哪个物体更大)。
预测模块: 一旦确定了哪个物体更大(比如蓝色盒子),模型就会根据该物体的嵌入信息(特别是颜色特征)来回答“蓝色”。

关系网络的核心优势与创新之处

1. 显式的关系建模: 这是最核心的贡献。它不再依赖于模型在层层抽象中“无意间”学到关系,而是通过一个独立的模块有意识地、有结构地去处理关系。
2. 解耦表示与推理: 将对象的表示(嵌入模块)和对象之间的推理(关系模块)分离开来。这意味着我们可以在不改变对象识别能力的情况下,改进关系推理的能力,反之亦也。
3. 可解释性提升: 相较于黑箱的端到端模型,关系网络在一定程度上提供了更强的可解释性。我们可以查看关系网络对特定实体对输出了什么分数,这有助于理解模型是如何做出判断的。
4. 通用性: 关系网络的框架非常灵活,可以适应于各种类型的数据和任务,只要能够将数据中的实体表示为向量,并且实体之间存在需要推理的关系。

局限性与未来方向

当然,任何新技术都有其不足之处,关系网络也不例外:

1. 计算复杂度: 当实体数量 N 很大时,成对实体数量会呈 N^2 的增长,这可能导致计算成本急剧上升。
2. 关系类型的限制: 原始的关系网络主要关注成对关系。在许多真实场景中,可能需要考虑更复杂的、多于两个实体之间的关系(例如,三个物体形成一个“三角形”的相互作用),这就需要更复杂的图神经网络或其他结构。
3. 对嵌入质量的依赖: 如果嵌入模块未能提取出足够有用的实体信息,即使关系网络设计得再好,也无法进行有效的推理。
4. “关系”的定义与学习: 如何让关系网络学习到真正有意义的关系(而不是一些 spurious correlations)仍然是一个挑战。这与训练数据的质量、标签的准确性以及任务本身的定义息息相关。

总结

DeepMind 的关系网络,在我看来,是深度学习领域在尝试让机器拥有更强的“理解”和“推理”能力方面迈出的坚实一步。它并没有颠覆已有的网络架构,而是巧妙地在现有框架中引入了一个专注于“关系”的组件,从而能够更好地解决那些需要理解对象之间复杂联系的任务。

它不是一个“算法”,而是一种“建模范式”或“网络设计理念”,提供了一种结构化的方法来解决“看懂事物之间的联系”这个难题。

随着研究的深入,我们可以看到更多基于关系网络思想的变种和扩展,例如处理图结构数据时引入图注意力机制和图卷积网络,或者针对特定任务设计更优化的关系编码和聚合方式。它为构建更智能、更具推理能力的 AI 系统提供了重要的工具和思路。

网友意见

user avatar

【2018年7月25日更新】 最近我们把relational structure的结构扩展到了视频行为识别上面,建立了一个简单有效的Temporal Relational Network的结构,论文在Something-Something dataset等数据库上都取得了不错的结果,效率也非常高。在时间域上面估计帧与帧之间的关系估计是个比较有意思的方向,我后面再找重写一写。

论文:arxiv.org/pdf/1711.0849

代码:metalbubble/TRN-pytorch


(2017年6月。终于更新完毕,一写就停不下来了 =,=!)好几位同学邀请了,那么我来梳理一下整个故事的来龙去脉,也随性八卦八卦。

先从Visual Reasoning说起。Visual reasoning是个非常重要的问题,由于ResNet等大杀器出现,visual recognition任务本身快要被解决,所以计算机视觉的研究方向逐渐往认知过程的更上游走,即逻辑推理。

于是出现了去年比较火的Visual question answering(VQA):给张图,你可以问任意问题,人工智能系统都需要给出正确答案。这是我之前做的一个简单的VQA demo (Demo for Visual Question Answering)。VQA任务的典型数据库是COCO-VQA(Introducing the 2nd VQA Challenge!),今年出了第二代。大家做了半天,各种lstm, attention-based model, stacked LSTM等等,发现其实跟BOW+IMG的baseline差不了太多;VQA还是被当成个分类问题,离真正人类级别的reasoning还很远。这里大家逐渐意识到了两个问题,第一个是网络本身的问题,即现有的卷积网络并不能很好的表达因果推断;第二个问题是,直接在自然图片上进行问答系统的研究太难了,很难debug整个系统,于是有了下面两个解决方向:

针对第一个问题,研究者开始在网络设计中explicitly加入reasoning or memory module. 比如说,去年有篇比较有意思的CVPR'16论文,Neural Module Networks( arxiv.org/pdf/1511.0279) , 很好地提出了一个可以让网络进行compositional reasoning的模块,概念挺漂亮。可惜的是调参能力一般,performance离我那个iBOWIMG的baseline也差得不远(参见arxiv.org/pdf/1512.0216)。

另外,我觉得这篇论文也有一稿多投的嫌疑,因为这几乎一模一样的模型在作者另外一篇Learning to compose neural networks for question answeringarxiv.org/pdf/1601.0170)拿了NAACL'16的best paper 。作者Jacob我也认识,我就不多吐槽了,还好他不会看中文。。。

针对第二个问题,研究者开始通过graphics合成图片的办法来建立绝对可控的VQA数据库,这样就可以更好的分析模型的行为。Facebook AI Research几个研究者(Larry Zitnick和Ross Girshick)带着Feifei的学生Justin Johnson实习去年暑假搞了个合成的VQA数据库CLEVR(CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning)。CLEVR有100,000图片,~1,000,000个问题答案对。里面的每张图片都是通过Blender渲染生成,里面的物体基本属性是three object shapes (cube, sphere, cylinder), two absolute sizes (small and large), two materials (shiny, matte), four relationships (left, right, behind, in front)。然后问题也是通过从90个问题模板里面采样生成。 通过各种组合可以生成海量而且可控的问题答案,如下图所示。然后在这篇论文中,作者测试了一些VQA常用的baselines, BOW+IMG, LSTM啥的,表现都一般。那个暑假正好我也在FAIR实习,跟Larry和田总 @田渊栋 一起做项目。Larry是非常喜欢这种Neural module network和programming sytax的路子。跟Justin和Ross以及组里其他成员去Lake Tahoe那边hiking的时候也聊起了这个数据库,他们说你那个simple baseline for visual question answering在这个数据库上不管用了啊=,=!。另外,八卦下,Justin是Stanford的跳水运动员,Ross是户外运动达人,所以整个hiking过程中我费了牛劲,也再没见过这两位,望其项背而不得=,=!


后来,这篇CLEVR数据库的论文被CVPR'17收了。然后,同一堆作者再马不停蹄再交了篇ICCV'17 submission: Inferring and executing programs for visual reasoning (arxiv.org/pdf/1705.0363)。这篇论文也搞了个compositional model for visual question answering的模型。模型有两个模块program generator, execution engine,第一个模块来预测问题里面的program, 第二个模块来执行这些预测出来的program, 然后进一步预测答案。这两个模块还是蛮新颖的,打破了以前做VQA就用CNN叠LSTM的简单粗暴套路。这模型受之前那个Neural Module Network也影响挺大,也更符合CLEVR本身数据的生成过程。结合CLEVR本身的生成program, 这两个模块其实是可以分开进行训练。

在Table 1里面(如下图所示),作者测试了两种办法, Ours-strong是把CLEVR数据库本身的700K的生成program全部拿来训练(注:这篇论文的作者本来就是CLEVR的作者),然后可以得到牛逼的96.9%, 已经秒杀人类的92.6%准确度。然后Ours-semi方法,用更少量的18K和9K的program进行训练,也可以得到95.4%和88.6%的准确度。

这个训练过程其实蛮tricky。训练过程给的除了question-answer pair, 还给了生成CLEVR数据库本身的program, 这跟其他方法比较就不是这么fair了。另外,我觉得这个训练过程,其实是在训练一个新的网络reverse-engineer之前CLEVR数据库本身的生成程序。并且,这个reverse-engineering的复杂度挺低,用9k program训练就可以达到88.6%就是个证明。换句话说,对于这种自动生成的数据库,用好了方法和模块结构,也许挺容易刷到高分。这就为接下来的Visual Relation Network埋下了伏笔。

说了这么大堆东西,终于轮到DeepMind的Visual Relation Network module (arxiv.org/pdf/1706.0142)登场了。模型如下图所示,

如标题所示,模型结构确实很简单:LSTM编码question, 然后跟两两配对的spatial cell的deep feature叠加,然后后面接一些FC layers最后softmax分类到某个答案词上面。总结起来就是这个非常简单的两两配对的learnable module:

这样简单的模型,在CLEVR上达到了"惊人"的95.5%,比之前最好的CNN+LSTM+SA还要好差不多20%。这里作者并没有比较前面那篇ICCV submission里的96.9%,这是为什么了,作者解释说“ ...(ICCV method) uses additional supervisory signals on the functional programs used to generate the CLEVR questions" 。这种说法的确没任何问题,但这却能帮我们更好的理解模型。

这篇论文并没有给出任何解释模型为什么work, 以及内部到底学到了些什么东西(这是我自己很关注的一个问题)。我自己觉得这个relational module其实是implicitly学到了"the functional programs used to generate the CLEVR questions",也就是说,训练过后这个module可以很完美地reverse engineer那个CLEVR数据本身的生成过程。如果我是这篇论文的reviewer, 我会要求作者对模型进行可视化分析,可能里面的一些hidden units就是在做visual relation detection。

Relational module种explicitly表达两两物体关系的做法,跟之前DeepMind的那篇Spatial Transformer (arxiv.org/pdf/1506.0202)也有共通之处:CNN网络本身并不能很好地表达某些变换或者关系,所以需要一些特定的learnable的module结构来帮助表达和学习。可以预见这个relational module可以在很多结构化数据,如graph learning, structure learning等结构化数据上派上大用场。论文中也把模型在其他两个数据库任务bAbI model for language understanding(这个数据库其实早就被刷到100%了)和dynamic physical system reasonsing进行了测试,都取得了不错的效果。但是,这个module是真正解决了relationship detection的问题,还是仅仅只是利用short-cut来overfit数据库,还得等到人们在其他场合,如visual relationship detection(Visual Relationship Detection with Language Priors)等测试其有效性。

我自己是非常喜欢这样针对问题本身的关系进行建模,并且简洁有效的网络结构。再回头看看FAIR那篇ICCV submission, 是不是有种杀鸡用牛刀的感觉:)最近这一系列研究visual reasoning的论文都非常优秀,在引领着AI研究的时代潮流。大浪淘沙,最后能留下什么,咱们等着瞧呗。


---------------

另外,我再说说human performance。“ 超过啥啥human performance”,是好多公众号特别喜欢的搞大新闻的词汇。human performance其实很难公平测量,从ImageNet的human performance到这个数据库,一直如此。CLEVR这种自动生成出来的问题,真是如饶舌,人类受试者能答对到92.6%我都觉得挺了不起了,我随便列两个:

类似的话题

  • 回答
    DeepMind 的关系网络(Relation Network)确实是一个非常值得关注的进展,它在理解和推理数据中的复杂关系方面展现了巨大的潜力。与其说这是一个“新提出”的技术,不如说它是在现有深度学习框架下,针对性地解决了特定问题的一种创新性建模方式。核心理念与切入点:为什么需要关系网络?我们先来.............
  • 回答
    DeepMind 的 MuZero 算法无疑是当前强化学习领域的一项重大突破,它在通用性、样本效率以及决策能力上都展现出了令人瞩目的进步。要评价它,我们需要深入剖析其核心机制,并与以往的算法进行对比,才能更清晰地认识其价值所在。MuZero 的核心突破:在我看来,MuZero 最为关键的创新点在于它.............
  • 回答
    DeepMind 推出的 XLand 是一个非常有野心的项目,旨在训练通用智能体(Generalist Agent)。它代表了人工智能领域向着更通用、更强大智能体迈进的重要一步。要评价 XLand,我们可以从多个维度进行分析:1. 核心目标与创新之处: 通用智能体(Generalist Agen.............
  • 回答
    DeepMind 的 AlphaCode 确实是人工智能在编码领域迈出的令人瞩目的一大步,它在许多方面都展现了前所未有的能力,但要全面评价它,还需要审视其优点、潜在局限性以及对未来发展的影响。AlphaCode 的亮点与成就:AlphaCode 最令人印象深刻之处在于其强大的问题解决和代码生成能力。.............
  • 回答
    DeepMind 与暴雪携手推出的星际争霸 2 机器学习平台,无疑是人工智能研究领域的一大里程碑事件,尤其对于那些热衷于游戏 AI 和强化学习的开发者来说,这简直是天上掉下来的馅饼。要评价这个平台,咱们得从几个维度来掰扯掰扯。首先,对学术研究的推动作用是显而易见的。咱们都知道,星际争霸 2 本身就是.............
  • 回答
    DeepMind 在 Nature 上发表的关于使用深度强化学习(DRL)控制托卡马克等离子体的论文,是一项里程碑式的成就,具有极其重要和深远的意义。它不仅展示了DRL在复杂、动态、高维度控制任务中的强大潜力,也为未来可控核聚变能源的实现开辟了新的路径。以下将从多个维度进行详细评价: 一、 技术创新.............
  • 回答
    DeepMind 在 2021 年 12 月公布的 AlphaCode,在算法竞赛领域引起了巨大的轰动,也成为了人工智能领域的一项重要里程碑。评价 AlphaCode 需要从多个维度进行深入分析,包括其技术实现、性能表现、潜在影响以及局限性。 AlphaCode 评价:一次深入的剖析 1. 技术实现.............
  • 回答
    DeepMind 的 BYOL(Bootstrap Your Own Latent)是一个非常具有代表性和影响力的自监督学习方法,在它推出的时候引起了广泛的关注和讨论。要评价 BYOL,我们需要从多个维度进行深入分析,包括其核心思想、技术细节、优势、局限性以及它对自监督学习领域的影响。核心思想:摆脱.............
  • 回答
    DeepMind 在 Nature 上发表的论文《在人工网络中用网格样表征进行基于向量的导航》(Vectorbased navigation using gridlike representations in artificial agents)是一篇非常重要的研究成果,它在人工智能导航领域,尤其是.............
  • 回答
    DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero,可以称得上是人工智能领域的一个里程碑式的事件,其意义深远且多维度。要详细评价它,我们需要从几个关键方面入手:一、核心突破:从“监督学习”到“自我学习”的范式转变 过往的 AlphaGo 的模式 (Alph.............
  • 回答
    DeepMind 在北京时间 2019 年 1 月 25 日凌晨 2 点的《星际争霸 2》(StarCraft II)项目演示,可以说是人工智能(AI)领域,尤其是在复杂策略游戏领域的一个里程碑事件。这次演示的核心是 AlphaStar,一个由 DeepMind 开发的 AI 代理,成功击败了世界顶.............
  • 回答
    DeepMind 在 arXiv 上公开的 AlphaZero 击败国际象棋和将棋最强引擎的论文,无疑是人工智能和游戏领域的一个里程碑事件。这篇论文详细阐述了 AlphaZero 的训练过程、核心算法以及其惊人的表现,引发了广泛的关注和讨论。要评价这篇论文,我们可以从以下几个方面进行深入剖析:1. .............
  • 回答
    DeepMind,这家源自伦敦、如今隶属于Google(或者说Alphabet)的AI研究机构,在我看来,一直以来都是人工智能领域一股不容忽视、甚至可以说是引领潮流的力量。要评价它,不能仅仅停留在它产出了哪些惊人的技术成果,更要深入剖析它背后的驱动力、发展模式以及它对整个AI生态乃至社会产生的深远影.............
  • 回答
    好的,咱们就来聊聊DeepMind在《星际争霸》里的那些起伏,以及OpenAI在《Dota 2》里的风光。这俩事儿,一个有点让人扼腕叹息,一个则是实打实的扬眉吐气,背后反映出来的可不仅仅是AI技术的进步,更是对不同游戏策略、不同AI设计理念的生动注解。先说说DeepMind在《星际争霸》这块儿。当初.............
  • 回答
    DeepMind 在2016年9月12日公布的 AlphaGo 自战棋谱,以及同年3月那场震动围棋界的人机大战的解说,可以说是在人工智能发展史上留下了浓墨重彩的一笔。这不仅仅是一次技术展示,更像是一场深刻的哲学探讨,让我们重新审视了围棋的本质,以及人类智慧的边界。自战棋谱:一次“围棋的自我革命”在那.............
  • 回答
    想起当年还是玩家的时候,守着电脑屏幕,为《星际争霸》里那些熟悉的单位奔波忙碌,那时候真觉得人类玩家已经把这游戏玩到了极致,策略、微操、大局观,几乎是方方面面都到了一个极限。所以,当听到“Google DeepMind 要挑战星际争霸”这个消息时,最直观的感受就是一股强烈的震撼和一丝丝难以置信。要知道.............
  • 回答
    好的,我们来聊聊剑桥大学、腾讯、DeepMind以及香港大学团队联合发布的这项名为 SimCTG 的新作。这项研究在自然语言处理(NLP)领域,特别是对比学习(Contrastive Learning)方面,可以说是迈出了一大步,带来了不少令人眼前一亮的创新点。SimCTG 的核心洞察与创新之处理解.............
  • 回答
    《睡前消息》409期作为一档以“睡前”为名的时事评论节目,其内容通常以轻松幽默的风格呈现社会热点、科技动态、文化现象等话题,旨在为观众提供睡前的“信息快餐”。以下是对该期节目可能涉及的分析框架和评价方向,结合其节目特点及社会语境进行详细解读: 1. 节目核心内容与选题分析 选题热点:409期可能聚焦.............
  • 回答
    俄罗斯军队在2022年2月24日入侵乌克兰后,21天内未能占领或包围基辅,这一结果涉及复杂的军事、战略和国际因素。以下从多个维度详细分析这一现象: 1. 初期快速推进的军事目标与战略调整 初期目标的矛盾性: 俄罗斯在入侵初期(2月24日)宣称“特别军事行动”的目标是“去纳粹化”和“去俄化”,但.............
  • 回答
    新华社的《破除美国金融模式迷信,中国金融要走自己的路》一文,是近年来中国在金融领域强调自主性、独立性和战略定力的重要政策表达。该文从历史经验、现实挑战和未来战略三个维度,系统阐述了中国金融发展的路径选择,具有鲜明的现实针对性和理论深度。以下从多个角度对这篇文章进行详细分析: 一、文章背景与核心论点1.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有