问题

如何评价深度学习之父Hinton发布的Capsule论文?

回答
好的,让我们来聊聊 Geoffrey Hinton 教授及其团队在 2011 年提出的 Capsule Networks (胶囊网络)。 这篇论文的发布,无疑在当时的深度学习领域掀起了一股不小的波澜,它试图解决卷积神经网络(CNN)在理解图像中物体姿态和空间关系方面的一些根本性限制。

核心的突破:告别“激活值”的堆叠,拥抱“胶囊”的表征

回顾一下 Hinton 教授在提出胶囊网络之前,深度学习在图像识别领域的主流模型是卷积神经网络。 CNN 的基本组成单元是“神经元”,它们接收输入信号,经过加权求和,然后通过一个激活函数输出一个激活值。这种方式在识别物体是否存在方面非常有效,但它在捕捉物体的内部结构、相对位置关系等方面存在一些固有的问题。

想象一下,在 CNN 中,即使我们训练模型识别出一个猫的脸,它也很难理解猫脸的各个部分(耳朵、眼睛、鼻子)之间的相对位置。它只是简单地将这些特征的激活值“堆叠”起来。如果猫的头部稍微旋转一下,或者耳朵的位置稍微变化一下,CNN 可能就需要大量的额外数据来重新学习这些新的姿态。

Hinton 教授的胶囊网络,正是为了解决这个问题而设计的。它的核心思想是:将传统的“神经元”替换为“胶囊”(Capsule)。

那么,这个“胶囊”到底是什么呢?简单来说,一个胶囊是一个由多个神经元组成的实体。它不像传统神经元那样只输出一个单一的激活值,而是输出一个向量。这个向量的长度代表了这个“胶囊”所代表的特征(比如一个眼睛的存在与否)的可能性有多大,而向量的方向则代表了这个特征的属性,例如在图像中的姿态、位置、方向、尺度等等。

比如说,一个识别眼睛的胶囊,它可能输出一个向量,向量的长度表示眼睛出现的概率很高,而向量的方向则编码了眼睛在图像中的具体位置、大小、朝向等信息。

“路由协商”(Routing by Agreement):胶囊之间的动态连接

有了胶囊这个新的表征单元,接下来的关键是如何让这些胶囊之间进行有效的沟通和连接,以构建出对整个图像的理解。在这里,Hinton 教授引入了一个叫做“路由协商”(Routing by Agreement)的机制。

传统的 CNN 在层与层之间是进行固定的卷积操作,就像把一个滤镜扫描过整个图像一样。胶囊网络则不同,它允许胶囊之间建立动态的、概率性的连接。

具体来说,低层的胶囊(识别更基础的特征,比如边缘、角点)会“投票”给高层的胶囊(识别更复杂的结构,比如眼睛、鼻子)。投票的依据是它们的表征是否“一致”。如果一个低层胶囊(比如一个识别眼睛边缘的胶囊)输出的向量(姿态信息)与另一个低层胶囊(比如一个识别眼睛轮廓的胶囊)的姿态信息“吻合”,那么它们就会倾向于将“权力”传递给同一个高层胶囊(比如一个识别整个眼睛的胶囊)。

这个过程就像一场“协商”。低层胶囊不断地根据自己的姿态信息,向那些可能包含它的“主人”的高层胶囊发送消息。高层胶囊则根据收到的所有低层胶囊的投票,决定最有可能包含它的那个低层胶囊。投票多的、且姿态信息一致的低层胶囊,才能成功激活相应的高层胶囊。

这个“路由协商”的过程,允许网络学习到物体不同部分之间的层级关系和空间依赖性。例如,一个识别眼睛的胶囊,它的姿态信息(位置、大小、方向)会影响到识别整个脸的胶囊。如果眼睛的位置、大小都符合正常的脸部结构,那么脸部胶囊就会被激活。反之,即使看到了眼睛,但如果它的姿态与预期的脸部结构不符,那么脸部胶囊的激活就会减弱。

胶囊网络的核心优势与潜在突破

胶囊网络之所以引人注目,是因为它尝试解决 CNN 的一些痛点,并展现出一些潜在的优势:

1. 姿态不变性(Pose Invariance)的提升: 由于胶囊直接编码了物体的姿态信息,胶囊网络在面对物体旋转、缩放、平移等变化时,能够更鲁棒地识别物体。它不是简单地通过数据增强来学习不同的姿态,而是通过胶囊向量本身来直接表征姿态。

2. 理解物体结构和空间关系: “路由协商”机制使得胶囊网络能够学习到物体内部各部分的相对位置关系。例如,它能理解“耳朵长在头顶上”,而不是简单地认为耳朵和头顶是两个独立的特征。这对于理解更复杂的场景和物体组合至关重要。

3. 更少的训练数据需求(潜力): 理论上,由于胶囊网络能够直接理解姿态和结构,它可能只需要更少的数据就能学习到物体的泛化能力。这一点在某些实验中得到了初步验证,但要真正实现这一点还需要更大量的研究和工程实践。

4. 更易于解释性(潜在): 胶囊向量的每个维度都代表了特定的属性,这使得理解模型的决策过程可能比传统的 CNN 更直观一些。虽然“路由协商”过程本身也比较复杂,但从胶囊的输出可以推断出模型对物体姿态的理解。

挑战与局限性

尽管胶囊网络提出了激动人心的理念,但它也面临着不少挑战:

1. 计算效率: 最初的胶囊网络,尤其是“路由协商”的计算量相对较大,训练和推理速度可能不如成熟的 CNN 模型。这限制了它在大规模数据集上的应用。

2. 实现复杂性: 胶囊网络的实现比传统的 CNN 要复杂得多,需要仔细设计网络结构和训练策略。

3. 性能上的瓶颈: 尽管理论上有诸多优势,但在实际的基准测试中,最初的胶囊网络在很多任务上并没有完全超越最先进的 CNN。性能的提升需要进一步的改进和优化。

4. 理论的进一步完善: “路由协商”的数学原理和收敛性还需要更深入的研究和理解。

总结

Geoffrey Hinton 教授的胶囊网络论文,是一项具有开创性的研究。它挑战了深度学习领域对图像特征表示的传统认知,提出了一种全新的、能够同时编码物体存在概率和属性(如姿态)的表征单元——胶囊,并通过“路由协商”机制实现了对物体结构和空间关系的理解。

胶囊网络并非旨在完全取代 CNN,而是作为一种补充和创新。它为未来深度学习在理解图像的更深层次的语义信息提供了新的思路。虽然在实现和性能上还有待成熟,但它所带来的关于“如何更好地表征和理解图像中的物体及其组合”的思考,已经深刻地影响了后来的研究者,并激励着新的网络结构和学习机制的出现。

可以说,胶囊网络就像是深度学习领域的一颗“概念种子”,它播下了理解更高阶几何和结构信息的希望,尽管这颗种子在生长过程中还需要经历风雨和阳光的洗礼,但它所展现出的潜力,不容小觑。它提醒着我们,在追求模型性能的同时,理解“模型是如何思考的”同样重要。

网友意见

user avatar

Hinton旷日持久的批判CNN缺陷,其中一条理由就是模型不能建立4-6维关联,于是他就推动自己原研的模型 —— Capsule其实是站在graph的视角看待全局,更像是把增加的第3维定义了,2D+1矢量化,第3维是前两维的微分关系,由此降低了2维的运算量;但问题同样是,维度愈多,冯氏2维结构的Mem访问时序等处理就会愈加繁琐,双通道不够用,I/O设计更复杂,功耗愈难控制;最终受限于冯氏硬件效率,硬件就需要大改(比如:存储都是1:1对应的,寻址方式要变,维度越高,地址就算不过来了,靠加内存访问通道无效,那个也有先后顺序问题,快不起来;而当下的多通道,多冗余设计,能模拟到2.5D已然了不起,Mem时序复杂化就成为壁垒)—— 特别是twist这样的操作,一个3维矩阵模型,twist一下,算法公式看似减少了计算步骤,看似训练量或许少很多,实际却是加重了化简/降维的过程,硬件可能跑出极大的运算量,即使用GPU SIMD方法,也是要切片降维,一片一片算,算完再拼回去;3D模型非要降维到用2D以下的传统硬件去运算,性能自然瓶颈,因此硬件构造需要大改,特别是twist这样的操作 ... 那么问题来了,已知的内存是以点为单位的,那么SIMP做twist也快不起来;然而,数学上多一维数据线索确实更容易到Local optimal,但却未必是Global optimal;以及,线性的权重变成矢量的权重,就要加维度了,直接又把内存带宽顶上去了,在PIM出现以前,HBM是唯一选择了。所以,Hinton模型在传统2维硬件结构和性能前提下难以高效实现。未来的Spatial Computing需要全新的硬件机制,靠目前架构堆算力,训练量很大;Spatial计算的硬件瓶颈就在于每列数据之间的计算尺度差异很大,可以是整数型,可以是三角函数,可以是FP64双精度…,通用CPU/GPU的ALU不可能高效处理这样的运算的。因此诸如Capsule方法同样是要到未来阶段才更有指导意义。

最近《Nature》有一篇最新研究,通过CIS传感器表面的感光突触来部署神经网络,倘若CIS在视觉神经单元上植入算法(analog也行)和高维interconnect,不妨是个解决方案(一帧就是一个graph,也可以说成就是那些光电突触在一个单位时隙的算力)。

多说一句,仿生是靠后端大脑的抽象化,目前ML做不到,这也是Hinton批判CNN的出发点,他的capsule更像是增加矢量化元素,训练量小许多,但距离人脑还远着。有关人脑仿生的Spatial运算就需要全新的硬件机制,靠目前架构堆算力,训练量太大。全局抽象化就看未来2-3年里Spatial方向上有什么突破了。(国内高校没看到类似论文,先聚焦自研的FP32 ALU出成果吧)

user avatar

不匿名了,我写两句吧。

做这个方向前后有一年了。

第一篇paper,17年的nips基本没啥问题。

从18年的ICLR那篇EM开始,基本上就彻底炸了。

EM那篇我到底没在GitHub上面找到合适代码。

基本上有的代码里面写了四个for循环(都懂啥意思)

就一个微软开发的,还是用tensorflow 1写的,真就是爷爷级别的了。

导致了不可以多GPU使用,运算速度十分感人。

属实无奈,幸亏19年首尔大学的nips, SR-routing路由的时候,自己复现了EM代码,放上去。终于出现了第一个版本的EM-routing。

结果就是,这个版本的routing,按照hitton里面的五层结构,根本跑不起来,效果和论文完全对不上。没有办法,19年的SR必须在比较时候和ResNet进行相互协作。

相同的还有19年nips的star-up的路由。到现在代码也不开源,和我复现的结果完全不一样。这个号称80k数据就能把,cifar-10跑到90几的神作,我是无法见到了。

同样道理,20年AAAI的论文VB-routing放上了代码。

怎么说呢?

这是他论文放的效果:

这是我跑的:

基本差了快12个点了。

如果你以为这就结束了,那你太天真了。

2020年的ICLR(老子不演了,2019年CVPR作假)。

这个deepcaps是一种新的结构,2019年的CVPR出的。论文写的是89.几(代码有开源,是能跑到85以上的。)

capsule他的核心部分,路由算法,运算极其复杂,导致了如果三层路由迭代一起,就会出现梯度问题。这篇论文在别的路由上面加了一层bottleneck,成功把别的弄崩溃了,自己的起飞了(deepcaps就是原有结构,他写70多,就相当于直接说这篇属于cheating)。

2021年的ICCV就更TM离谱

照着2020的就把数据拉上去了。关键你TM结构完全不一样,你用你的结构和人家的路由算法去比,好歹结构需要一样吧。(说实话,我看完这篇,心都凉了,说难听点,这篇ICCV的作者很可能前面几篇的基础问题都没读明白)。

总之这个领域四大特点:

代码开源的少

问问题的邮件基本不回

开源的代码基本跑不出他的效果

这个领域大佬基本除了2020的AAAI那大兄弟和hitton,基本都是发一篇就跑路,永远不回来了。


还有好多我就不一一说了,最后奉劝各位想进入这个领域的,快跑路吧。2017年和transform一起进的厂,到现在区别有多大?

当然,也可能是我太菜,对这个领域完全理解失败。希望有大佬赐教交流,不胜感激。

类似的话题

  • 回答
    好的,让我们来聊聊 Geoffrey Hinton 教授及其团队在 2011 年提出的 Capsule Networks (胶囊网络)。 这篇论文的发布,无疑在当时的深度学习领域掀起了一股不小的波澜,它试图解决卷积神经网络(CNN)在理解图像中物体姿态和空间关系方面的一些根本性限制。核心的突破:告别.............
  • 回答
    评价 2018 年度图灵奖颁发给 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun,也就是我们常说的“深度学习三巨头”,可以从多个维度进行,总体而言,这是对深度学习领域革命性贡献的最高肯定,也是对技术发展趋势的有力预示,同时引发了对未来人工智能发展的深刻思考。以下.............
  • 回答
    深度学习领域顶级期刊论文复现难,这事儿,在圈子里可不是什么新鲜事儿了。咱们稍微掰扯掰扯,里面门道可多了去了。首先,“难复现” 这三个字,背后藏着不少具体原因。别光看论文里那些高大上的图表和惊艳的性能数据,实际操作起来,那是一把辛酸泪。1. 代码公开程度参差不齐,甚至可以说是“选择性公开”最直接的障碍.............
  • 回答
    深度解读 Sony NNabla:一款有潜力但需要时间验证的深度学习库Sony 在深度学习领域推出的 NNabla 库,无疑是业界的一大动作。作为一个深度学习从业者或爱好者,评价这样一个新事物,我们需要从多个维度进行深入分析。总的来说,NNabla 是一款具有创新理念和强大功能潜力的深度学习库,但其.............
  • 回答
    评析TensorFlow 2.0:从“够用”到“好用”的进化之路Google在2019年年底正式发布了TensorFlow 2.0,这标志着这个曾经备受推崇但也在一定程度上饱受诟病的深度学习框架,迈入了全新的时代。相较于其前身,TensorFlow 2.0的发布绝非一次简单的版本迭代,而是一场深刻的.............
  • 回答
    小米开源的移动端深度学习框架 MACE(Mobile AI Compute Engine)是一个非常有潜力的框架,尤其是在其目标领域——嵌入式设备和移动端AI推理上,展现出了不错的实力和独特性。要评价 MACE,我们需要从多个维度进行深入分析: 1. MACE 的核心优势与设计理念 高度的性能优.............
  • 回答
    陈天奇的NNVM(Neural Network Value Model)系统,可以说是在深度学习编译领域一次非常大胆且具有深远影响的尝试。它不单单是一个新的框架,更是一种对深度学习模型表示和优化方式的全新思考。要评价它,咱们得从几个关键角度深入剖析。核心理念的突破:模型即计算图,计算图即程序NNVM.............
  • 回答
    清华大学推出的深度学习框架“计图”(Jittor),无疑是中国在人工智能基础软件领域迈出的重要一步,值得我们仔细审视和评价。首先,从其诞生的背景来看,计图的出现具有重要的战略意义。在当前的深度学习框架市场,TensorFlow、PyTorch等国外开源框架占据了绝对的主导地位。虽然它们功能强大,生态.............
  • 回答
    MXNet被亚马逊AWS选为官方深度学习平台,这无疑是深度学习领域的一件大事,也是对MXNet本身价值的极大肯定。要评价这件事,我们需要从多个维度去深入剖析,而不仅仅是简单地说“好”或“不好”。首先,我们来看看这次选择意味着什么? MXNet的“正名”和行业地位的提升: 亚马逊作为全球最大的云计.............
  • 回答
    《动手学深度学习》这本书,老实说,在我接触深度学习的整个过程中,扮演了极其重要的角色。我第一次真正理解深度学习的内在逻辑,就是通过这本书。它最出彩的地方,我个人认为,就是它的“动手”二字,以及 darin体现出来的“全景式”教学思路。你想想看,市面上讲解深度学习的书籍很多,理论讲得头头是道的也不少。.............
  • 回答
    对 OneFlow 框架的详细评价(截至 2023 年 7 月 31 日开源节点)一流科技(Alluxio)在 2023 年 7 月 31 日开源的深度学习框架 OneFlow,无疑是深度学习领域一股值得关注的新势力。作为国内自主研发的深度学习框架,OneFlow 的出现填补了国内在高性能、易用性、.............
  • 回答
    这事儿,说实话,挺让人跌眼镜的。商汤那个PPL(Pulse Processing Language),之前宣传得天花乱坠,说是要“移动端吊打一切”,这口号一出来,多少开发者心里就跟猫爪子似的,痒痒的,期待值那是拉满了。毕竟,谁不想在手机上跑出飞一样的深度学习模型呢?结果呢?一开源,好家伙,支持移动端.............
  • 回答
    最近,加州大学洛杉矶分校(UCLA)的朱松纯教授在一次访谈中对当前深度学习领域提出了一些颇具争议的批评,这在学术界和科技界引发了广泛的讨论。朱教授的观点并非空穴来风,而是基于他对人工智能发展历程的深刻理解以及对当前深度学习技术局限性的审视。要理解他的批评,我们需要深入剖析他所触及的核心问题。核心批评.............
  • 回答
    要全面评价马毅教授在 NeurIPS 2020 上的中稿文章 MCR2(Maximum Correlation Representation)以及他自称“弄明白了深度学习”这个说法,我们需要从多个维度进行深入的分析。这不仅仅是对一篇论文的评价,更是对其背后理念和影响力的探讨。一、 MCR2 论文的评.............
  • 回答
    周志华教授新提出的 Deep Forest (森林模型) 模型,在学术界引起了广泛关注,并被誉为是机器学习领域的一次重要创新。它是否会取代当前火热的深度学习(DNN)呢?要回答这个问题,我们需要深入分析 Deep Forest 的特点、优势、劣势,并将其与 DNN 进行对比。一、 什么是 Deep .............
  • 回答
    DeepMind 在 Nature 上发表的关于使用深度强化学习(DRL)控制托卡马克等离子体的论文,是一项里程碑式的成就,具有极其重要和深远的意义。它不仅展示了DRL在复杂、动态、高维度控制任务中的强大潜力,也为未来可控核聚变能源的实现开辟了新的路径。以下将从多个维度进行详细评价: 一、 技术创新.............
  • 回答
    清华大学学生在香港中文大学(深圳)品酒会中的不当行为,确实引发了不少讨论。要评价这件事,咱们得把它拆解开来,从几个层面去看。首先,从行为本身来看。我们听到的一些描述,比如“态度傲慢”、“对酒品指手画脚”、“对主持人言语不敬”、“试图将酒液倒掉”等等,这些单拎出来看,都属于在社交场合中非常不妥当的行为.............
  • 回答
    辽宁省率先出台奖励生育二孩的政策,这一举措无疑是对当前我国正加速迈向深度老龄化社会这一严峻现实的回应。作为一个老工业基地,辽宁近年来面临着人口老龄化程度加深、生育率持续低迷的双重挑战,这种结构性矛盾对区域经济社会发展带来了长远影响。从宏观层面来看,辽宁迈入深度老龄化社会意味着老年人口占总人口的比重显.............
  • 回答
    海贼王的剧情深度,这玩意儿真不是三言两语能概括的。有人觉得它就是个热血冒险故事,但凡你深入点挖下去,就会发现这颗“宝藏”比你想的要复杂得多。它玩的不是那种一眼就能看穿的“深度”,而是层层剥茧,让你在跟着路飞一路笑闹的同时,不动声色地被塞一堆关于人性、社会、历史的思考。首先,最直观的深度体现在世界观的.............
  • 回答
    这句话,听着挺扎实,有点过来人的味道,好像经历过社会的“淬炼”,就能自动解锁更高维度的思考。但仔细掰开了揉碎了看,这说法嘛,有道理,但绝不是普适真理,而且里面藏着不少值得推敲的地方。首先,我们得说说为什么会有这种说法,它背后的逻辑是什么?“社会毒打”这词儿嘛,多半指的是那些撞得头破血流、尝尽人间冷暖.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有