问题

如何看待Hinton的论文《Dynamic Routing Between Capsules》?

回答
Geoffrey Hinton及其团队于2017年发表的论文《Dynamic Routing Between Capsules》(动态路由与胶囊之间)无疑是深度学习领域的一篇里程碑式的工作。它提出了一种全新的神经网络架构——胶囊网络(Capsule Networks,CapsNets),旨在解决传统卷积神经网络(CNN)在理解物体姿态、相对位置等空间信息方面的局限性。

要详细理解这篇论文,我们需要从几个核心概念入手,并深入分析其技术细节和意义。

一、 传统CNN的局限性

在深入胶囊网络之前,理解其要解决的问题至关重要。传统CNN在图像识别任务中取得了巨大成功,但存在一些固有的局限性:

1. 对物体姿态和相对位置的敏感性问题(Pose Sensitivity): CNN通过池化操作(Pooling)来增强对平移、缩放等不变性的鲁棒性。然而,这种操作也导致了空间信息的丢失。例如,一个CNN可能识别出图像中有一个眼睛和一个鼻子,但无法确定它们是如何相对于彼此排列的(例如,眼睛在鼻子上方还是下方)。这使得CNN在理解物体的姿态、立体结构和部分之间的相对位置关系时存在困难。
2. 投票式的识别: CNN的最终分类层(如全连接层)往往对输入的特征进行“投票”,即使某个部分被错误识别,只要整体投票结果正确,网络也能做出正确的分类。这导致网络“知道”一个物体存在,但并不理解其组成部分以及它们是如何组合的,这种理解是脆弱的。
3. 缺乏对“姿态参数”的显式建模: 图像中的物体不仅有“存在性”(presence),还有“姿态”(pose),如位置、大小、方向、形变等。CNN主要学习的是特征的激活程度,而未能显式地建模和预测这些姿态参数。

二、 胶囊网络(CapsNets)的核心概念

胶囊网络的核心思想是用胶囊(Capsule)代替传统CNN中的神经元。

1. 什么是胶囊?

胶囊是一个神经元集合: 与传统神经元输出一个标量值(激活强度)不同,一个胶囊输出一个向量(vector)。
向量的含义: 这个向量代表了一个特定实体(如物体的某个部分、或者一个物体本身)的各种属性。
向量的长度: 代表该实体存在的概率。
向量的方向: 代表该实体的各种姿态参数,例如:
位置 (x, y)
大小 (width, height)
方向 (rotation angle)
形变 (shear, perspective transform) 等等。

2. 层次化胶囊结构

层级递进: 胶囊网络同样采用层级结构,每一层都包含一组胶囊。
“父胶囊”与“子胶囊”: 下一层(较低层级)的胶囊代表物体的部分(例如,人脸的眼睛、鼻子、嘴巴),而上一层(较高层级)的胶囊代表整体(例如,人脸本身)。
动态路由(Dynamic Routing): 这是胶囊网络最关键的创新之处。它是一种允许胶囊之间进行信息传递和聚合的机制,以决定哪些“子胶囊”的输出应该被传递给哪些“父胶囊”。

三、 动态路由(Dynamic Routing)的运作机制

动态路由是胶囊网络能够理解部分和整体之间空间关系的关键。它通过一个迭代过程来决定信息流的方向:

1. 预测(Prediction): 较低层级的胶囊(“子胶囊”)会根据其自身的姿态信息,预测较高层级的胶囊(“父胶囊”)的输出。具体来说,每个子胶囊会将其输出向量乘以一个权重矩阵(称为转换矩阵 T),这个矩阵将子胶囊的姿态参数转换为父胶囊的姿态参数。
例如,一个“眼睛”胶囊的输出向量包含其位置、大小等信息。通过乘以一个特定的转换矩阵 T,它可以预测出“人脸”胶囊的位置、大小等信息。

2. 耦合(Coupling): 论文提出了一个名为路由协议(RoutingbyAgreement)的机制。这个机制决定了子胶囊的输出信息应该“耦合”到哪个父胶囊。
耦合系数(Coupling Coefficients): 论文引入了耦合系数 c_ij,它表示子胶囊 i 的输出应该传递给父胶囊 j 的“权重”。这些系数是通过一个软性决策过程确定的,类似于softmax。
迭代更新:
步骤 1: 初始化耦合系数。最初,子胶囊倾向于将信息传递给所有父胶囊(可以看作是基于一些先验知识或均匀分布的初始化)。
步骤 2: 计算父胶囊的输出。对于每一个父胶囊 j,将其接收到的所有子胶囊的预测输出加权求和,得到一个“加权总和向量”(weighted sum vector) $mathbf{u}_{.| ext{i}}$。
步骤 3: 将加权总和向量通过一个squashing函数。Squashing函数的作用是将向量压缩到单位球内,其方向保持不变,长度被压缩到一个范围(0到1)。这确保了父胶囊的输出向量代表其存在的概率(长度)。
步骤 4: 更新耦合系数。通过比较子胶囊 i 的预测输出和父胶囊 j 的最终输出(squashed vector)之间的相似度(通常用点积表示)。相似度越高,说明子胶囊的预测与父胶囊的实际状态越“一致”。基于这种一致性,通过一个重估配对关系(reevaluate coupling logits)的过程来更新耦合系数 c_ij。这个过程通常使用一个称为 logits 的值来表示子胶囊 i 和父胶囊 j 之间的“亲和力”。
步骤 5: 重复步骤 24 多次(论文中通常是3次迭代)。通过迭代,信息流会逐渐“收敛”,子胶囊更倾向于将信息传递给那些与其姿态预测最一致的父胶囊。

3. 动态路由的数学表示

假设我们有 L 层,每一层有 N_l 个胶囊。设 $v_i^l$ 表示第 l 层第 i 个胶囊的输出向量。

低层级到高层级: 从层级 l 传递到层级 l+1。
子胶囊 i(层级 l)和 父胶囊 j(层级 l+1)。
转换矩阵 $W_{ij}$: 将子胶囊 i 的输出 $v_i^l$ 转换为父胶囊 j 的预测输出 $hat{v}_{j|i}$。
$hat{v}_{j|i} = W_{ij} v_i^l$
低层级胶囊输出: $v_i^l$
高层级胶囊输入:
$mathbf{s}_j^{l+1} = sum_i c_{ij} hat{v}_{j|i}$ (加权求和)
$v_j^{l+1} = ext{Squash}(mathbf{s}_j^{l+1})$ (Squashing函数)
耦合系数 $c_{ij}$:
$c_{ij} = frac{exp(b_{ij})}{sum_k exp(b_{ik})}$ (Softmax)
$b_{ij}$ 是 logits,它表示子胶囊 i 和父胶囊 j 的亲和力。
logits $b_{ij}$ 的更新:
$b_{ij} leftarrow b_{ij} + hat{v}_{j|i} cdot v_j^{l+1}$ (点积表示相似度)

这个过程的精髓在于,子胶囊不是被动地将信息传递给所有父胶囊,而是通过迭代协商来决定应该将信息传递给哪个父胶囊,并且这种传递是基于“姿态一致性”的。

四、 胶囊网络架构示例

典型的胶囊网络架构通常包括:

1. 初级胶囊层(Primary Capsules):
通常是第一个从卷积层提取特征后生成的胶囊层。
可能先使用一个普通的卷积层提取特征图,然后将其重塑成包含姿态信息的胶囊。例如,一个卷积核的输出可以被分成多个部分,一部分代表激活强度,另一部分代表姿态参数。
这些初级胶囊然后通过动态路由连接到更高级别的胶囊。

2. 数字/类别胶囊层(Digit Capsules/Class Capsules):
这是网络最高层的胶囊,每一个胶囊代表一个类别(例如,数字 09,或者不同的物体类别)。
这些胶囊的输出向量的长度表示该类别的存在概率,向量的方向表示该类别的姿态。

五、 关键创新点和优势

1. 更好的空间信息建模: 胶囊网络能够显式地编码和传递物体的姿态信息,从而更好地理解部分和整体之间的空间关系。
2. 增强的姿态识别能力: 由于能感知姿态,即使物体有旋转、缩放、形变,胶囊网络也能更鲁棒地识别。例如,如果一个物体被旋转了,它的各个部分的相对姿态也会发生相应变化,胶囊网络可以通过姿态向量的变化来适应这种变化。
3. 更少的训练数据需求: 论文声称,由于其更有效的表示能力,胶囊网络在某些任务上(如MNIST数据集的变形版本)可以用比传统CNN少得多的数据进行训练,并且达到更好的性能。这可能是因为胶囊网络对数据中的变换(如旋转、缩放)具有内在的建模能力。
4. 更好的抗遮挡能力: 论文也提到,胶囊网络可能在处理部分遮挡时表现更好。如果一个部分被遮挡了,其对应的子胶囊可能输出一个较小的向量长度(低激活强度),但网络仍然可以通过其他可见部分的姿态信息来推断整体。
5. 潜在的因果推断能力: 胶囊网络通过学习部分到整体的映射,以及预测其他部分的姿态来推断整体的姿态,这在某种程度上与人类的因果推断过程相似。

六、 论文的实验结果和影响

Hinton团队在论文中展示了胶囊网络在以下几个方面取得的成果:

MNIST数据集的变体: 对MNIST数据集进行旋转、缩放、平移和形变处理后,胶囊网络相比于传统CNN取得了显著的性能提升,尤其是在识别微小形变方面。
MultiMNIST数据集: 在一个图像中有多个数字的MultiMNIST数据集上,胶囊网络能够更有效地区分不同的数字实例,并预测它们的姿态。

这篇论文的影响深远,它开启了对胶囊网络的研究热潮,虽然目前胶囊网络在实际应用中(如大规模图像识别)还未完全取代CNN,但其提出的思想和技术,特别是动态路由,为深度学习的研究提供了新的方向和思路。

七、 挑战与未来发展

尽管前景光明,胶囊网络也面临一些挑战:

计算复杂度: 动态路由过程的迭代计算会增加网络的计算量和内存需求,尤其是在处理高分辨率图像或非常深的层级时。
架构设计: 如何设计更高效的胶囊层和动态路由机制仍然是一个活跃的研究领域。
大规模应用: 在大规模、复杂数据集(如ImageNet)上的表现和效率还需要进一步验证和优化。
理论理解: 对胶囊网络工作原理的深入理论理解还需要进一步加强。

总结

《Dynamic Routing Between Capsules》这篇论文提出的胶囊网络是一个革命性的概念,它试图通过引入“胶囊”和“动态路由”来解决传统CNN在理解空间关系和物体姿态方面的不足。胶囊将实体的存在概率和姿态信息编码在向量中,而动态路由则允许胶囊之间通过迭代协商来传递信息,从而实现对部分与整体之间关系的鲁棒建模。尽管仍有优化空间,胶囊网络无疑为我们理解和构建更智能、更具感知能力的神经网络提供了重要启示。

网友意见

user avatar

感谢 @戴松民 底下的评论,之前routing的图画反了。

最近一次修改 10-31 下午。基本更新完。

Capsule 是 Hinton 近几年在采访中频繁提到的概念,在之前我写过一个详尽的概述:浅析 Hinton 最近提出的 Capsule 计划,由于 Capsule 的基础概念相关的知识非常多,这里全部列出来恐怕不合适,如果想详细了解 Capsule的理念,我建议先参考这个概述。论文中很多抽象的论述都和Hinton之前的这些想法密切相关。


理念归理念,论文归论文,应用归应用。对于这篇公开的论文,我认为我们应该关注这些地方:

  1. 这篇论文的定位是什么?

    答:

    我想论文中说的非常清楚:The aim of this paper is not to explore this whole space but to simply show that one fairly straightforward implementation works well and that dynamic routing helps.

    也就是这篇论文仅仅是为了实现一个简陋的,能用的基于capsule的模型,原则上无论结果多么差都可以接受。而结果还是基本令人满意的,并且动态路由算法似乎能提升算法性能。作者并没有精心设计高效可扩展的算法,而是仅仅展示 capsule 是能用的。

    Hinton 提Capsule已经提了相当一段时间了,但是基本没有具体的算法和模型实现。一个还称得上实现的是2011年的论文[1],但是显然那个实现和Hinton的想法相差很远。

    所以,这次paper是Hinton他们的初步实现,改进空间很大,没有必要大规模炒作(这样被误导看了论文反而觉得印象很差)。很多Hinton在演讲中提到的成果(包括few-shot learning等等)论文里面还没有看到,也就意味着Hinton可能还有一些更加成熟的关于capsule的论文没有发表。

  2. 就理念而言,这篇论文践行了Hinton的哪些理念,而哪些论文还没有达到?而践行这些理念使用哪些具体的数学方法?

    答:这篇论文基本践行了Hinton对的Capsule的观念,但是某些地方没有体现:

    (1)coincidence filtering(参考[2])。这是 Hinton 理念上的“routing”方案,看上去非常robust,但是实施需要EM算法和 Gaussian Mixture,相对比较复杂。而这次论文中我们可以看到它直接用非常简单粗暴的dynamic routing来实现了(并且引入新的超参数),这有点偏离原来的思想。

    (2)place-coding & rate-coding (参考[2])。这需要多层 capsule才能体现,论文中的模型实在太浅了完全不能体现。

  3. 就论文而言,论文有什么亮点,有什么突破?将来有什么展望?

    答:亮点和突破在于更好的robust,以及对重叠图像/多物体识别的先天优势。这个正文会细说。

  4. 就应用而言,这篇论文中的Capsules是否有传统的深度学习不可替代的价值?又有什么应用场景?

    答:对不起,目前看来还不明显。不过这也不是论文的目标。


用一组 Capsules 替代网络的一层

Capsule 关键的一点是在于用复杂的 Capsule 替代现在神经网络中简单的 layer。

其重要理由之一是现在 layer 中的 neuron 太过简单,本身很难表征概念;而Capsule使用向量作为输入输出,而向量就可以作为良好的表征(比如word2vec中的向量就可以良好表征词汇),可以加各种特技,(具体原因,包括生理学,心理学上的原因参见[2])。

与一般的向量表征不同,Capsule 的输出向量表征了两个部分:

  1. 其长度表征了某个实例(物体,视觉概念或者它们的一部分)出现的概率
  2. 其方向(长度无关部分)表征了物体的某些图形属性(位置,颜色,方向,形状等等)

用 Capsules 代替 layer 存在几个问题:

(1) 如何实现激活函数?layer 使用了非线性函数来处理标量,而Capsule处理的是向量,那么又该用什么“激活函数”呢?

答案是一个被称为 “squashing” 的非线性函数,(s为输入,v为输出,j为capsule的序号)


,其中 是单位化向量,也就是缩放向量的长度为

它画出来如下:

这个函数的特点是:

  1. 值域在[0,1]之间,所以输出向量的长度可以表征某种概率。
  2. 函数单调增,所以“鼓励”原来较长的向量,而“压缩”原来较小的向量。

也就是 Capsule 的“激活函数” 实际上是对向量长度的一种压缩和重新分布。

(2) 如何处理输入?layer 使用了矩阵,本质上是上层输出的线性组合。那么对于 Capsule 又应该怎么做呢?

Capsule 处理输入分为两个阶段:线性组合和routing。

线性组合一定程度上是借用layer中的线性组合的概念,用在Capsule中的好处和作用来自于图形学对Hinton的启示(参见[2])。

不过这个线性组合不是针对 layer(也就是只有一个matrix),而是针对 capsules (一堆matrices),亦即:

(其中u是下层的向量,由前层的标号为i的capsule产生,带帽子的u是处理后的结果,送给后层的标号为j的capsule)。

这等于,原来NN中的“边权”(常量)变成了矩阵。

关于 routing 部分,其实是给 加权求和,权重是 。

而 是 softmax 的结果,从而使得 分布归一化;并且由于softmax会使分布“尖锐化”,从而只有少数 有较大的取值,这样就起到了routing的作用(只有少数 的权重较大,就好像底层的某个capsule的输出只贡献给上面的某个capsule)。

Routing 的更新:Updating by agreement

按照 Hinton 在很多视频中的理念,“找到最好的(处理)路径等价于(正确)处理了图像”。这也是 Capsule 框架中引入 Routing 的原因之一。

而找到“最好路径”的方法之一就是找到最符合输出的输入向量。符合度通过输出向量和输入向量(线性变换后的向量)的内积所表征,这个符合度直接被加入到 中。

这个更新算法很容易收敛。论文中认为3次足矣。routing 和其他算法一样也有过拟合的问题,虽然增加routing的迭代次数可以提高准确率,但是会增加泛化误差,所以不宜过多迭代。

网络结构:CapsNet

网络结构在论文中称为CapsNet

首先,来一个标准的CNN+ReLU。强迫症患者可能感到不是很舒服:为什么不全部使用Capsule,而是要来个CNN呢?

原因其实很简单,Capsule 的向量是用来表征某个物体的“实例”,并且按照假设,越高级的capsule能够表征更高级的实例。如果不通过CNN抽取特征,那么Capsule就直接得到图片的内容,这并不是很理想的低级特征。而浅层的CNN却擅长抽取低级特征,于是用CNN是在情理之中的。

这里注意到CNN的感知野很大(9*9,现在一般3*3),这是因为CNN层数很少的情况下,感知野越大,底层的capsules能够感知到的内容也越多。

但是,一层 CNN 的能力不足以抽取到合适的特征,于是这篇论文又加了一个 CNN层(一共32个CNN,文中称为32个channels,每个CNN有8个filters),这个 CNN 的输出构成了第一层 Capsules 的向量。

由于 CNN 共享权值的特点,这一层每个 CNN 输出的feature map中的36个capsules 是共享权值的(通过CNN)。显然所有的Capsules都共享权值是有问题的,这也是为什么这层搞32个CNN的道理:不同的 CNN 输出的Capsules间是独立的。

为了加深理解,我们可以对比一下CNN的输出和这层输出的Capsules的区别:

我们可以看到它们的相似点在于,每个”平面“内,变量都是共享权值的;而在不同”平面“内,变量是独立的。而不同点在于,在”平面“内CNN的单位是标量,而Capsules是一个capsule表征的向量。

这一层的Capsules在论文中被称为 PrimaryCapsules ,这让我联想到 primary visual cortex(初级视皮层),因为如果说第一层卷积相当于视网膜,第二层卷积相当于初级视皮层,那么 PrimaryCapsules 的向量就是初级视皮层的表征。

第三层,也是输出层,就是一组10个标准的 Capsules,每个 capsule 代表一个数字。每个capsules 输出向量的元素个数为16。这组 Capsules 被称为 DigitCaps (取名逼死强迫症)。

从 PrimaryCapsules 到 DigitCaps 使用了上文所述的 dynamic routing。这也是唯一使用dynamic routing 的地方。

按照假定,某个 capsule 输出向量的(范数)长度表示某个 capsule 表征的内容出现的概率,所以做分类的时候取输出向量的 L2 范数即可。

这里注意到,最后 capsules 输出的概率向量不是归一的,也就是 capsules 天然有同时识别多个物体的能力。

优化

由于 capsules 允许多个分类同时存在,所以不能直接用传统的交叉熵损失,一种替代方案是 SVM 中常用的 margin loss:

其中 是分类, 是分类的指示函数(分类c存在为1,否则为0), 为上margin,惩罚假阴性(没有预测到存在的分类的情况); 为下margin,惩罚假阳性(预测到不存在的分类的情况)。 是比例系数,调整两者比重。

总的 loss 是各个 之和。

至于优化算法,论文没有明说,其实不难猜到就是标准的反向传播(否则怎么搞CNN),估计作者觉得没有必要写了。论文在很多细节上让人很难受,比 AlphaGo Zero的文笔差多了(人家把讲过N次的MCTS还是换个说法耐心地讲解了一遍)。

重构与表示

Hinton 一直坚持的一个理念是,一个好的robust的模型,一定能够有重构的能力(”让模型说话“)。这点是有道理的,因为如果能够重构,我们至少知道模型有了一个好的表示,并且从重构结果中我们可以看出模型存在的问题。

之前我们说过,capsule 的一个重要假设是每个 capsule 的向量可以表征一个实例。怎么来检验这个假设呢?一个方法就是重构。

重构的时候,我们单独取出需要重构的向量,扔到后面的网络中重构。当然后面的重构网络需要训练。

但是有读者可能会有疑问:如何证明重构的好是因为Capsules输出了良好的表示,而不是因为后面的网络拟合的结果?我们知道哪怕前面的输入是随机的,由于神经网络强大的拟合能力,后面的网络也能拟合出重构结果。

一个证据是人为扰动 capsule 的输出向量。我们可以看到,如果逐渐改变向量的一些分量,表示也很有规律地改变,这是随机的输入难以做到的。

另外,他们没有拿capsule 的输出向量做个 t-SNE,这点很可惜。。。如果这样我们就能看到 capsule 的输出向量是如何把 MNIST 嵌入到空间中去的。

重构与无监督学习

论文中发现如果把重构误差计入,可以显著地提高准确率:

(其实很搞笑的是,这种提升远远大于对dynamic routing的调整)

需要注意到,重构是无监督的方式,不需要标签。如果重构能够大幅提升分类效果,那么就暗示了可以通过重构做无监督学习(重构也可能是人做无监督学习的途径之一)。这部分Hinton提了很多,应该已经做出来了,不过看样子不在这篇论文当中。

重构与可解释性

之前我在[2]中简单提及过,做capsule的动机之一还在于可解释性。我们需要看到NN为什么正确,为什么错误。

这篇论文通过重构或多或少这一点,还是很有意思的。

比如下图左侧,都是分类正确的重构,可以看到重构除了还原本身外,还起到了去噪的效果。

右侧模型误把”5“识别成了”3“,通过重构,模型”告诉“我们,这是因为它认为正常的”5“的头是往右边伸出的,而给它的”5“是一个下面有缺口的”3“。

在识别重叠数字的时候,它显示了更强的重构能力,并且拒绝重构不存在的对象(右侧*号)

为什么选择 MNIST 而不是 ImageNet

我知道,大家都会吐槽为什么还要用 MNIST 这种用烂的数据集。

首先是,ImageNet 很难做重叠图像的实验(现实图片重叠的情况下本来就很难辨认,即使实现了也很难可视化),这点手写数字几乎是最理想的方案。

第二点是,在此实验的配置下,做 ImageNet 是自杀行为。因为 Capsules 假设是每个 Capsule 能够代表一个实例,本论文实现的动态路由方案比较naive,根本不能满足这么多的 Capsule 数量,何必做不符合自己假设的实验呢?其实文章作者知道这点,还是强行试了试 cifar10,果然效果不好(和最初应用到cifar10的CNN效果差不多)。

另外一个关键的数据集: smallNORB

Capsule 非常重要的卖点是符合图形学的某些现象(参见[2]), 在 smallNORB 上达到 state-of-the-art 是非常重要的支持。

smallNORB 和 MNIST 一样,构成非常简单,所以目前的 CapsNet 架构可以训练。但是 smallNORB 非常重要的一点是,它是3D的,并且明显由各个组件构成的,这点对于 Capsules 是非常有利的(如果 Capsules 假设正确)。

我相信以后关于 Capsules 的论文中 smallNORB 可能还会出现多次。

全场最差:动态路由

个人认为动态路由是论文中做的最不好的地方,做的太简单了,如果用论文中的动态路由方案,我想是无法做到训练 ImageNet 的。

按照 Capsules 的假设,在当前方案下,训练 ImageNet,估计至少要用长度100的向量来表征一个物体吧(可能还是不够)。假设我们卷积层保持 256 * 256 的长宽,256个独立的 Capsules 分组,那么一层就有 16777216 个 Capsules,我们不管其他的,就看最后输出1000个分类,需要1000个Capsules(假设向量长度还是100个元素),那么参数占用内存(设类型为float32)就是 16777216 * 1000 * (100*100*4)= 671088640000000 = 671.08864 TB(不计路由等部分)。实际训练中内存还会数倍于这个数字,至少要翻一倍,到1.7 PB左右。如果你要单独用GPU放下这一层,就需要 80000 张 Titan X Pascal,更别提整个网络的参数量。如此多的参数显然是因为全连接的动态路由造成的。

相信路由方案一定是将来改进的重点。

[1] Hinton, G. E., Krizhevsky, A., & Wang, S. D. (2011, June). Transforming auto-encoders. In International Conference on Artificial Neural Networks (pp. 44-51). Springer Berlin Heidelberg.

[2] 浅析 Hinton 最近提出的 Capsule 计划

user avatar

有些回答真是看不过去,抛去所有的光环来看待,这也是一篇非常优秀的具有启发性的论文,所以很快有了更好的路由实现(i.e. MATRIX CAPSULES WITH EM ROUTING)。论文展示了不用 Spatial transformer networks就可以获得更好的适应仿射变换的能力,展示了在高度重叠下对于图像的分割能力。论文的实现看似很简陋,没有在大的数据集上进行验证,但是已经给出了一个值得探索的方向了。

----------------------------------------------------------------------

话说回来,有人关注这篇论文么。。。我觉得效果逆天了。。。

A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs

类似的话题

  • 回答
    Geoffrey Hinton及其团队于2017年发表的论文《Dynamic Routing Between Capsules》(动态路由与胶囊之间)无疑是深度学习领域的一篇里程碑式的工作。它提出了一种全新的神经网络架构——胶囊网络(Capsule Networks,CapsNets),旨在解决传统.............
  • 回答
    Hinton 老先生最近关于深度学习“另起炉灶”的说法,确实像一颗重磅炸弹,在学术界和业界激起了层层涟漪。这不仅仅是技术上的一个微小调整,而是对我们理解和构建人工智能核心方法的一次深刻反思。要理解 Hinton 的这个观点,我们需要深入挖掘它背后的一些关键原因,以及它可能带来的影响。首先,我们得明白.............
  • 回答
    Jeff Dean 和 Geoffrey Hinton 联手提出的 Mixture of Experts (MoE) 模型在 ICLR 2017 上的工作,绝对是深度学习领域一个非常有影响力的里程碑。他们的研究,特别是“Outrageously Large Neural Networks: The .............
  • 回答
    关于网传“北大文科博士在深圳大学任教经济困难,月薪13千,上网课要求学校发网络补助”的信息,需从多个角度进行分析,结合中国高校薪酬体系、地区差异及政策背景,综合判断其真实性及合理性。 一、信息真实性分析1. 来源可信度 目前尚无权威媒体或深圳大学官方声明证实该传言。网络传言往往存在夸大或误传.............
  • 回答
    关于乌克兰数学家康斯坦丁·奥尔梅佐夫(Konstantin Orelmazov)的自杀事件,目前公开的可靠信息较为有限,但结合俄乌冲突的背景和乌克兰学术界的现状,可以尝试从多个角度进行分析和探讨: 1. 事件背景的核实与可能性 身份确认:目前公开的资料中,尚未有明确的、权威的新闻来源(如BBC.............
  • 回答
    关于美国太平洋司令部空军司令威尔斯巴赫(James W. "Jim" Welsbach)提到的F35战机与歼20近距离接触的事件,目前公开信息中并无直接证据表明该言论来自美国官方渠道,因此需要从多个角度进行分析和澄清。 1. 事件背景与信息来源的可靠性 美国官方声明的缺失:截至2023年,美国.............
  • 回答
    关于您提到的“硅谷男子在妻子患病期间相亲,妻子病逝后迅速再婚并独吞200万抚恤金”的事件,目前没有权威媒体或官方渠道发布过相关具体信息。因此,这一事件的真实性、细节和法律性质尚无法确认。以下从法律、道德和社会角度进行分析,供您参考: 一、事件可能涉及的法律问题1. 重婚罪(若属实) 根据中国.............
  • 回答
    欧盟三国领导人乘坐火车前往基辅会晤泽连斯基,这一事件反映了欧洲国家对乌克兰的持续支持,以及俄乌冲突背景下国际政治的复杂动态。以下从多个角度详细分析这一事件及其背后的局势: 一、欧盟三国领导人赴基辅的背景与意义1. 象征性行动 欧盟三国(如波兰、爱沙尼亚、捷克等)领导人乘坐火车前往基辅,是近年.............
  • 回答
    中国海关查获5840块造假显卡、讯景中国官网临时关闭以及天猫旗舰店下架产品事件,涉及知识产权保护、市场秩序维护及企业合规问题,具有多重社会和行业影响。以下从多个角度详细分析: 一、事件背景与核心问题1. 海关查获假显卡 查获数量:5840块显卡,可能涉及假冒品牌(如讯景、华硕、技嘉等),或.............
  • 回答
    尹锡悦当选韩国总统是2022年韩国大选的重要结果,这一事件对韩国政治、经济、社会及国际关系产生了深远影响。以下从多个维度详细分析其背景、意义及可能的未来走向: 一、选举背景与过程1. 政治格局 在野党联盟胜利:2022年韩国大选中,由自由民主党和共同民主党组成的“在野党联盟”以压倒性优势击.............
  • 回答
    关于加州华裔女博士因持刀袭警被警方击毙的事件,这一案件涉及法律程序、执法权、种族问题等复杂背景,需要从多个角度进行分析。以下从法律、执法程序、社会背景、争议焦点等方面展开详细讨论: 1. 事件背景与法律依据根据公开报道,事件发生在2022年11月,加州一名华裔女性(身份为博士)因涉嫌持刀袭击警察,在.............
  • 回答
    基辛格的《论中国》(On China)是美国前国务卿亨利·基辛格(Henry Kissinger)于1972年访华期间撰写的一部重要著作,也是中美关系史上的关键文献之一。这本书不仅记录了基辛格作为“中间人”在中美关系正常化过程中的角色,还系统阐述了他对中国的政治、文化、历史和外交政策的深刻观察。以下.............
  • 回答
    印度承认误射导弹落入巴基斯坦境内一事,是印巴两国关系紧张的一个缩影,也反映了地区安全局势的复杂性。以下从多个维度详细分析这一事件的背景、影响及可能的后续发展: 一、事件背景与经过1. 时间与地点 事件发生在2023年6月,印度在进行军事演习时,一枚“阿金科特”(Agni5)远程导弹因技术故障.............
  • 回答
    2022年2月24日,俄罗斯在乌克兰发动全面军事行动后,联合国大会通过了一项决议草案,要求俄罗斯立即从乌克兰撤军、停止军事行动,并尊重乌克兰的主权和领土完整。这一决议的通过过程和结果引发了国际社会的广泛关注,以下是详细分析: 一、事件背景1. 俄罗斯的军事行动 2022年2月24日,俄罗斯在.............
  • 回答
    乌克兰副总理呼吁游戏厂商暂停在俄罗斯的业务,并点名腾讯,这一事件反映了俄乌冲突背景下,国际社会通过经济手段施压俄罗斯的策略。以下从背景、动机、可能影响及各方反应等方面进行详细分析: 一、事件背景与动机1. 俄乌冲突的经济压力 俄乌冲突已持续近两年,俄罗斯经济受到严重冲击,包括制裁、能源价格飙.............
  • 回答
    瓦列里·捷杰耶夫(Valery Gergiev)作为俄罗斯著名的指挥家和马林斯基剧院的音乐总监,其被西方音乐界抵制的事件,涉及复杂的国际政治、文化立场与艺术伦理问题。以下从多个角度详细分析这一事件的背景、原因、影响及争议: 一、事件背景:捷杰耶夫与俄罗斯的政治关联1. 职业背景 捷杰耶夫自1.............
  • 回答
    全国政协委员建议推广DNA数据库以实现有效打拐的建议,涉及技术、法律、伦理、实际操作等多方面因素,其可行性需从多个维度综合分析。以下从技术、法律、伦理、操作、风险等角度详细探讨: 一、技术可行性分析1. DNA数据库的原理 DNA数据库通过存储犯罪现场或失踪人员的DNA样本,利用DNA指纹技.............
  • 回答
    关于俄罗斯外交部发布的所谓“乌克兰政府对顿巴斯的暴行”视频,这一问题涉及俄乌冲突的复杂背景、信息战的特征以及国际社会的争议。以下从多个角度进行详细分析: 1. 背景与视频的来源 冲突背景: 顿巴斯地区(包括顿涅茨克和赫尔松两州)自2014年以来一直是俄乌矛盾的焦点。2022年2月,俄罗斯以“保.............
  • 回答
    关于抖音用户“李赛高(佤邦)”被封号的事件,目前公开信息较为有限,但可以从以下几个角度进行分析和探讨: 一、事件背景与可能原因1. 账号主体身份 “李赛高”可能是某位公众人物或网红,而“佤邦”可能与其身份或背景有关。佤邦是缅甸的一个少数民族地区,历史上曾与中国存在复杂关系,涉及民族、历史、政.............
  • 回答
    沈逸是中国人民大学国际关系学院教授,长期从事国际政治研究,尤其关注地缘政治与大国关系。他在俄乌冲突中的分析曾引发争议,但需注意的是,学术观点的准确性往往取决于信息来源、分析框架和时代背景。以下从多个角度分析其判断可能存在的问题及原因: 一、沈逸的分析背景与观点1. 2014年乌克兰危机前的预测 .............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有