如何评价深度学习之父Hinton发布的Capsule论文？第1页

zhangshujia 网友的相关建议:

Hinton旷日持久的批判CNN缺陷，其中一条理由就是模型不能建立4-6维关联，于是他就推动自己原研的模型 —— Capsule其实是站在graph的视角看待全局，更像是把增加的第3维定义了，2D+1矢量化，第3维是前两维的微分关系，由此降低了2维的运算量；但问题同样是，维度愈多，冯氏2维结构的Mem访问时序等处理就会愈加繁琐，双通道不够用，I/O设计更复杂，功耗愈难控制；最终受限于冯氏硬件效率，硬件就需要大改（比如：存储都是1:1对应的，寻址方式要变，维度越高，地址就算不过来了，靠加内存访问通道无效，那个也有先后顺序问题，快不起来；而当下的多通道，多冗余设计，能模拟到2.5D已然了不起，Mem时序复杂化就成为壁垒）—— 特别是twist这样的操作，一个3维矩阵模型，twist一下，算法公式看似减少了计算步骤，看似训练量或许少很多，实际却是加重了化简/降维的过程，硬件可能跑出极大的运算量，即使用GPU SIMD方法，也是要切片降维，一片一片算，算完再拼回去；3D模型非要降维到用2D以下的传统硬件去运算，性能自然瓶颈，因此硬件构造需要大改，特别是twist这样的操作 ... 那么问题来了，已知的内存是以点为单位的，那么SIMP做twist也快不起来；然而，数学上多一维数据线索确实更容易到Local optimal，但却未必是Global optimal；以及，线性的权重变成矢量的权重，就要加维度了，直接又把内存带宽顶上去了，在PIM出现以前，HBM是唯一选择了。所以，Hinton模型在传统2维硬件结构和性能前提下难以高效实现。未来的Spatial Computing需要全新的硬件机制，靠目前架构堆算力，训练量很大；Spatial计算的硬件瓶颈就在于每列数据之间的计算尺度差异很大，可以是整数型，可以是三角函数，可以是FP64双精度…，通用CPU/GPU的ALU不可能高效处理这样的运算的。因此诸如Capsule方法同样是要到未来阶段才更有指导意义。

最近《Nature》有一篇最新研究，通过CIS传感器表面的感光突触来部署神经网络，倘若CIS在视觉神经单元上植入算法(analog也行)和高维interconnect，不妨是个解决方案（一帧就是一个graph，也可以说成就是那些光电突触在一个单位时隙的算力）。

多说一句，仿生是靠后端大脑的抽象化，目前ML做不到，这也是Hinton批判CNN的出发点，他的capsule更像是增加矢量化元素，训练量小许多，但距离人脑还远着。有关人脑仿生的Spatial运算就需要全新的硬件机制，靠目前架构堆算力，训练量太大。全局抽象化就看未来2-3年里Spatial方向上有什么突破了。（国内高校没看到类似论文，先聚焦自研的FP32 ALU出成果吧）

dou-zhi-hao-36 网友的相关建议:

不匿名了，我写两句吧。

做这个方向前后有一年了。

第一篇paper，17年的nips基本没啥问题。

从18年的ICLR那篇EM开始，基本上就彻底炸了。

EM那篇我到底没在GitHub上面找到合适代码。

基本上有的代码里面写了四个for循环（都懂啥意思）

就一个微软开发的，还是用tensorflow 1写的，真就是爷爷级别的了。

导致了不可以多GPU使用，运算速度十分感人。

属实无奈，幸亏19年首尔大学的nips， SR-routing路由的时候，自己复现了EM代码，放上去。终于出现了第一个版本的EM-routing。

结果就是，这个版本的routing，按照hitton里面的五层结构，根本跑不起来，效果和论文完全对不上。没有办法，19年的SR必须在比较时候和ResNet进行相互协作。

相同的还有19年nips的star-up的路由。到现在代码也不开源，和我复现的结果完全不一样。这个号称80k数据就能把，cifar-10跑到90几的神作，我是无法见到了。

同样道理，20年AAAI的论文VB-routing放上了代码。

怎么说呢？

这是他论文放的效果：

这是我跑的：

基本差了快12个点了。

如果你以为这就结束了，那你太天真了。

2020年的ICLR（老子不演了，2019年CVPR作假）。

这个deepcaps是一种新的结构，2019年的CVPR出的。论文写的是89.几（代码有开源，是能跑到85以上的。）

capsule他的核心部分，路由算法，运算极其复杂，导致了如果三层路由迭代一起，就会出现梯度问题。这篇论文在别的路由上面加了一层bottleneck，成功把别的弄崩溃了，自己的起飞了（deepcaps就是原有结构，他写70多，就相当于直接说这篇属于cheating）。

2021年的ICCV就更TM离谱

照着2020的就把数据拉上去了。关键你TM结构完全不一样，你用你的结构和人家的路由算法去比，好歹结构需要一样吧。（说实话，我看完这篇，心都凉了，说难听点，这篇ICCV的作者很可能前面几篇的基础问题都没读明白）。

总之这个领域四大特点：

代码开源的少

问问题的邮件基本不回

开源的代码基本跑不出他的效果

这个领域大佬基本除了2020的AAAI那大兄弟和hitton，基本都是发一篇就跑路，永远不回来了。

还有好多我就不一一说了，最后奉劝各位想进入这个领域的，快跑路吧。2017年和transform一起进的厂，到现在区别有多大？

当然，也可能是我太菜，对这个领域完全理解失败。希望有大佬赐教交流，不胜感激。

如何评价深度学习之父Hinton发布的Capsule论文？的其他答案点击这里

前一个讨论

为什么中国的外汇储备长期稳定在了 30000 亿美元左右？

下一个讨论

如何看待《Nature》发布的新研究：摄像头是天生的神经网络，速度超越传统方法千倍?

如何评价深度学习之父Hinton发布的Capsule论文？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价深度学习之父Hinton发布的Capsule论文？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价深度学习之父Hinton发布的Capsule论文？第1页