百科问答小站 logo
百科问答小站 font logo



如何评价深度学习之父Hinton发布的Capsule论文? 第1页

  

user avatar   zhangshujia 网友的相关建议: 
      

Hinton旷日持久的批判CNN缺陷,其中一条理由就是模型不能建立4-6维关联,于是他就推动自己原研的模型 —— Capsule其实是站在graph的视角看待全局,更像是把增加的第3维定义了,2D+1矢量化,第3维是前两维的微分关系,由此降低了2维的运算量;但问题同样是,维度愈多,冯氏2维结构的Mem访问时序等处理就会愈加繁琐,双通道不够用,I/O设计更复杂,功耗愈难控制;最终受限于冯氏硬件效率,硬件就需要大改(比如:存储都是1:1对应的,寻址方式要变,维度越高,地址就算不过来了,靠加内存访问通道无效,那个也有先后顺序问题,快不起来;而当下的多通道,多冗余设计,能模拟到2.5D已然了不起,Mem时序复杂化就成为壁垒)—— 特别是twist这样的操作,一个3维矩阵模型,twist一下,算法公式看似减少了计算步骤,看似训练量或许少很多,实际却是加重了化简/降维的过程,硬件可能跑出极大的运算量,即使用GPU SIMD方法,也是要切片降维,一片一片算,算完再拼回去;3D模型非要降维到用2D以下的传统硬件去运算,性能自然瓶颈,因此硬件构造需要大改,特别是twist这样的操作 ... 那么问题来了,已知的内存是以点为单位的,那么SIMP做twist也快不起来;然而,数学上多一维数据线索确实更容易到Local optimal,但却未必是Global optimal;以及,线性的权重变成矢量的权重,就要加维度了,直接又把内存带宽顶上去了,在PIM出现以前,HBM是唯一选择了。所以,Hinton模型在传统2维硬件结构和性能前提下难以高效实现。未来的Spatial Computing需要全新的硬件机制,靠目前架构堆算力,训练量很大;Spatial计算的硬件瓶颈就在于每列数据之间的计算尺度差异很大,可以是整数型,可以是三角函数,可以是FP64双精度…,通用CPU/GPU的ALU不可能高效处理这样的运算的。因此诸如Capsule方法同样是要到未来阶段才更有指导意义。

最近《Nature》有一篇最新研究,通过CIS传感器表面的感光突触来部署神经网络,倘若CIS在视觉神经单元上植入算法(analog也行)和高维interconnect,不妨是个解决方案(一帧就是一个graph,也可以说成就是那些光电突触在一个单位时隙的算力)。

多说一句,仿生是靠后端大脑的抽象化,目前ML做不到,这也是Hinton批判CNN的出发点,他的capsule更像是增加矢量化元素,训练量小许多,但距离人脑还远着。有关人脑仿生的Spatial运算就需要全新的硬件机制,靠目前架构堆算力,训练量太大。全局抽象化就看未来2-3年里Spatial方向上有什么突破了。(国内高校没看到类似论文,先聚焦自研的FP32 ALU出成果吧)


user avatar   dou-zhi-hao-36 网友的相关建议: 
      

不匿名了,我写两句吧。

做这个方向前后有一年了。

第一篇paper,17年的nips基本没啥问题。

从18年的ICLR那篇EM开始,基本上就彻底炸了。

EM那篇我到底没在GitHub上面找到合适代码。

基本上有的代码里面写了四个for循环(都懂啥意思)

就一个微软开发的,还是用tensorflow 1写的,真就是爷爷级别的了。

导致了不可以多GPU使用,运算速度十分感人。

属实无奈,幸亏19年首尔大学的nips, SR-routing路由的时候,自己复现了EM代码,放上去。终于出现了第一个版本的EM-routing。

结果就是,这个版本的routing,按照hitton里面的五层结构,根本跑不起来,效果和论文完全对不上。没有办法,19年的SR必须在比较时候和ResNet进行相互协作。

相同的还有19年nips的star-up的路由。到现在代码也不开源,和我复现的结果完全不一样。这个号称80k数据就能把,cifar-10跑到90几的神作,我是无法见到了。

同样道理,20年AAAI的论文VB-routing放上了代码。

怎么说呢?

这是他论文放的效果:

这是我跑的:

基本差了快12个点了。

如果你以为这就结束了,那你太天真了。

2020年的ICLR(老子不演了,2019年CVPR作假)。

这个deepcaps是一种新的结构,2019年的CVPR出的。论文写的是89.几(代码有开源,是能跑到85以上的。)

capsule他的核心部分,路由算法,运算极其复杂,导致了如果三层路由迭代一起,就会出现梯度问题。这篇论文在别的路由上面加了一层bottleneck,成功把别的弄崩溃了,自己的起飞了(deepcaps就是原有结构,他写70多,就相当于直接说这篇属于cheating)。

2021年的ICCV就更TM离谱

照着2020的就把数据拉上去了。关键你TM结构完全不一样,你用你的结构和人家的路由算法去比,好歹结构需要一样吧。(说实话,我看完这篇,心都凉了,说难听点,这篇ICCV的作者很可能前面几篇的基础问题都没读明白)。

总之这个领域四大特点:

代码开源的少

问问题的邮件基本不回

开源的代码基本跑不出他的效果

这个领域大佬基本除了2020的AAAI那大兄弟和hitton,基本都是发一篇就跑路,永远不回来了。


还有好多我就不一一说了,最后奉劝各位想进入这个领域的,快跑路吧。2017年和transform一起进的厂,到现在区别有多大?

当然,也可能是我太菜,对这个领域完全理解失败。希望有大佬赐教交流,不胜感激。




  

相关话题

  如何看待语音合成等 AI 算法、无人机等被列入限制出口技术目录? 
  IOI国际金牌是什么水平,在此之上更高的水平是什么样的? 
  多因子模型是否真的可以带来阿尔法(alpha)? 
  人工智能、模式识别领域最终是否会被一种本质、通用的算法主导? 
  如何看待SQuAD比赛中,阿里、MSRA机器阅读理解准确率超越人类? 
  中国和美国谁能成人工智能领域的领军者? 
  如何看待 2014 年以来计算机视觉(Computer Vision)界创业潮? 
  硕士方向,选择迁移学习还是自然语言处理? 
  如何评价 SDCC (Small Device C Compiler) 编译器套件? 
  人工智能的发展最令人不安的是什么? 

前一个讨论
为什么中国的外汇储备长期稳定在了 30000 亿美元左右?
下一个讨论
如何看待《Nature》发布的新研究:摄像头是天生的神经网络,速度超越传统方法千倍?





© 2025-01-22 - tinynew.org. All Rights Reserved.
© 2025-01-22 - tinynew.org. 保留所有权利