百科问答小站 logo
百科问答小站 font logo



如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2? 第1页

  

user avatar   bcheng21 网友的相关建议: 
      

一周前就听说Jifeng组做出了Deformable ConvNet V2(DCNV2),今天Jifeng告诉我paper已经挂ArXiv上之后果断放下所有事把这篇paper好好读了读。感觉这个工作特别solid,果然没有让人失望。下面简单谈谈个人对这篇paper的理解,可能有不对的地方请大家多多指点!

DCNV2首先用了更好的visualization来更深入的理解DCNV1为什么work以及还存在什么缺陷,发现存在的问题就是因为offset不可控导致引入了过多的context,而这些context可能是有害的([1]和[2]中也说明了这些context可能是有害的)。

解决方法也很简单粗暴:

  1. 增加更多的Deformable Convolution
  2. 让Deformable Conv不仅能学习offset,还能学习每个采样点的权重(modulation)
  3. 模拟R-CNN的feature(knowledge distillation)

(1) 就不用说了,在DCNV1中只有ResNet的Conv5 stage中有Deformable Conv,在DCNV2中把Conv3-Conv5的3x3 convolution都换成了Deformable Conv

(2) 在DCNV1里,Deformable Conv只学习offset:

而在DCNV2中,加入了对每个采样点的权重:

其中 是学到打offset, 是学到的权重。这样的好处是增加了更大的自由度,对于某些不想要的采样点权重可以学成0。

(3) [1]中作者(好吧,其实作者是我)发现把R-CNN和Faster RCNN的classification score结合起来可以提升performance,说明R-CNN学到的focus在物体上的feature可以解决redundant context的问题。但是增加额外的R-CNN会使inference速度变慢很多。DCNV2里的解决方法是把R-CNN当做teacher network,让DCNV2的ROIPooling之后的feature去模拟R-CNN的feature。(图里画的很清楚了)

其中feature mimic的loss定义是: ,在end-to-end train的时候这个loss给了一个0.1的weight。

实验结果大家看paper就好了,在ResNet-50 backbone COCO上跟DCNV1比涨了5个点!这比目前大部分detection paper靠东拼西凑涨的那一两个点要强多了。我惊讶的是和DCNV1对比,在image classification上也有很大的提升。

说说自己的想法吧,DCNV2方法简单,结果好,分析充分,我觉得和近期各种detection paper比算是业界良心了。我觉得还有可以学习的一点就是context的问题。很多detection的paper都在引入context(大家都claim说小物体需要引入context来解决),其实我个人觉得有点在扯淡,物体小最直接的方法难道不是放大物体来解决吗?比如SNIP/SNIPER都是在“放大”物体。所以在context这个问题上我(详情见[1]和[2])跟Jifeng他们的看法是一样的,我们也许不需要那么多没用的context。作者都是熟人,我也不多吹了,反正我是准备去follow这个工作了哈哈。

最后说说DCN有一个小缺点,其实就是速度的问题。因为没有cudnn的加速,DCN完全是靠im2col实现的(从目前的MXNet版本来看是这样的),当batchsize大的时候我感觉速度会比有cudnn加速的3x3 conv慢。很好奇当batchsize大的时候(比如ImageNet)的training时间会慢多少。希望以后能和dilated convolution一样被加到cudnn里支持吧。

================================================================

发现好多人好像没有看过[1][2],放张network的图(宣传一下自己的工作),DCN V2的mimic R-CNN和DCR V1的结构类似,但是通过knowledge distillation很巧妙的在inference阶段把R-CNN给去掉了。

[1] Revisiting RCNN: On Awakening the Classification Power of Faster RCNN

[2] Decoupled Classification Refinement: Hard False Positive Suppression for Object Detection


user avatar   kong-tao-72 网友的相关建议: 
      

先下结论:电影想把Freddie塑造成一个有人性的神,却忘了真正的Freddie只是一个有神性的人

如果作为一部粉丝向的情怀片,《波》已经达到了满分,哪怕不谈对细节出色的把控,光是最后二十分钟的神级还原已经足够让所有的情怀在we are the champions中泪流满面

感受一下当时的直播:

Live Aid https://www.zhihu.com/video/1092941240030597120


Live Aid https://www.zhihu.com/video/1092941515751579648

但是作为一部传记片,《波》还是太流程化了,才华横溢的主角惊艳出场,遇到小人,遭遇挫折,众叛亲离,踢开小人,亲友重聚,完美收场。作为人物小传也算及格,但是对于Freddie这样的传奇人物的剖析还是不够大胆,想要表现其人性的一面,又不敢去探索Freddie其实也有自私功利的角落,想要表现其亦男亦女的魅力,却又只是浮于外表没有触碰到灵魂,以至于片子自始至终有种畏手畏脚的憋屈感。

不过不管受众是谁,《波西米亚狂想曲》至少是一部及格线以上的作品,再加上Queen的音乐加成,哪怕不至于血脉喷张,但让观众在电影院点点头抖抖腿还是绰绰有余了

看完电影之后,再看到波西米亚狂想曲的歌词,或许会有一些不一样的体会

Is this the real life

Is this just fantasy

Caught in a landslide. No escape from reality

Open your eyes.Look up to the skies and see

I'm just a poor boy, I need no sympathy

Because I'm easy come, easy go,A little high, little low,

Anyway the wind blows, doesn't really matter to me

freddie的生命像一场华丽的错觉,但他所留下来的,is not fantasy




  

相关话题

  Yoshua Bengio为什么能跟Hinton、LeCun相提并论?? 
  华为年薪百万的应届博士到底有多厉害? 
  计算成像(computational photography)方向的就业前景如何? 
  如何评价Facebook AI提出的ResMLP,对比Google的MLP-Mixer? 
  如果用机器学习的理论来理解人的行为,会有什么发现? 
  2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势? 
  简单解释一下sparse autoencoder, sparse coding和restricted boltzmann machine的关系? 
  如何评价CVPR2019程序主席Derek Hoiem的论点:计算机视觉只是记忆,不是智能? 
  如何评价FAIR提出的MaskFeat:一种适用图像和视频分类的自监督学习方法? 
  如何理解Inductive bias? 

前一个讨论
深度神经网络(DNN)是否模拟了人类大脑皮层结构?
下一个讨论
为什么现在国内各大高校仍选用谭浩强的《C 程序设计》为教材?





© 2024-06-26 - tinynew.org. All Rights Reserved.
© 2024-06-26 - tinynew.org. 保留所有权利