百科问答小站 logo
百科问答小站 font logo



CVPR 2019 有哪些值得关注的亮点? 第1页

  

user avatar   wen-yong-liang 网友的相关建议: 
      

我可以说一下我看了哪些CVPR的论文,作为对自己这段时间阅读的总结。

1.Few-shot Adaptive Faster R-CNN

最近我也在寻找目标检测的其他方向,一般可以继续挖掘的方向是从目标检测的数据入手,困难样本的目标检测,如检测物体被遮挡,极小人脸检测,亦或者数据样本不足的算法。这里笔者介绍一篇小样本(few-shot)数据方向下的域适应(Domain Adaptation)的目标检测算法,这篇新加坡国立大学&华为诺亚方舟实验室的paper《Few-shot Adaptive Faster R-CNN》。

创新点:

(1). 论文分为两个level的域迁移,图像级别的域迁移和实例级别的域迁移。

(2). 为了解决小样本问题,使用了成对训练,类似笛卡尔积的操作,把目标域物体与源域物体结对训练。源域对 和源域-目标域对 判别器判断样本来源,生成器是特征提取器器目标是混淆判别器

(3). 最后加了个模型正则化,是模型更加鲁棒。

详细的可以看我的论文解读:

最近域适应和小样本方向都是可以继续研究的方向,我觉得这篇给的思路是不错的,但是这样非对偶式的组队解决了问题不够优雅。

2. Libra R-CNN

不需增加计算成本的条件下,居然能涨两个点mAP。除了Libra R-CNN(天秤座 RCNN),我还记得陈恺大佬他们港中文的实验室今年还中了一篇CVPR2019《Region Proposal by Guided Anchoring》,这篇看题目就知道是指导anchor的形状涨分,也是十分不错的。

​ 这两篇改进的源码都会在github上放出,作者表示还在完善中,地址是:github.com/open-mmlab/m

这个mmdetection简直是业界良心,听说十分好用,很多打比赛的都用这个框架。

纵观目前主流的目标检测算法,无论SSD、Faster R-CNN、Retinanet这些的detector的设计其实都是三个步骤:

  • 选择候选区域
  • 提取特征
  • 在muti-task loss下收敛

往往存在着三种层次的不平衡:

  • sample level
  • feature level
  • objective level

这就对应了三个问题:

  • 采样的候选区域是否具有代表性?
  • 提取出的不同level的特征是怎么才能真正地充分利用?
  • 目前设计的损失函数能不能引导目标检测器更好地收敛?

对应了三种解决方法:

  • IoU-balanced Sampling
  • Balanced Feature Pyramid
  • Balanced L1 Loss

这篇是我最近看来文章结构最清晰明了,分析到位的paper了,虽然以前也有很多分析目标检测的缺陷的文章,但是Libra-RCNN这篇分析是到位的,都给出了对应的解决方案。

3. A Simple Pooling-Based Design for Real-Time Salient Object Detection

本文是基于U型结构的特征网络研究池化对显著性检测的改进,具体步骤是引入了两个模块GGM(Global Guidance Module,全局引导模块)FAM(Feature Aggregation Module,特征整合模块),进而锐化显著物体细节,并且检测速度能够达到30FPS。因为这两个模块都是基于池化做的改进所以作者称其为PoolNet,并且放出了源码:github.com/backseason/P

创新点:

提出了两个模块:

  • GGM(Global Guidance Module,全局引导模块)
  • FAM(Feature Aggregation Module,特征整合模块)

FAM有以下两个优点:

  • 帮助模型降低上采样(upsample)导致的混叠效应(aliasing)
  • 从不同的多角度的尺度上纵观显著物体的空间位置,放大整个网络的感受野

说实话,我觉得这篇写得有点乱,我看了很久才知道怎么做的,尤其这个全局引导模块有点突兀。但是源码给出来了,大家可以去试用一下。

4. BASNet: Boundary-Aware Salient Object Detection

BASNet该方法主要的亮点在于引入结构相似性损失,最后三种损失(BCE损失,SSIM损失,IoU损失)相加,同时考虑,着眼于解决边界模糊问题,更注重边界质量,因为在结构相似性损失下,边界的损失会比显著性物体内部或其他地方赋予的权重更高。文章也尝试从三种层次上解答为什么设计三个损失,结构还算清晰。但是个人认为主要还是结构相似性损失的引入比较有价值。

创新点:

主要创新点在loss的设计上,使用了交叉熵、结构相似性损失、IoU损失这三种的混合损失,使网络更关注于边界质量,而不是像以前那样只关注区域精度。

源码:github.com/NathanUA/BAS

结构相似性损失:

这三行热力图变化,颜色越红代表损失对待该像素点的权重越大,也就是越重视该点,越蓝表示权重对待越小。从第一行的BCE损失变化可以看出,BCE损失是pixel-wise的,它是一个非常公平的损失函数,对待前景和背景一开始区别不大,训练过程中几乎达到了任何像素点都一视同仁

而第二行关于结构相似性损失的变化,可以看到无论​和​怎么变化都是对显著物体边界赋予较高的权重


user avatar   zhou-bo-lei 网友的相关建议: 
      

共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅,这就是共产主义对印度的影响。

印度及印占藏南、印占克什米尔的人类发展指数


另外,南亚人是非常非常喜欢取经名的。这也是一个地域特色了。




  

相关话题

  科学家做过哪些匪夷所思的实验? 
  如何看待科技部向全社会征集颠覆性技术研发方向?你有什么脑洞呢? 
  有哪些好的科研习惯? 
  cygwin和mingw选哪个? 
  中国研究所的科研人员,知识分子是否待遇过低? 
  实体提取任务中使用BERT-CRF时,CRF根据数据统计可以得到转移概率,为啥还要训练呢? 
  看着同一个组的同学都发了很好的文章,自己博士快毕业了只发了一篇文章,该怎么调整心态? 
  如何理解 natural gradient descent? 
  计算机视觉和自然语言处理,哪个更具有发展前景呢,还是各有千秋呢? 
  CVPR2022 有什么值得关注的论文 ? 

前一个讨论
2019 年诺贝尔化学奖获得者 John Goodenough 是个什么样的人?
下一个讨论
深度学习领域有哪些瓶颈?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利