百科问答小站 logo
百科问答小站 font logo



视频中的目标检测与图像中的目标检测具体有什么区别? 第1页

  

user avatar   xuan-yuan-zi-chen-27 网友的相关建议: 
      

看到上面这么多大佬的回答,我也来补充一些自己的认识。

首先,从概念上来讲,视频目标检测要解决的问题是对于视频中每一帧目标的正确识别和定位。那么和其他领域如图像目标检测、目标跟踪有什么区别呢?

  1. 与图像目标检测的区别

如Naiyan Wang 大佬所说,视频中多了时序上下文关系(Temporal Context)。充分利用好时序上下文关系,可以解决视频中连续帧之间的大量冗余的情况,提高检测速度;还可以提高检测质量,解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及奇异姿势等问题。

(图片来源于Flow-Guided Feature Aggregation for Video Object Detection)

2. 与目标跟踪的区别

目标跟踪通常可分为单目标跟踪和多目标跟踪两类,解决的任务和视频目标检测相同的点在于都需要对每帧图像中的目标精准定位,不同点在于目标跟踪不考虑目标的识别问题。

3. 视频目标检测进展情况

  • 与光流结合的方法

一直在follow MSRA的Jifeng Dai大佬(大佬主页)的工作。

代表性的文章有:

大佬的工作出发点很简洁。DFF(Deep Feature Flow)首先将检测任务分为特征提取任务 (ResNet101)和检测任务 (R-FCN)两部分,通过区分关键帧、非关键帧的方式,在关键帧上使用 提取特征得到特征图,在非关键帧上使用FlowNet网络估计光流,通过关键帧提取的特征做双线性warp的形式得到非关键帧的特征图。在两种方式得到的特征图后使用检测网络实现任务。

该工作的优势是利用了连续帧冗余信息减少了大量运算,检测速度很快。

FGFA(Flow Guided Feature Aggregation)出发点主要在于,提高特征质量,改善视频中存在的运动模糊,视频失焦等问题,其方法特点在于更好的融合前后帧的信息。借助于注意力模型的思想,计算当前帧与前后帧之间的每个空间位置余弦相似度作为自适应权重,使通过warp的特征图与当前帧越近的权重越大。

该工作由于对每帧都做了特征提取,计算开支很大,检测速度不高。优势是检测精度得到提升,ImageNet VID 任务冠军方案就使用了上述两种方法。

  • 与目标跟踪结合的方法
  • 与RNN结合的方法
  • 其他融合方法
  • 非端到端方法

综上,当下视频目标检测研究相对于图像领域还不够火热。研究思路多是要么关注利用冗余信息提高检测速度,要么融合连续帧之间上下文信息提高检测质量。减少冗余,提高速度这方面工作不是很多。(也有可能文章看的还不够多,欢迎指正)而融合上下文信息可以考虑借助行为识别常用的3D卷积,RNN,注意力模型等方法。


知乎技术类问题首答,有任何问题欢迎指正。

ps:回答中所有图片均来自相关论文。




  

相关话题

  如何用python来统计MacPro的圆圈个数? 
  在拍照这件事情上,到底应不应该使用所谓的AI算法? 
  机器学习中如何识别图片中的手是手背还是手心? 
  为什么yolov5从零开始训练(不在ImageNet上预训练)能够达到如此高的性能? 
  视觉Transformer如何优雅地避开位置编码? 
  如何获取FFT序列中每个点的频率值? 
  深度学习图像处理什么时候用到GPU? 
  如何获取FFT序列中每个点的频率值? 
  高中生物,求教生物大神,请问这个光合作用图像中的面积都代表什么意思呢? 
  如何理解空洞卷积(dilated convolution)? 

前一个讨论
材料博士,西部211高校教职与半导体fab工程师哪个好?
下一个讨论
计算机科学与技术是什么专业是不是很杂很广泛很难学精?





© 2025-01-08 - tinynew.org. All Rights Reserved.
© 2025-01-08 - tinynew.org. 保留所有权利