看到上面这么多大佬的回答,我也来补充一些自己的认识。
首先,从概念上来讲,视频目标检测要解决的问题是对于视频中每一帧目标的正确识别和定位。那么和其他领域如图像目标检测、目标跟踪有什么区别呢?
如Naiyan Wang 大佬所说,视频中多了时序上下文关系(Temporal Context)。充分利用好时序上下文关系,可以解决视频中连续帧之间的大量冗余的情况,提高检测速度;还可以提高检测质量,解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及奇异姿势等问题。
(图片来源于Flow-Guided Feature Aggregation for Video Object Detection)
2. 与目标跟踪的区别
目标跟踪通常可分为单目标跟踪和多目标跟踪两类,解决的任务和视频目标检测相同的点在于都需要对每帧图像中的目标精准定位,不同点在于目标跟踪不考虑目标的识别问题。
3. 视频目标检测进展情况
一直在follow MSRA的Jifeng Dai大佬(大佬主页)的工作。
代表性的文章有:
大佬的工作出发点很简洁。DFF(Deep Feature Flow)首先将检测任务分为特征提取任务 (ResNet101)和检测任务 (R-FCN)两部分,通过区分关键帧、非关键帧的方式,在关键帧上使用 提取特征得到特征图,在非关键帧上使用FlowNet网络估计光流,通过关键帧提取的特征做双线性warp的形式得到非关键帧的特征图。在两种方式得到的特征图后使用检测网络实现任务。
该工作的优势是利用了连续帧冗余信息减少了大量运算,检测速度很快。
FGFA(Flow Guided Feature Aggregation)出发点主要在于,提高特征质量,改善视频中存在的运动模糊,视频失焦等问题,其方法特点在于更好的融合前后帧的信息。借助于注意力模型的思想,计算当前帧与前后帧之间的每个空间位置余弦相似度作为自适应权重,使通过warp的特征图与当前帧越近的权重越大。
该工作由于对每帧都做了特征提取,计算开支很大,检测速度不高。优势是检测精度得到提升,ImageNet VID 任务冠军方案就使用了上述两种方法。
综上,当下视频目标检测研究相对于图像领域还不够火热。研究思路多是要么关注利用冗余信息提高检测速度,要么融合连续帧之间上下文信息提高检测质量。减少冗余,提高速度这方面工作不是很多。(也有可能文章看的还不够多,欢迎指正)而融合上下文信息可以考虑借助行为识别常用的3D卷积,RNN,注意力模型等方法。
知乎技术类问题首答,有任何问题欢迎指正。
ps:回答中所有图片均来自相关论文。