如果说任务是视频分类的话,大部分已有工作集中于基于图像模型的temporal modelling,这类方法包括
至于在图像模型往视频模型迁移过程中,视频与图像域不同的问题,目前还没有看到有文章做相关的尝试。现有方法似乎都assume finetune的过程中可以解决域差异的问题。其实仔细想了一下,问题中提到的"如imagenet训练的模型,图片中的物体往往在正中且比较大,而视频中的物体往往不在正中且比较小",其实不仅仅在图像模型到视频模型的应用中存在,其他的一些任务包括object detection / tracking / semantic segmentation似乎都有类似的问题,解决方案好像都是简单暴力的finetune。也许这就够了?
不知道霍叔做什么方向,生成领域有两个经典的工作pix2pixHD和vid2vid,后者通过引入光流将前者应用到了视频生成上。high level应该也是这个思路。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有