百科问答小站 logo
百科问答小站 font logo



图片上训的模型,怎么迁移视频上呢? 第1页

  

user avatar   huang-ziyuan 网友的相关建议: 
      

如果说任务是视频分类的话,大部分已有工作集中于基于图像模型的temporal modelling,这类方法包括

  • Inflation
    代表作是I3D[1],这类方法将2D kernel weight通过复制的方式膨胀到3D来初始化3D kernel weight。虽然是比较早期的方法,但是它的核心idea还是在大部分现在的工作中可以看到。ViViT[2]中的tokenizer也对相似的初始化进行了探索,楼里的Uniformer也是通过inflate的方式将2D的conv kernel / attention膨胀到了3D。
  • Temporal Convolutions
    代表作是R(2+1)D[3], P3D[4]。这类方法在2D模型中的2D卷积基础上增加了一个时间维度上的1D卷积,或者也可以看做将3D卷积拆解成了2D和1D卷积的组合。一方面是增加了网络的non-linearity,另一方面也减少了3D卷积的计算量。最近在video transformer上的一些文章也可以看到类似的思路,包括TimeSformer[5],ViViT[2]
    尽管这种拆解大大降低了temporal modelling的计算量,1D卷积仍然会给原本的2D网络带来不可忽略的额外计算开销,因此我们最近接收的一篇ICLR就探索了一种直接赋予2D卷积temporal modelling能力的操作TAdaConv[6],代码和模型都已经release了,也欢迎关注。
  • Shifting
    这类方法的代表作是TSM[7],TSM将2D卷积的特征在temporal维度上进行平移来达到不同帧之间的信息交换。在此基础上,TIN[8]自适应地决定temporal维度的平移量。

至于在图像模型往视频模型迁移过程中,视频与图像域不同的问题,目前还没有看到有文章做相关的尝试。现有方法似乎都assume finetune的过程中可以解决域差异的问题。其实仔细想了一下,问题中提到的"如imagenet训练的模型,图片中的物体往往在正中且比较大,而视频中的物体往往不在正中且比较小",其实不仅仅在图像模型到视频模型的应用中存在,其他的一些任务包括object detection / tracking / semantic segmentation似乎都有类似的问题,解决方案好像都是简单暴力的finetune。也许这就够了?

参考

  1. ^Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset https://openaccess.thecvf.com/content_cvpr_2017/papers/Carreira_Quo_Vadis_Action_CVPR_2017_paper.pdf
  2. ^abVivit: A video vision transformer http://openaccess.thecvf.com/content/ICCV2021/papers/Arnab_ViViT_A_Video_Vision_Transformer_ICCV_2021_paper.pdf
  3. ^A closer look at spatiotemporal convolutions for action recognition https://openaccess.thecvf.com/content_cvpr_2018/papers/Tran_A_Closer_Look_CVPR_2018_paper.pdf
  4. ^Learning spatio-temporal representation with pseudo-3d residual networks https://openaccess.thecvf.com/content_ICCV_2017/papers/Qiu_Learning_Spatio-Temporal_Representation_ICCV_2017_paper.pdf
  5. ^Is space-time attention all you need for video understanding http://proceedings.mlr.press/v139/bertasius21a/bertasius21a-supp.pdf
  6. ^TAda! Temporally-Adaptive Convolutions for Video Understanding https://arxiv.org/pdf/2110.06178.pdf
  7. ^Tsm: Temporal shift module for efficient video understanding http://openaccess.thecvf.com/content_ICCV_2019/papers/Lin_TSM_Temporal_Shift_Module_for_Efficient_Video_Understanding_ICCV_2019_paper.pdf
  8. ^Temporal interlacing network https://ojs.aaai.org/index.php/AAAI/article/view/6872/6726

user avatar   mark24601 网友的相关建议: 
      

不知道霍叔做什么方向,生成领域有两个经典的工作pix2pixHD和vid2vid,后者通过引入光流将前者应用到了视频生成上。high level应该也是这个思路。


user avatar   li-kun-chang-98 网友的相关建议: 
      

霍叔可以关注一下我们的工作UniFormer,开源了比较详细的transfer代码和config


user avatar   fred-58 网友的相关建议: 
      
学校说让我休学或者退学 原因是觉得领证结婚的学生不好管理 除非我去办离婚证 才能让我正常上学

题主说“学校说“,没具体写明是谁说,也没具体写明是哪个部门说,有可能就是某个办事的人说的。建议先沟通,至少要把学校里有话语权的人和部门都沟通到。

我举个例子:有个学生大二了想退学生会,学生会负责办理的人说:退会需要写一份不少于8000字的申请书(或者是其他什么刁难的条件),否则不允许退会。这个学生就觉得退会太难办了,每天发愁。

另一个同学也想退会,也遇到了同样的问题。但他没有发愁,反而觉得通过办这件事可以锻炼自己解决问题的能力。咱不惹事情,但事情找到自己头上了,躲就不是办法了。他挺高兴,有这么一个事情需要自己去办。如果连这点小事都办不了,以后走向社会遇到的难办的事情岂不更多嘛。于是他和和气气地离开了学生会办事人员那里,然后去找学生会会长沟通。

学生会会长出于维护自己手下办事人员权威的角度考虑,也让他按要求写8千字。

他和和气气地离开,去找辅导员了。路上他想着:辅导员办不成就找系里、院里……系里院里还办不成就找校方负责部门,比如校团委。再办不成就找负责部门的负责人、再办不成就去找学校纪委、党委,再办不成就找书记、校长……

他就像完成一份论文一样做着前期谋划,结果还没找到系里,辅导员就帮他协调着退会了,只写了几百字的退会申请。

回到题主的问题里来,学校里从下到上这多人和部门都算是“校方”吗?题主说“学校”让她休学,到底是学校里一个小办事员说的,还是从下到上都这么说?是不是底层办事人员懒政搞一刀切?是不是校方中层、高层都根本不知道此事?这些都要弄清楚啊。

题主可以逐层和校方沟通,估计沟通到某一层次就解决了。如果真的一直沟通到顶层的校长和书记也没搞定的话,那么才能真正视为:“学校让你休学”。

不要害怕和学校高层沟通,都让你休学了,没啥害羞和害怕的,对你来说这么大的事件,就算每天在校长办公室门口堵他,也得争取到和校长沟通的机会。也许这在校长眼里就不算个事儿,他给下面打个电话,你的烦恼就全都消失了。记得和各层次人员沟通时都要注意保留证据比如录音等。

沟通时要观察对方是什么样的人,如果是忠厚老实的,你就多多卖惨卖可怜;如果一看就是官僚气十足的话,可以用一点小手段,比如问他:“您真的没办法了吗?唉……咦?旁边办公室是不是领导的屋?我去找领导是不是能帮我?”如果一看对方就是欺软怕硬的,可以问他:“我实在没办法了,您说我可不可以求助媒体和记者?您再给帮我想个办法吧,对了,您说我打市长热线能解决吗?"。简单来说,小手段就是以低姿态让对方无法立刻翻脸的前提下表达出威胁对方的话语。当然,对于大学生来说,社会经验不足,也许无法识别出对方是什么性格的人,那么就按提前做的对话草稿,把想说的话统统说了,姿态要低,毕竟你是学生,对方代表学校。态度要好,不要发火,要把困难看成学习上的一道难题来慢慢解。

一般来说校方不会和你一个学生死磕到底的,此时学校就会让步。为啥会这么说,因为穿鞋的都怕光脚的,你都要被退学了,你怕啥,学校才怕你这种不稳定因素呢。(再送题主一个小手段吧,哭!女性哭起来很有杀伤力的,在校领导办公室哭!声音呜咽凄惨,越大越好,越有别人来找领导签字时越哭,门外越有人等的时候越要痛哭着离开,让大家四目、不,六目、八目相对……然后平静一下,抽冷子再去领导屋继续谈。让女生哭着离开办公室,对校领导的风评是有损的,很容易传闲话,校领导坐不住的。啥?校长是女的?那书记呢?不可能班子成员都是女的。)

如果学校还是不让步(就算校长犯昏,别人也不劝他?学校法务干啥吃的?办公室主任干啥吃的?他们早都给领导点明后果了。),那就真的要在各大网络平台发帖了。帖录音、帖录音整理的文字……帖子一定不要虚构和夸张,说事实说诉求就行了。接下来你自己都不用管,就会有政府负责网络舆情的部门联系学校的,你还担心学校继续不让步吗?

如果学校铁了心跟你死磕(实在想不出学校那么多管理人员为啥脑子集体发昏),那就法院诉讼啦,肯定能赢的。不过我想只要你发挥主动性,积极去解决,是走不到到这最后一步的,早早就在学校内部的时候就搞定了。


user avatar   pang-zi-qi-40 网友的相关建议: 
      
学校说让我休学或者退学 原因是觉得领证结婚的学生不好管理 除非我去办离婚证 才能让我正常上学

题主说“学校说“,没具体写明是谁说,也没具体写明是哪个部门说,有可能就是某个办事的人说的。建议先沟通,至少要把学校里有话语权的人和部门都沟通到。

我举个例子:有个学生大二了想退学生会,学生会负责办理的人说:退会需要写一份不少于8000字的申请书(或者是其他什么刁难的条件),否则不允许退会。这个学生就觉得退会太难办了,每天发愁。

另一个同学也想退会,也遇到了同样的问题。但他没有发愁,反而觉得通过办这件事可以锻炼自己解决问题的能力。咱不惹事情,但事情找到自己头上了,躲就不是办法了。他挺高兴,有这么一个事情需要自己去办。如果连这点小事都办不了,以后走向社会遇到的难办的事情岂不更多嘛。于是他和和气气地离开了学生会办事人员那里,然后去找学生会会长沟通。

学生会会长出于维护自己手下办事人员权威的角度考虑,也让他按要求写8千字。

他和和气气地离开,去找辅导员了。路上他想着:辅导员办不成就找系里、院里……系里院里还办不成就找校方负责部门,比如校团委。再办不成就找负责部门的负责人、再办不成就去找学校纪委、党委,再办不成就找书记、校长……

他就像完成一份论文一样做着前期谋划,结果还没找到系里,辅导员就帮他协调着退会了,只写了几百字的退会申请。

回到题主的问题里来,学校里从下到上这多人和部门都算是“校方”吗?题主说“学校”让她休学,到底是学校里一个小办事员说的,还是从下到上都这么说?是不是底层办事人员懒政搞一刀切?是不是校方中层、高层都根本不知道此事?这些都要弄清楚啊。

题主可以逐层和校方沟通,估计沟通到某一层次就解决了。如果真的一直沟通到顶层的校长和书记也没搞定的话,那么才能真正视为:“学校让你休学”。

不要害怕和学校高层沟通,都让你休学了,没啥害羞和害怕的,对你来说这么大的事件,就算每天在校长办公室门口堵他,也得争取到和校长沟通的机会。也许这在校长眼里就不算个事儿,他给下面打个电话,你的烦恼就全都消失了。记得和各层次人员沟通时都要注意保留证据比如录音等。

沟通时要观察对方是什么样的人,如果是忠厚老实的,你就多多卖惨卖可怜;如果一看就是官僚气十足的话,可以用一点小手段,比如问他:“您真的没办法了吗?唉……咦?旁边办公室是不是领导的屋?我去找领导是不是能帮我?”如果一看对方就是欺软怕硬的,可以问他:“我实在没办法了,您说我可不可以求助媒体和记者?您再给帮我想个办法吧,对了,您说我打市长热线能解决吗?"。简单来说,小手段就是以低姿态让对方无法立刻翻脸的前提下表达出威胁对方的话语。当然,对于大学生来说,社会经验不足,也许无法识别出对方是什么性格的人,那么就按提前做的对话草稿,把想说的话统统说了,姿态要低,毕竟你是学生,对方代表学校。态度要好,不要发火,要把困难看成学习上的一道难题来慢慢解。

一般来说校方不会和你一个学生死磕到底的,此时学校就会让步。为啥会这么说,因为穿鞋的都怕光脚的,你都要被退学了,你怕啥,学校才怕你这种不稳定因素呢。(再送题主一个小手段吧,哭!女性哭起来很有杀伤力的,在校领导办公室哭!声音呜咽凄惨,越大越好,越有别人来找领导签字时越哭,门外越有人等的时候越要痛哭着离开,让大家四目、不,六目、八目相对……然后平静一下,抽冷子再去领导屋继续谈。让女生哭着离开办公室,对校领导的风评是有损的,很容易传闲话,校领导坐不住的。啥?校长是女的?那书记呢?不可能班子成员都是女的。)

如果学校还是不让步(就算校长犯昏,别人也不劝他?学校法务干啥吃的?办公室主任干啥吃的?他们早都给领导点明后果了。),那就真的要在各大网络平台发帖了。帖录音、帖录音整理的文字……帖子一定不要虚构和夸张,说事实说诉求就行了。接下来你自己都不用管,就会有政府负责网络舆情的部门联系学校的,你还担心学校继续不让步吗?

如果学校铁了心跟你死磕(实在想不出学校那么多管理人员为啥脑子集体发昏),那就法院诉讼啦,肯定能赢的。不过我想只要你发挥主动性,积极去解决,是走不到到这最后一步的,早早就在学校内部的时候就搞定了。




  

相关话题

  人工智能的水平较低是因为数据库不足和运算处理速度不够吗? 
  无人驾驶运营维护,自动驾驶运营维护,无人驾驶科技公司落地,逐渐走向现实,落地后的运营维护怎么办? 
  脑机接口离实际应用还有多远?未来能否帮助障碍人士恢复生活能力? 
  如何看待阿里达摩院研发的新冠肺炎 CT 影像 AI 诊断技术,平均识别不到 20 秒准确率达 96%? 
  行人轨迹预测有哪些有效的方法和普遍的base方法?或者public dataset? 
  如何评价MSRA视觉组最新对spatial attention mechanism分析论文? 
  如果我能像机器人一样不停地发布需要审核的内容问题,理论上是不是会导致知乎破产? 
  请问下大家训练 SimCSE 时, loss 有没有这样的情况? 
  神经网络模型压缩好就业吗? 
  如何评价谷歌推出1.6万亿参数超级语言模型Switch Transformer? 

前一个讨论
我老公45岁程序员被优化了,最近给我说想去开货拉拉赚钱,我不准,要离婚吗?
下一个讨论
如何评价剑桥,腾讯, DeepMind以及港大团队新作 SimCTG ?





© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利