百科问答小站 logo
百科问答小站 font logo



多模态方面,有哪些牛组值得我们follow他们的工作? 第1页

  

user avatar   huang-ziyuan 网友的相关建议: 
      

正好最近在做多模态相关的工作,在这里记录一下我关注的一些大组

Note:因为我的工作主要是和video understanding相关,所以更多关注的可能是一些会常做video related topic的组,如果有遗漏的也欢迎大家补充!也欢迎大家关注达摩院在刚刚放榜的ICLR 2022上关于视频理解的最新工作,代码和模型均已开源,欢迎讨论交流:


以下是整理的列表:

  1. VGG Group led by Professor Andrew Zisserman 说到多模态不得不想到的组,手里有数不清的多模态工作,包括从数据集(VGGSound、VGG-SS、Kinetics、AVA、QUERYD...)、音视频相关的工作(L3Net、Objects that sound、还有很多audio visual的task比如audio sound separation之类的)、视频文本(MIL-NCE等)、以及视频文本和音频共同进行多模态的自监督(MMV)等等一系列的工作,非常solid。
  2. DeepMind & INRIA Dr. Jean-Baptiste Alayrac & Dr. Ivan Laptev) 和Prof Zisserman合作比较密切(毕竟都在UK),topic也比较接近。
  3. MARS Lab @清华MARS Lab 清华叉院赵行老师lead的组,不仅做multi modality,研究领域还包括自动驾驶,robotics和多传感器。有幸和赵老师有过当面的交流,也读过很多他博士期间做的audio visual的相关工作。感觉真的是research做的漂亮,人也非常的nice啊!
  4. Professor Antonio Torralba at MIT 也是做了非常多的多模态工作(cr. @信息门上飞二哈 的提醒),其中包括MARS Lab赵老师的很多audio visual工作,也包括很多他的其他学生,比如Professor Andrew Owens at University of Michigan (cr. @江术奚& @绝不秃头Professor Carl Vondrick at Columbia University (cr. @江术奚)两位也同样做了很多audiovisual的工作,果然大佬的学生绝对都不是什么小佬。
  5. VI-Lab at University of Bristol led by Professor Dima Damen 最早接触Prof Damen是在ICCV上听她对于EPIC-KITCHENS数据集的汇报,后来也有幸参加了EK100在CVPR上的比赛。VI-Lab在多模态的主要的研究方向之一也是围绕着这个数据集,做multi modal ego-centric video action recognition,也是做这方面做得最有名的一个组了。最近他们基于audio-visual temporal context的单模型也是以N个点的优势打爆了我们在CVPR 21比赛里的单模型成绩。
  6. Dr. Chen Sun at Google Sun老师也是我最早开始接触video representation learning的时候就关注的大佬,在video和action领域中无论是单模态还是多模态都深耕多年,也是在19年就把BERT的概念引入到Video中了。
  7. Dr. Du Tran at Facebook (还是应该叫Meta) 在我最早入门video领域的时候(大概19年吧),当时就是看的Dr.Tran的文章,前段时间他们组也做了挺多self-supervised audio visual representation learning和audio visual classification相关的工作。
  8. Professor Kristen Grauman at University of Texas at Austin & Facebook (cr. @江术奚 & @绝不秃头)。多模态相关,Professor Grauman早期做了很多video summarization的工作,后来也是把重点放到了audio visual相关的任务上。不仅有一些基础的audio visual model像audio visual slowfast、Listen to Look,还包括更加偏robotics一些的audio visual navigation。

关于如何follow最新的工作,欢迎参考:

最后祝大家看大佬的文章idea多多paper多多 :)




  

相关话题

  编程达到什么水平才能编写出像caffe这样的深度学习框架? 
  如何评价最近火热的对比学习,会引领预训练模型新的范式嘛? 
  如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果? 
  基于深度学习的人工智能程序和传统程序的差别在哪里? 
  自动驾驶攻破的难点在哪,何时能到 Level 5? 
  Jacobian矩阵和Hessian矩阵的作用是什么? 
  国内哪些公司在用caffe、torch、TensorFlow、paddle等框架,哪些在用自研框架? 
  深度学习cnn中,怎么理解图像进行池化(pooling)后的平移不变性? 
  一觉醒来,你发现自己的爱人是人工智能,你是否会和TA继续爱情? 

前一个讨论
卷积神经网络中卷积核是如何学习到特征的?
下一个讨论
东华大学实验室爆炸案一审宣判,校方有「重大过失」被判赔偿受伤学生 162 万,如何看待这一判决结果?





© 2024-05-15 - tinynew.org. All Rights Reserved.
© 2024-05-15 - tinynew.org. 保留所有权利