CV方向多模态融合有哪些好的paper？第1页

chenjoya 网友的相关建议:

不知道题主说的多模态融合是指什么，我这里来推荐一个做多模态视频片段检索的工作吧，即给出一段query，需要定位它在视频中的起始结束位置，也叫 Temporal Language Grounding (TLG)。

AAAI 2020 的，来自 MSRA 的 Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language，简称 2D-Tan，代码 https://github.com/microsoft/2D-TAN/，以 2D 形式来表示不同的时间片段，为每个时间片段赋予预训练视频特征和语言特征的融合，直接分类，没有回归，简单粗暴：

作者验证了不需要回归的 upper bound 已经很高了，这就很骚了。此外，这篇 paper 的方法在 ICCV 2019 也拿了动作时序定位的冠军。然而这个方向好像做的人没那么多，但是实际应用应该是蛮广的呀~

需要说明的是这个结构的潜力不止于此。我和两位师弟 @一滴水 @带带小锯鳄一起好好做了一下 2D-Tan 的实现，无论是速度和精度上都能好不少，特别是速度上，过段时间丢 github，先 mark 了～

开源地址：

谢谢关注！相关解读在：

chen-jia-yu-65-36 网友的相关建议:

介绍一下最近看的一篇非常简洁的多模态方法ViLT，可以理解为BERT+ViT。

现有的VLP模型的text embedding基本上都使用类BERT结构，但是visual embedding存在着差异。在大多数情况下，visual embedding是现有VLP模型的瓶颈。visual embedding的方法总共有三大类，其中region feature方法通常采用Faster R-CNN二阶段检测器提取region的特征(如ViLBERT和UNITER)，grid feature方法直接使用CNN提取grid的特征(如Pixel-BERT)，patch projection方法将输入图片切片投影提取特征。ViLT是首个使用patch projection来做visual embedding的方法。

ViLT可以认为是目前最简单的多模态Transformer方法。ViLT使用预训练的ViT来初始化交互的transformer，这样就可以直接利用交互层来处理视觉特征，不需要额外增加一个视觉encoder。

文本特征输入部分，将文本看成一个词序列，通过word embedding matrix转化成word embedding，然后和position embedding进行相加，最后和modal-type embedding进行concate。

图像特征输入部分，将图像切块看成一个图像块序列，通过linear projection转化成visual embedding，然后和postion embedding进行相加，最后和modal-type embedding进行concate。

其中word embedding和visual embedding通过可学习的modal-type embedding标志位来区分，其中0标志位表示word embedding部分，1标志位表示visual embedding部分。

wrod embedding和visual embedding分别都嵌入了一个额外的可学习[class] embedding，方便和下游任务对接。

Pretraining Objectives

ViLT预训练的优化目标有两个：一个是image text matching(ITM)，另一个是masked language modeling(MLM)。

ImageText Matching：随机以0.5的概率将文本对应的图片替换成不同的图片，然后对文本标志位对应输出使用一个线性的ITM head将输出feature映射成一个二值logits，用来判断图像文本是否匹配。另外ViLT还设计了一个word patch alignment (WPA)来计算teextual subset和visual subset的对齐分数。

Masked Language Modeling：MLM的目标是通过文本的上下文信息去预测masked的文本tokens。随机以0.15的概率mask掉tokens，然后文本输出接两层MLP与车mask掉的tokens。

如图所示，ViLT相比于region feature的方法速度快了60倍，相比于grid feature的方法快了4倍，而且下游任务表现出相似甚至更好的性能。

看一下ViLT可视化的效果，ViLT学到了word和image patch之间的对应关系。

总结

BERT和ViT给多模态Transformer提供了基础，通过巧妙的proxy task设计，ViLT成功将BERT和ViT应用于多模态Transformer。总体上来看基于patch projection的多模态方法速度优势非常大，但是整体上性能还是略低于region feature的方法，感觉多模态Transformer还大有可为啊。

欢迎关注Smarter，构建CV世界观，输出优质内容

欢迎加入Smarter交流群，添加微信「cjy094617」，备注「学校-方向」即可

Reference

[1] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

wei-ruan-ya-zhou-yan-jiu-yuan 网友的相关建议:

推荐微软亚洲研究院自然语言计算组发布的一项创新的研究成果——开放领域视频生成预训练模型，基于 3D 注意力机制，克服了视频帧连续性建模的挑战，可秒级实现基于文字脚本生成视频。

先看效果：

输入文本：Digit 9 is moving down then up. （数字9先向下，再向上移动）

输出视频：

输入文本：Digit 7 moves right then left while digit 3 moves down then up. （数字7先向右，再向左移动；同时数字3先向下，再向上移动）

输出视频：

输入文本：A baseball game is played. （正在举行的棒球比赛）

输出视频：

输入文本：A girl on the voice kids talks to the judges. （The Voice Kids 节目上，一个女孩在和评委说话）

输出视频：

以下是技术解读：

事实上，通过文字阅读、语言对话获取信息，只是人类成长学习过程中的一部分，还有一部分信息来自于视觉方面的输入，比如我们看到马会在地上跑，不会在天上飞；鸟会在天上飞，不会在水里游，等等。由于这类信息被人们认为是理所当然的常识，基本不会频繁体现在文字和语言中，所以研究员们在基于大规模文本训练 NLP 模型时，愈发感受到现有模型中常识类知识的缺乏，因为这些知识通常更多出现在图片、视频中。

此前受限于计算能力和 AI 跨领域处理方法的差异，跨领域、多模态的内容学习很难。而近年来 NLP 技术快速发展，一些新的底层模型不断涌现，并且已经开始被应用于计算机视觉（CV）等其他领域的模型训练中，如 Transformer。

随着自然语言处理与计算机视觉两个领域之间底层模型共性的增多，两个领域的研究人员也正在越来越多地尝试对方领域的算法，以提升模型的表示能力、推理能力。在 NLP 领域的全球顶会 ACL 上，这些年出现了不少多模态问答、多模态摘要生成、多模态内容检索相关的论文；而在 CVPR 等计算机视觉领域的顶会上同样也出现了很多融合了 NLP 任务的跨模态方法。跨领域、多模态的机器学习初见成效。

“从 NLP 领域的研究角度看，我们希望能够从视频或图片的信号中学习到在文本中不太会做出描述的常识信息，以补充现有 NLP 模型所缺乏的常识或物理知识，最终让 NLP 模型取得更好的效果。同时，这也可以让 NLP 与图片和视频任务建立起内在联系，”微软亚洲研究院自然语言计算组高级研究员段楠表示，“这是我们进行视频生成研究的初衷所在。”

创新3D注意力机制，攻克视频连续建模挑战

目前常见的视频生成技术主要基于生成式对抗网络（GAN）进行，而微软亚洲研究院此次的视频生成则是基于 VQ-VAE 技术。对 NLP 领域的研究人员来说，后者的技术路线与 NLP 领域的研究思路更加接近，它可以将视频/图片信息映射为文本，再通过序列化生成符号的角度进行处理。

视频和图片在这里并没有本质区别，因为视频可以被切分成很多个视频帧，即图片。利用 VQ-VAE 算法模型可以将每一个视频帧编码成离散向量表示，这样图片信息就可以对应到相应的文本，从而序列化为 NLP 最擅长处理的 token，充分利用现有的 NLP 模型和算法。在大规模数据预训练之后，再基于 VQ-VAE 模型将离散序列反向还原成视频帧，并将所有帧连在一起，就形成了可视化的视频。

该方法的好处是，所生成的每个视频帧与文本的关联性都很高，但如何确保生成视频帧之间的流畅性以及如何解决生成视频时遇到的长序列建模问题，则成为研究员们必须攻克的技术难点。针对上述两个挑战，研究员们在帧与帧之间引入了一个 3D 稀疏注意力机制，在生成当前帧的某一区域时，同时考虑该区域的行（Row）、列（Column）、时（Temporal）三个维度的视觉信息（如图1所示）。

图1给出了输入文本长度为3个 token、输出视频为2帧、每帧由4个 token 组成时的 3D 稀疏注意力掩码矩阵。其中，行表示模型需要生成的8个视觉 token (v_1, v_2,…, v_8)，列表示生成该视觉 token 需要关注哪些 token。红色、蓝色、紫色分别表示行、列、时三种稀疏关注机制的独有的关注，绿色表示三种关注机制共享的关注，黑色则表示不关注。例如，第一行前三列为绿色，表示在生成 v_1 的时候，三种关注机制都关注了所有的语言 token t_1, t_2, t_3。第二行表示前三列为绿色，第四列为蓝色，表示在生成 v_2 的时候，除了三种关注机制都关注了 t_1, t_2, t_3 外，列关注机制还专门关注了 v_1。这是由于当视频的一帧由4个 token 组成时，v_1 是 v_2 的先前列 token（如图2，对于 Column 轴而言，1在2之前）。再例如第4行就表示在生成 v_4 时，模型除了关注 t_1, t_2, t_3 外，行关注专门关注了 v_2，列关注专门关注了 v_4。从图2可以看出，这是由于 v_2 是 v_4 的先前行 token，v_3 是 v_4 的先前列 token。值得一提的是，为了减少计算，模型不再关注与 v_4 间隔比较远的 v_1。

这样有三个好处：其一，通过稀疏的注意力建模，模型省去了大量的运算（可以从图1看出，大量的位置都是黑色的），从而可以进行长序列的建模。其二，行、列、时三个维度的关注使得模型在生成某一视觉区域时，同时考虑空间和时间的依赖性，从而能够生成帧内更平滑、帧间更流畅的视频。其三，由于在生成每个视觉 token 的时候都会关注全部文本信息（图1前3列都是绿色的），则生成的视频和文本的一致性会比较好。

图3给出了整个的模型图。可以看到，通过上述的行、列、时稀疏注意力的循环堆叠，模型可以迭代地生成视觉 token 序列。这些 token 组装之后，通过 VQ-VAE 的解码器就可以一帧一帧地输出视频了。

除了以上几个技术方面的挑战，基于文字生成视频的另一个难点是，对视频生成效果的评价会相对主观。同样一段小孩与小狗在游泳池边嬉戏的文字，对应的视频可能有千万种呈现方式，很难通过标注数据对生成的视频进行衡量，这给视频生成研究的自动评价机制带来了巨大挑战。为了解决这个问题，微软亚洲研究院的研究员们采用了人工审核与技术判别相结合的方式。在技术判别方面，研究员们基于 CLIP（论文链接：https://arxiv.org/abs/2103.00020）设计了自动评测指标 RM（Relative Matching）：

其中，t 表示输入文字描述，v^(l) 和 v ̂^(l) 分别表示真实视频 v 和生成视频 v ̂ 中的第 l 帧，CLIP(t, v^(l) ) 表示基于 CLIP 模型计算的 t 和 v^(l) 之间的相似度。实验数据表明，该指标能够很好地将生成视频所对应的输入文字描述从若干文字描述集合中选取出来（按照 RM 得分最大值，如图4所示），从而证明了该开放领域视频生成预训练模型生成的视频内容和输入文字描述之间具有很好的相关性。

目前，该模型在 HowTo100M 的公开数据集预训练，并在 MSR-VTT 公开数据集上 finetune（微调），取得了不错的测试结果。尽管现有版本仅生成了十帧的视频，但可以看出视频有着较高的连贯性，而且与文本的相关性也很高，初步验证了基于文字生成视频技术的可行性。随着未来算法的更新和计算能力的提升，研究员们将进一步完善视频长度、画质分辨率等更多细节。

多技术融合是趋势，“无中生有”的视频还远吗？

对于视频的生成，大家或许会有一个疑惑：AI 模型到底是根据文本去搜索、筛选了一个相符合的视频，还是完全原创地生成了一个全新的视频？这个问题有点哲学，毕加索曾经说过“Good artists copy, great artists steal（杰出的艺术家模仿，伟大的艺术家窃取）”，艺术家的艺术创作都会把他们吸收到的各方精髓进行融合、创新，所以 AI 也不能免俗。

通常，文字到视频的生成可以分为三种：第一种，基于搜索，筛选出最相符的视频（相关论文链接：https://arxiv.org/abs/2104.08860），这与在搜索引擎中查找图片和视频类似；第二种，根据文字描述搜集大量已有视频，从不同的视频中裁剪出与文字相符的部分，再进行拼接，至于转场、衔接是否丝滑，就要看模型的自身“功力”了；第三种，也是视频生成的最高境界——从无到有地生成视频，这就类似于我们经过繁多的步骤去拍摄或制作一个视频。

目前微软亚洲研究院所做的基于文字生成视频的技术，大致介于第二种与第三种生成方式之间——部分是由 AI 模型截取于已有视频，部分则是 AI 模型自身生成的。然而，分别以 VQ-VAE 和 GAN 为核心技术进行的文字生成视频，都存在一定的不足，但也各具优势。

“未来，VQ-VAE 和 GAN 两个技术的相互融合、优势互补将会成为文字生成视频的一个研究方向。我们也在尝试创新地结合多种 AI 技术，以提升生成视频的内容质量和长度，并希望通过聚焦视频理解与生成研究来促进 NLP 预训练模型在多模态处理和常识知识获取等前沿领域的进步，”段楠表示。

论文：GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions

论文链接：https://arxiv.org/abs/2104.14806

论文作者：吴晨飞、黄伦（杜克大学）、张虔熙、李镔洋、纪蕾、杨凡、GuillermoSapiro（杜克大学）、段楠

本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域，特别是人工智能相关的前沿研究，旨在为人工智能的相关研究提供范例，从专业的角度促进公众对人工智能的理解，并为研究人员提供讨论和参与的开放平台，从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团，你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”，让我们在分享中共同进步。

也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号，了解更多我们的研究。

CV方向多模态融合有哪些好的paper？的其他答案点击这里

CV方向多模态融合有哪些好的paper？第1页

总结

创新3D注意力机制，攻克视频连续建模挑战

多技术融合是趋势，“无中生有”的视频还远吗？

相关话题

前一个讨论

下一个讨论

相关的话题

CV方向多模态融合有哪些好的paper？ 第1页

总结

创新3D注意力机制，攻克视频连续建模挑战

多技术融合是趋势，“无中生有”的视频还远吗？

相关话题

前一个讨论

下一个讨论

相关的话题

CV方向多模态融合有哪些好的paper？第1页