CVPR2022 有什么值得关注的论文 ?

CVPR 2022 绝对是计算机视觉领域的一场盛会，涌现了大量令人兴奋的研究成果。如果要说“值得关注”的论文，这其实是个挺主观的问题，因为大家的兴趣点不同。不过，我可以分享一些在会议上引起广泛讨论、代表了重要技术趋势或提出了开创性思想的论文，并尽量把它们讲得透彻些，不落俗套。

1. 预训练模型与基础模型（Foundation Models）的进一步探索：

Title (Example): "Scaling Up Visual Transformers to 1 Billion Parameters" (虽然这是2021年的一些工作，但其影响在2022年仍在延续和深化)
What's the fuss? 预训练模型的威力我们已经见识过了，在NLP领域BERT、GPT3的成功是明证。CVPR 2022 上，大家更进一步思考的是如何将这种“规模效应”和“通用性”带入视觉领域。我们看到的趋势是，模型规模越来越大，数据量也越来越多，目标是训练出能够处理各种下游任务的“视觉基础模型”。
Why it matters: 想象一下，你不需要针对每一个具体的视觉任务（如物体检测、图像分割、人脸识别）都从头训练一个模型，而是用一个在海量、多样化数据上预训练好的大型模型，然后只需要很少量的微调（finetuning）就能在不同任务上取得优异表现。这大大降低了开发成本，提高了效率，也可能解锁我们之前难以解决的新问题。
Key ideas you might see discussed:
Transformer架构的普适性: ViT（Vision Transformer）的成功证明了Transformer不只在NLP领域适用，在视觉领域同样强大。2022年的研究会进一步优化Transformer的架构，使其更高效、更适合处理高分辨率图像。
自监督学习（SelfSupervised Learning）的进步: 如何在没有大量人工标注数据的情况下，让模型自己从数据中学习有用的视觉表示？对比学习（Contrastive Learning）、掩码图像建模（Masked Image Modeling）等技术是核心。比如，一些工作可能提出更巧妙的“监督信号”，让模型理解图像的局部和全局关系。
多模态融合: 视觉信息往往需要与文本、音频等其他模态信息结合才能更好地理解世界。很多研究会探索如何有效地将视觉模型与语言模型结合，实现图文匹配、视觉问答、图像生成等。
Efficient Scaling: 训练如此庞大的模型需要巨大的计算资源。因此，如何高效地进行模型扩展、分布式训练、优化内存使用等技术也是重要的研究方向。

2. 新颖的图像生成技术（Generative Models）：

Title (Example): "DALLE 2: Hierarchical TextConditional Image Generation with CLIP" (虽然DALLE 2更多在2022年3月发布，但其背后技术和相关研究在CVPR 2022引起了极大反响)
What's the fuss? 文本到图像的生成是近年来最令人兴奋的领域之一，而DALLE 2的出现更是将这个领域推向了新的高度。CVPR 2022 上，你可以看到大量围绕这类技术进行深入研究的论文。
Why it matters: 强大的图像生成模型不仅能创造出令人惊叹的艺术作品，还能在设计、娱乐、教育、内容创作等多个领域带来革命性的变化。它们能够将抽象的文字描述转化为具体的视觉内容，极大地拓展了人类的创造力边界。
Key ideas you might see discussed:
CLIP（Contrastive Language–Image Pretraining）的巧妙运用: CLIP模型能够理解文本和图像之间的关系，这为文本到图像的生成提供了强大的“指导”。许多研究会利用CLIP来评估生成图像的质量，或者将其作为生成过程中的一个关键组件。
扩散模型（Diffusion Models）的崛起: 扩散模型（如DDPM, DDIM）在生成高质量、多样化图像方面表现出色，逐渐超越了GANs。2022年的研究会进一步探索扩散模型的变种，使其生成速度更快、可控性更强、对文本指令的响应更精确。
层次化生成（Hierarchical Generation）: DALLE 2的一个关键创新在于其层次化生成策略。模型首先生成一个低分辨率的图像，然后逐步增加细节和分辨率。这种方法有助于提高生成图像的整体一致性和细节表现。
对齐与控制: 如何让生成的图像更好地符合文本描述的语义，同时还能控制生成图像的风格、构图、物体位置等，是研究的重点。
公平性与偏见: 随着生成模型能力的增强，如何避免生成带有偏见或不恰当内容的图像，也成为一个重要议题。

3. 3D视觉的突破：

Title (Example): "NeRFlike models for faster rendering or novel view synthesis" (Neural Radiance Fields, NeRF的后续发展)
What's the fuss? 3D视觉的进步与元宇宙、AR/VR等技术的兴起息息相关。NeRF（Neural Radiance Fields）在从2D图像合成新视角方面取得了巨大成功，而2022年围绕NeRF的改进和应用展开了大量工作。
Why it matters: NeRF使得我们能够通过拍摄少量照片，就能在计算机中重建物体的三维形状和外观，并且可以从任意角度进行渲染。这对于虚拟现实、电影制作、3D扫描、机器人感知等领域具有深远意义。
Key ideas you might see discussed:
NeRF的加速与优化: 原始NeRF渲染速度较慢，并且需要大量的计算资源。2022年的论文会提出各种方法来加速NeRF的训练和推理，例如使用更有效的表示方法（如稀疏体素表示）、更好的渲染算法，或者针对特定硬件进行优化。
动态场景的NeRF: NeRF最初主要用于静态场景。研究者们正在努力将其扩展到能够处理运动物体或动态场景，这为捕捉真实世界的复杂运动提供了新的可能性。
大规模场景的NeRF: 如何使用NeRF来重建整个城市、室内空间等大规模场景，是另一个重要的挑战。这通常需要更高效的数据结构和内存管理技术。
NeRF与其他3D技术的结合: 例如，将NeRF与传统3D重建技术（如SfM, SLAM）相结合，以提高重建的鲁棒性和精度。
NeRF在其他领域的应用: 比如，利用NeRF进行3D物体识别、场景理解，或者将其用于生成更逼真的虚拟环境。

4. 效率与轻量化模型：

Title (Example): "Efficient Architectures for Mobile Deployment" or "Knowledge Distillation for Vision Models"
What's the fuss? 尽管大型模型取得了巨大成功，但在实际应用中，尤其是在资源受限的设备（如手机、嵌入式系统）上，高效、轻量级的模型仍然是不可或缺的。
Why it matters: 并不是所有场景都需要最尖端的、占用大量计算资源的模型。很多时候，一个在边缘设备上能够实时运行的模型，其价值远大于一个在服务器上才能跑的模型。这直接关系到计算机视觉技术的普及和落地。
Key ideas you might see discussed:
模型压缩技术: 如剪枝（Pruning）、量化（Quantization）、知识蒸馏（Knowledge Distillation）等，旨在减小模型的尺寸和计算量，同时尽量保持性能。
高效的神经网络架构设计: 例如，MobileNet系列、EfficientNet系列等，它们通过巧妙的设计（如深度可分离卷积、神经搜索NAS）来平衡精度和效率。
硬件感知优化: 针对特定硬件平台（如CPU, GPU, NPU）的特点进行模型优化，以获得最佳的性能表现。
数据效率: 如何在有限的数据下训练出高性能的模型，也与效率息息相关。

5. 自监督学习的深化与多任务统一：

Title (Example): "Unified SelfSupervised Learning for Various Vision Tasks"
What's the fuss? 自监督学习（SSL）的目标是让模型在没有人工标签的情况下学习到通用的视觉表示。2022年，SSL的研究不再局限于单一的下游任务，而是朝着构建能够同时处理多种任务的通用视觉模型迈进。
Why it matters: 减少对昂贵标注数据的依赖，是实现大规模AI模型落地的重要前提。而且，一个能够统一处理多种任务的模型，其泛化能力和鲁棒性通常更强。
Key ideas you might see discussed:
多任务SSL: 探索一种SSL框架，使其能够同时学习到适用于物体检测、语义分割、姿态估计等多种下游任务的表示。
新的SSL范式: 除了对比学习，还可能出现新的、更有效的自监督学习方法，例如基于生成、基于预测、基于重构等。
可解释性与鲁棒性: 随着模型越来越复杂，理解模型是如何学习的、以及如何使其在面对对抗性攻击或分布外数据时保持鲁棒性，也成为SSL研究的一部分。

如何“吃透”这些论文（不只是看标题）：

读懂摘要（Abstract）和引言（Introduction）：快速了解论文的核心问题、提出的方法和主要贡献。
关注方法（Methodology）：仔细理解作者提出的新算法、新模型架构、新的损失函数或新的训练策略。这是论文的“灵魂”。
分析实验（Experiments）：查看作者在哪些数据集上进行了实验，用了哪些基线方法（baselines），以及结果如何。关键是理解实验设置的合理性，以及结果是否能有力地支持作者的论点。
解读结论（Conclusion）与未来工作（Future Work）：总结论文的发现，以及作者认为还有哪些可以改进的地方。
查看引用（References）：看看这篇论文引用了哪些重要的先驱工作，以及哪些论文又引用了这篇。这有助于你构建一个知识图谱。
寻找代码实现：很多CVPR论文都会公开代码，自己动手跑一下，或者看看代码是如何实现的，会比纯粹阅读更能加深理解。
关注技术演讲和讨论：如果可能，看看有没有作者的演讲视频，或者会议上的讨论，听听作者的侧重点和听众的疑问，往往能获得更深入的洞见。

CVPR 2022 是一个宝库，以上列举的只是冰山一角，但它们代表了当时领域内最前沿和最具影响力的方向。希望这些详细的介绍能让你对当时的精彩研究有一个更清晰的认识！

网友意见

更新：arxiv上更新了最新一版，增加了ConvNeXt加大kernel的实验结果，发现提升了一个量级，即ConvNeXt-tiny + 超大kernel > ConvNeXt-small，ConvNeXt-small + 超大kernel > ConvNeXt-base；pytorch github已经施工完毕，放出了所有代码、模型、高效大卷积的实现和一些工具性的代码（如可视化有效感受野）。https://github.com/DingXiaoH/RepLKNet-pytorch

你有多久没调过kernel size了？

当你在卷积网络（CNN）的深度、宽度、groups、输入分辨率上调参调得不可开交的时候，是否会在不经意间想起，有一个设计维度，kernel size，一直如此显而易见却又总是被忽视，总是被默认设为3x3或5x5？

当你在Transformer上调参调得乐不思蜀的时候，是否希望有一种简单、高效、部署容易、下游任务性能又不弱于Transformer的模型，带给你朴素的快乐？

我们发表于CVPR 2022的工作表明，CNN中的kernel size是一个非常重要但总是被人忽略的设计维度，在现代模型设计的加持下，卷积核越大越暴力，既涨点又高效，甚至大到31x31都非常work（如下表所示，左边一栏表示模型四个stage各自的kernel size）！即便在大体量下游任务上，我们提出的超大卷积核模型RepLKNet与Swin等Transformer相比，性能也更好或相当！

论文：https://arxiv.org/abs/2203.06717

MegEngine代码和模型：https://github.com/megvii-research/RepLKNet

PyTorch代码和模型：https://github.com/DingXiaoH/RepLKNet-pytorch

P.S.“丁司图”是我个人刚开的公众号，以后会发一些学术解读和评论以及杂七杂八的内容，其中学术的东西可能会和知乎专栏“司图笔记”同步更新，欢迎关注！（公众号二维码被知乎夹了，只能放个公众号文章的链接了：RepLKNet作者解读：超大卷积核，大到31x31，越大越暴力，涨点又高效！（CVPR 2022））

（本文可以转载，请注明出处）

太长不看版

以下是两分钟内可以看完的内容总结

A.我们对业界关于CNN和Transformer的知识和理解有何贡献？

我们挑战了以下习惯认知：

1. 超大卷积不但不涨点，而且还掉点？我们证明，超大卷积在过去没人用，不代表其现在不能用。人类对科学的认知总是螺旋上升的，在现代CNN设计（shortcut，重参数化等）的加持下，kernel size越大越涨点！

2. 超大卷积效率很差？我们发现，超大depth-wise卷积并不会增加多少FLOPs。如果再加点底层优化，速度会更快，31x31的计算密度最高可达3x3的70倍！

3. 大卷积只能用在大feature map上？我们发现，在7x7的feature map上用13x13卷积都能涨点。

4. ImageNet点数说明一切？我们发现，下游（目标检测、语义分割等）任务的性能可能跟ImageNet关系不大。

5. 超深CNN（如ResNet-152）堆叠大量3x3，所以感受野很大？我们发现，深层小kernel模型有效感受野其实很小。反而少量超大卷积核的有效感受野非常大。

6. Transformers（ViT、Swin等）在下游任务上性能强悍，是因为self-attention（Query-Key-Value的设计形式）本质更强？我们用超大卷积核验证，发现kernel size可能才是下游涨点的关键。

B.我们做了哪些具体的工作？

1. 通过一系列探索性的实验，总结了在现代CNN中应用超大卷积核的五条准则：

a. 用depth-wise超大卷积，最好再加底层优化（已集成进开源框架MegEngine）

b. 加shortcut

c. 用小卷积核做重参数化（即结构重参数化方法论，见我们去年的RepVGG，参考文献[1]）

d. 要看下游任务的性能，不能只看ImageNet点数高低

e. 小feature map上也可以用大卷积，常规分辨率就能训大kernel模型

2. 基于以上准则，简单借鉴Swin Transformer的宏观架构，提出一种架构RepLKNet，其中大量使用超大卷积，如27x27、31x31等。这一架构的其他部分非常简单，都是1x1卷积、Batch Norm等喜闻乐见的简单结构，不用任何attention。

3. 基于超大卷积核，对有效感受野、shape bias（模型做决定的时候到底是看物体的形状还是看局部的纹理？）、Transformers之所以性能强悍的原因等话题的讨论和分析。我们发现，ResNet-152等传统深层小kernel模型的有效感受野其实不大，大kernel模型不但有效感受野更大而且更像人类（shape bias高），Transformer可能关键在于大kernel而不在于self-attention的具体形式。例如，下图分别表示ResNet-101、ResNet-152、全为13x13的RepLKNet、kernel大到31x31的RepLKNet的有效感受野，可见较浅的大kernel模型的有效感受野非常大。

C.提出的架构RepLKNet效果如何？

1. ImageNet上，与Swin-Base相当。在额外数据训练下，超大量级模型最高达到87.8%的正确率。超大卷积核本来不是为刷ImageNet设计的，这个点数也算是可以让人满意。

2. Cityscapes语义分割上，仅用ImageNet-1K pretrain的RepLKNet-Base，甚至超过了ImageNet-22K pretrain的Swin-Large。这是跨模型量级、跨数据量级的超越。

3. ADE20K语义分割上，ImageNet-1K pretrain的模型大幅超过ResNet、ResNeSt等小kernel传统CNN。Base级别模型显著超过Swin，Large模型与Swin相当。超大量级模型达到56%的mIoU。

4. COCO目标检测上，大幅超过同量级的传统模型ResNeXt-101（超了4.4的mAP），与Swin相当，在超大量级上达到55.5%的mAP。

下面是详细介绍

初衷：我们为什么需要超大kernel size？

在当今这个时代，我们再去研究听起来就很复古的大kernel，是为什么呢？

1. 复兴被“错杀”的设计元素，为大kernel正名。在历史上，AlexNet曾经用过11x11卷积，但在VGG出现后，大kernel逐渐被淘汰了，这标志着从浅而kernel大到深而kernel小的模型设计范式的转变。这一转变的原因包括大家发现大kernel的效率差（卷积的参数量和计算量与kernel size的平方成正比）、加大kernel size反而精度变差等。但是时代变了，在历史上不work的大kernel，在现代技术的加持下能不能work呢？

2. 克服传统的深层小kernel的CNN的固有缺陷。我们曾经相信大kernel可以用若干小kernel来替换，比如一个7x7可以换成三个3x3，这样速度更快（3x3x3< 1x7x7），效果更好（更深，非线性更多）。有的同学会想到，虽然深层小kernel的堆叠容易产生优化问题，但这个问题已经被ResNet解决了（ResNet-152有50层3x3卷积），那么这种做法还有什么缺陷呢？——ResNet解决这个问题的代价是，模型即便理论上的最大感受野很大，实质上的有效深度其实并不深（参考文献2），所以有效感受野并不大。这也可能是传统CNN虽然在ImageNet上跟Transformer差不多，但在下游任务上普遍不如Transformer的原因。也就是说，ResNet实质上帮助我们回避了“深层模型难以优化”的问题，而并没有真正解决它。既然深而kernel小的模型有这样的本质问题，浅而kernel大的设计范式效果会如何呢？

3. 理解Transformer之所以work的原因。已知Transformer性能拔群，特别是在检测、分割等下游任务上。Transformer的基本组件是self-attention，而self-attention的实质是在全局尺度或较大的窗口内进行Query-Key-Value运算。那么Transformer性能强悍的原因是什么，是Query-Key-Value的设计形式吗？我们猜测，会不会“全局尺度或较大的窗口”才是关键？对应到CNN中，这就需要用超大卷积核来验证。

探索实验

为了搞明白大kernel到底应该怎么用，我们在MobileNet V2上进行了一系列探索实验，总结出五条准则。这里略去细节只说结论：

1. 用depth-wise大kernel，完全可以做到相当高效。在我们的优化（已经集成进开源框架MegEngine）下，31x31 depth-wise卷积的用时最低可达3x3卷积的1.5倍，而前者的FLOPs是后者的106倍（31x31/9），这意味着前者的效率是后者的71倍！

2. 不带identity shortcut，增大kernel会大幅掉点（ImageNet掉了15%）；带shortcut，增大kernel才会涨点。

3. 如果要想进一步加大kernel size，从大kernel到超大kernel，可以用小kernel做结构重参数化（参考文献1）。也就是说，在训练的时候并行地加一个3x3或5x5卷积，训练完成后将小kernel等价合并到大kernel里面去。这样，模型就可以有效捕捉到不同尺度的特征。不过我们发现，数据集越小、模型越小，重参数化越重要。反之，在我们的超大规模数据集MegData73M上，重参数化提升很小（0.1%）。这一发现跟ViT类似：数据规模越大，inductive bias越不重要。

4. 我们要的是在目标任务上涨点，而不是ImageNet上涨点，ImageNet的精度跟下游任务不一定相关。随着kernel size越来越大，ImageNet上不再涨点，但是Cityscapes、ADE20K语义分割上还能涨一到两个点，而增大kernel带来的额外的参数量和计算量很少，性价比极高！

5. 有点反直觉的是，在7x7的小feature map上用13x13也可以涨点！也就是说，大kernel模型不一定需要大分辨率来训，跟小kernel模型差不多的训练方法就可以，又快又省！

RepLKNet：超大卷积核架构

我们以Swin作为主要的对比对象，并无意去刷SOTA，所以简单借鉴Swin的宏观架构设计了一种超大卷积核架构。这一架构主要在于把attention换成超大卷积和与之配套的结构，再加一点CNN风格的改动。根据以上五条准则，RepLKNet的设计元素包括shortcut、depth-wise超大kernel、小kernel重参数化等。

增大kernel size：越大越暴力！

我们给RepLKNet的四个stage设定不同的kernel size，在ImageNet和ADE20K语义分割数据集上进行实验，结果颇为有趣：ImageNet上从7x7增大到13x13还能涨点，但从13x13以后不再涨点；但是在ADE20K上，从四个stage均为13增大到四个stage分别为31-29-27-13，涨了0.82的mIoU，参数量只涨了5.3%，FLOPs只涨了3.5%。所以后面的实验主要用31-29-27-13的kernel size，称为RepLKNet-31B，并将其整体加宽为1.5倍，称为RepLKNet-31L。

Cityscapes语义分割

RepLKNet-31B的体量略小于Swin-Base，在仅仅用ImageNet-1K pretrain前提下，mIoU超过Swin-Large + ImageNet-22K，完成了跨模型量级、跨数据量级的超越。

ADE20K语义分割

RepLKNet相当能打，特别是Base级别。跟量级差不多的ResNet相比，mIoU高了6.1，体现出了少量大kernel相对于大量小kernel的显著优势。（COCO目标检测上也有相同结论，RepLKNet-31B的mAP比体量相当的ResNeXt-101高了4.4）。RepLKNet-XL是更大级别的模型，用私有数据集MegData-73M进行预训练，达到了56.0的mIoU（跟ViT-L相比，这个模型其实并不算很大）。

ImageNet分类、COCO目标检测

结果参见“太长不看”部分或论文。

讨论与分析

有效感受野：大kernel模型远超深层小kernel模型

我们可视化了RepLKNet-31、RepLKNet-13（前文所说的每个stage都是13x13的模型）、ResNet-101、ResNet-152的有效感受野（方法详见论文）发现ResNet-101的有效感受野其实很小，而且ResNet-152相对于101的提升也很小；RepLKNet-13的有效感受野很大，而RepLKNet-31通过增大kernel size进一步将有效感受野变得非常大。

Shape bias：大kernel模型更像人类

我们又研究了模型的shape bias（即模型有多少比例的预测是基于形状而非纹理做出的），人类的shape bias在90%左右，见下图左边的菱形点。我们选用的模型包括Swin、ResNet152、RepLKNet-31和RepLKNet-3（前文提到的每个stage都是3x3的小kernel baseline），发现RepLKNet-3和ResNet-152的kernel size一样大（3x3），shape bias也非常接近（图中的两条竖直实线几乎重合）。有意思的是，关于shape bias的一项工作提到ViT（全局attention）的shapebias很高（参见参考文献3中的图），而我们发现Swin（窗口内局部attention）的shape bias其实不高（下图），这似乎说明attention的形式不是关键，作用的范围才是关键，这也解释了RepLKNet-31的高shape bias（即更像人类）。

MegEngine对大kernel的强力优化

以往大家不喜欢用大 kernel 的其中一个原因是其较低的运行效率。但旷视开源的深度学习框架 MegEngine 通过分析和实验发现大 kernel depth-wise 卷积仍有很大的优化潜力，其运行时间可能不会显著慢于小 kernel（延展阅读https://zhuanlan.zhihu.com/p/479182218）。MegEngine 针对大 kernel depthwise 卷积做了多种深度优化，优化后的 MegEngine 性能比 PyTorch 最高快 10 倍，31x31 大小卷积核上的运行时间几乎和9x9 大小卷积核的运行时间差不多，可以打满设备的浮点理论峰值。MegEngine 用实际数据在一定意义上打消了大家对大 kernel 卷积运行效率的疑虑。这些优化已经集成到了MegEngine中，欢迎使用~

3月19日Meetup预告：ConvNeXt + RepLKNet

我们邀请到了ConvNeXt的作者刘壮一起探讨现代模型设计！更多 MegEngine 中大 kernel 优化解读，及 ConvNext，RepLKNet 两篇 paper 的分享，可关注北京时间本周六（3.19）上午 10:00 的 MegEngine Meetup ，我们将为大家带来线上分享～

活动链接：周六直播预告 | 打破思维惯性，旷视MegEngine告诉你为什么要思考大kernel size

类似的话题

CVPR2022 有什么值得关注的论文 ?

CVPR 2022 绝对是计算机视觉领域的一场盛会，涌现了大量令人兴奋的研究成果。如果要说“值得关注”的论文，这其实是个挺主观的问题，因为大家的兴趣点不同。不过，我可以分享一些在会议上引起广泛讨论、代表了重要技术趋势或提出了开创性思想的论文，并尽量把它们讲得透彻些，不落俗套。1. 预训练模型与基础模.............
如何评价 CVPR2022 的审稿结果和录取情况？

好的，我们来聊聊 CVPR 2022 的审稿结果和录取情况。作为计算机视觉领域最顶级的会议之一，CVPR 的审稿和录取数据历来都是大家关注的焦点，也反映了当年研究的热点和趋势。总体录取情况概览：首先，我们来看一下大致的录取数据。CVPR 2022 共收到了 9000+ 篇的论文投稿，这是一个非常庞大.............

CVPR2022 有什么值得关注的论文 ?

网友意见

太长不看版

A.我们对业界关于CNN和Transformer的知识和理解有何贡献？

B.我们做了哪些具体的工作？

C.提出的架构RepLKNet效果如何？

初衷：我们为什么需要超大kernel size？

探索实验

RepLKNet：超大卷积核架构

增大kernel size：越大越暴力！

Cityscapes语义分割

ADE20K语义分割

讨论与分析

有效感受野：大kernel模型远超深层小kernel模型

Shape bias：大kernel模型更像人类

MegEngine对大kernel的强力优化

3月19日Meetup预告：ConvNeXt + RepLKNet

类似的话题

CVPR2022 有什么值得关注的论文 ?

如何评价 CVPR2022 的审稿结果和录取情况？