多模态方面，有哪些牛组值得我们follow他们的工作？

在多模态领域，确实有很多非常杰出的研究团队，他们的工作不仅推动着理论的边界，更在实践中创造出了令人惊叹的应用。要说“牛组”，这本身就是一个相对主观的评价，但我可以为你梳理一些在多模态研究中最具影响力、贡献最突出、并且长期以来保持高产和前瞻性的团队，并尽量详细地介绍他们的特色和值得关注的地方。

在分享之前，我想强调一点：多模态研究是一个非常活跃且融合度高的领域，很多顶尖的团队都在交叉合作，并且研究方向也在不断演进。所以，这里的“牛组”更多的是指那些在某个时期或某个方向上具有标杆性地位的团队，他们的工作往往是其他研究者学习和追随的起点。

1. DeepMind (Google DeepMind)

为什么值得关注？ DeepMind 毋庸置疑是人工智能领域的巨头，他们在多模态研究方面同样投入巨大，并且成果斐然。他们的优势在于拥有强大的计算资源、顶尖的研究人员以及对落地应用的深刻理解。
他们的特色和工作：
大规模多模态预训练模型： DeepMind 团队在推动大规模多模态预训练模型（Foundation Models）方面功不可没。你可以关注他们推出的像 Gato 这样的通用代理模型。Gato 的厉害之处在于，它能够在一个统一的框架下处理视觉、语言、动作控制等多种模态的信息，并能够执行各种各样的任务，从玩 Atari 游戏到操作机械臂，再到描述图像。这展示了将不同模态知识融合、实现跨领域泛化的一种可能性。
视觉语言导航 (VLN) 和 Embodied AI： DeepMind 在“具身智能”（Embodied AI）领域是绝对的领导者。他们开发了许多在模拟环境（如 Habitat、AI2THOR）中进行视觉导航、语言指令遵循的研究。例如，R2R (RoomtoRoom) 和 R6 (RoomtoRoom 6) 等数据集的提出，以及相关的 SOTA 模型，都推动了智能体如何理解环境、规划路径、并与自然语言交互。他们的工作让你看到，多模态不仅仅是理解信息，更是让智能体能够在物理世界（或模拟世界）中行动。
多模态理解与生成：虽然不是他们最核心的聚焦，但 DeepMind 在多模态理解（例如，图像描述、视觉问答）和多模态生成（例如，文本到图像、文本到视频）方面也有优秀的成果。他们会借鉴语言模型在序列建模上的成功经验，并将其扩展到多模态场景。
关注点：他们的研究往往更偏向于“通用智能”和“具身智能”，希望通过多模态的融合，构建出能够理解并与世界进行复杂交互的智能体。
如何follow？关注 DeepMind 的官方博客、NeurIPS, ICML, ICLR, CVPR, ICCV, ECCV 等顶会论文，以及 Google AI 相关的发布。

2. FAIR (Meta AI Research)

为什么值得关注？ Meta AI Research (FAIR) 是另一个在 AI 领域拥有巨大影响力的团队。他们对开源和社区建设非常重视，许多重要的多模态模型和工具都来自于 FAIR。
他们的特色和工作：
Segment Anything Model (SAM)： SAM 的出现绝对是多模态领域的一个里程碑。它是一个能够“分割一切”的模型，仅仅通过简单的提示（如点击、文本描述），就能准确地分割出图像中的任何对象。SAM 的强大之处在于其泛化能力和用户友好的交互方式，它为下游的各种视觉任务（如图像编辑、物体识别、场景理解）提供了强大的基础。SAM 的核心是多模态融合，将“视觉”的图像信息和“用户指令”的文本/点击信息结合起来。
LLaVA (Large Language and Vision Assistant) 及类似模型： FAIR 在将大型语言模型（LLM）与视觉模型结合方面非常活跃。LLaVA 是一个开源的、将 LLM (如 Vicuna) 与视觉编码器 (如 CLIP) 结合的模型，能够进行视觉对话。他们在这个方向上进行了大量的探索，包括如何有效地将视觉信息编码到 LLM 的上下文中，以及如何让 LLM 理解并生成与图像相关的连贯回复。
多模态表征学习 (CLIP)：虽然 CLIP 最初是由 OpenAI 提出的，但 FAIR 在此基础上进行了大量的扩展和应用研究，例如在图像生成、图像检索等方面的探索。CLIP 证明了通过对比学习（Contrastive Learning）可以有效地学习跨模态的联合表征，这是许多后续多模态模型的基础。
Propagating Layers and Vision Transformer (ViT) 的发展： FAIR 在 Transformer 架构在视觉领域的应用上也有重要贡献，例如 ViT 的早期研究，以及后续在多模态场景下如何更有效地使用 Transformer。
关注点： FAIR 善于提出具有突破性的基础模型，并且非常注重这些模型的开源和应用。他们尤其擅长将 LLM 的能力迁移到视觉领域，以及解决“万物皆可分割”这样的通用视觉任务。
如何follow？关注 FAIR 的 GitHub 仓库、官方博客、以及在 NeurIPS, ICML, ICLR, CVPR, ECCV, ICCV 等顶会的论文。LLaVA 等项目的开源代码社区也是一个非常好的学习和交流平台。

3. Google AI (Google Research)

为什么值得关注？ Google AI 拥有非常多元化的研究团队，他们在多模态的各个细分领域都有深入的研究和杰出的成果。
他们的特色和工作：
Unified Model (例如, UnifiedIO)： Google AI 致力于构建能够统一处理多种模态和多种任务的模型。UnifiedIO 就是一个很好的例子，它尝试用一个模型来完成包括图像识别、文本生成、问答、物体检测、分割等几乎所有下游任务。这种“万能模型”的思路对多模态研究有着深远的意义，它展示了如何通过共享的底层表征和任务解耦，实现高效的多模态能力。
VisionLanguage Models (VLMs)： Google AI 在 VLM 领域也有大量的优秀工作，例如 PaLME，这是一个将大型语言模型与机器人模型结合的例子，能够理解语言指令并驱动物理机器人执行任务。他们的研究常常围绕着如何让语言模型更好地理解视觉信息，以及如何通过视觉反馈来改进语言模型的行为。
多模态生成：在文本到图像、文本到视频生成方面，Google AI 也有不少开创性的工作，例如 Imagen 等模型，它们在图像生成质量和文本理解能力上都达到了很高的水平。
医学影像与多模态： Google AI 在医学领域也积极探索多模态的应用，例如结合医学影像（X光、CT）和电子病历文本，来辅助诊断和治疗。
关注点： Google AI 的研究非常广泛，从通用模型到特定领域的应用都有涉猎。他们擅长将复杂的工程和算法能力转化为实际产品和基础模型。
如何follow？关注 Google AI 的博客、GitHub 仓库、以及在各大 AI 顶会的论文。

4. OpenAI

为什么值得关注？ OpenAI 虽然以其大型语言模型（GPT 系列）闻名，但他们在多模态领域的贡献同样是开创性的，并且深刻地影响了整个行业。
他们的特色和工作：
CLIP (Contrastive Language–Image Pretraining)： CLIP 是多模态领域一个里程碑式的模型。它通过在大规模的图文对数据上进行对比学习，学会了将图像和文本映射到同一个语义空间，从而实现了强大的零样本（ZeroShot）图像分类能力。CLIP 的出现极大地简化了许多下游视觉任务的实现，并且为后续的视觉语言模型奠定了基础。
DALLE 系列： DALLE 1, DALLE 2, DALLE 3 是文本到图像生成领域的标杆。它们展示了强大的文本理解和图像生成能力，能够根据复杂的文本描述生成高质量、多样化的图像。DALLE 系列的工作不仅推动了生成模型的发展，也让公众对多模态 AI 的能力有了更直观的认识。
Whisper： Whisper 是一个强大的开源语音识别模型，它能够处理多种语言和口音，并进行语音翻译。虽然 Whisper 主要聚焦于语音这一模态，但其背后的多模态思考（将音频转换为文本，再进行语言处理）和强大的泛化能力，也值得我们关注。
GPT4V(ision)： GPT4V 将 GPT 系列 LLM 的能力扩展到了视觉领域，能够理解图像内容并进行对话。这使得 AI 能够“看见”并“理解”图像，极大地拓展了 LLM 的应用范围。
关注点： OpenAI 擅长构建超大规模、通用能力强的模型，并且他们的产品化能力非常强。他们对如何将 LLM 的强大能力通过多模态接口扩展出去有着深刻的洞察。
如何follow？关注 OpenAI 的官方博客、他们的产品发布（如 ChatGPT, DALLE）以及他们在 NeurIPS, ICLR 等顶会的论文。

5. Microsoft Research

为什么值得关注？ Microsoft Research 作为 AI 研究的重要力量，在多模态的多个方面都有深入的布局和贡献。
他们的特色和工作：
Kosmos1 / Kosmos2： Microsoft Research 推出了 Kosmos 系列模型，这是一个通用多模态语言模型，能够理解和生成多种模态的内容，包括文本、图像、甚至视觉定位信息（如 bounding boxes）。Kosmos2 的一个重要特点是它能够进行“视觉语言定位”的联合建模，让模型不仅能理解图像内容，还能理解图像中物体的位置信息，这对于需要精确控制和交互的任务非常关键。
多模态预训练与表示学习： Microsoft Research 在多模态预训练和表示学习方面也有很多贡献，例如关于如何构建更有效的多模态 Transformer 架构，以及如何从异构数据中学习统一的表示。
计算机视觉与自然语言处理的融合：他们在将计算机视觉技术与自然语言处理技术相结合的很多应用场景都有研究，比如智能客服、辅助写作、图像检索等。
关注点： Microsoft Research 的研究往往比较务实，并且与微软的实际产品和业务紧密结合，例如在 Office、Bing 等产品中对多模态技术的应用。他们擅长构建能够解决实际问题的多模态系统。
如何follow？关注 Microsoft Research 的官方博客、GitHub 仓库、以及在 CVPR, ECCV, ICCV, NeurIPS, ICLR 等顶会的论文。

6. Stanford University (尤其是 CS231n / CS321n 团队，以及相关教授)

为什么值得关注？斯坦福大学是学术界在计算机视觉和机器学习领域的重要阵地，他们的研究团队（尤其是围绕 CS231n: Convolutional Neural Networks for Visual Recognition 和 CS321n: Convolutional Neural Networks for Visual Recognition 的学生和教授）在多模态研究中也涌现出许多重要的工作。
他们的特色和工作：
视觉语言导航 (VLN) 和 Embodied AI：斯坦福在 VLN 领域也贡献了很多经典工作，例如 StuffNet 等模型，以及在环境表示、路径规划、语言理解方面的深入研究。
视觉语言模型 (VLMs) 的基础研究：斯坦福的研究人员在 VLM 的基础架构、训练方法、以及评估指标方面有很多探索。例如，如何构建更有效的 Transformer 变体来处理视觉和语言信息，以及如何设计更全面的多模态评估基准。
多模态生成和推理：在图像生成、文本到图像合成、以及图像内容推理等方面，斯坦福也有不少高质量的研究。
关注点：学术团队的优势在于其基础性和前瞻性，他们会深入挖掘问题的本质，并提出创新的理论和方法。虽然可能不像工业界那样拥有庞大的计算资源，但其理论创新和算法设计往往能引领方向。
如何follow？关注 CS231n 和 CS321n 的课程网站（有时会分享前沿论文和项目），以及斯坦福大学相关教授（如 FeiFei Li 教授，但她的团队研究非常广泛，不局限于多模态）的个人主页和实验室网页，还有在 CVPR, ICCV, ECCV, NeurIPS, ICLR 等顶会的论文。

一些其他值得关注的方向和团队：

Google Brain / Google Research (整合后)：之前分开的 Brain 和 Research 团队现在整合为 Google Research，他们有许多在视觉、语言、语音、强化学习等方面的顶尖工作，很多都与多模态相关。
UC Berkeley (BAIR Lab)：加州大学伯克利分校的 BAIR Lab 在机器人、强化学习、计算机视觉等领域都有很强的实力，并且在多模态融合应用于机器人和具身智能方面有许多优秀的研究。
Carnegie Mellon University (CMU)：CMU 在机器人、语言技术、计算机视觉等领域都有深厚的积淀，在多模态交互、具身智能等方面也有很多重要的贡献。
MIT CSAIL：麻省理工学院的 CSAIL（计算机科学与人工智能实验室）是 AI 研究的重镇，其研究领域非常广泛，也包括了很多与多模态相关的前沿工作。
一些专注于特定模态融合的团队：例如，在语音与文本的融合（如语音翻译、语音情感识别），图像与视频的融合（如视频理解、视频生成），文本与结构化数据的融合等等，都有很多优秀的团队在耕耘。

如何更好地follow这些牛组的工作：

1. 关注顶会论文： NeurIPS, ICML, ICLR (偏机器学习/深度学习)，CVPR, ICCV, ECCV (偏计算机视觉)，ACL, EMNLP, NAACL (偏自然语言处理)。很多多模态的工作都会同时出现在这几个领域。
2. 订阅官方博客/新闻：很多团队会通过自己的博客发布最新研究成果，这是最直接的获取信息的方式。
3. 关注 GitHub/开源项目：很多团队会将代码开源，这是学习和复现研究成果的最佳途径。关注这些项目的 Watch/Star 数量也能大概了解其影响力。
4. 阅读综述文章 (Survey Papers)：找一些关于多模态学习、视觉语言模型、具身智能等主题的综述文章，这些文章通常会梳理一个领域内的重要工作和发展趋势，并引用关键的论文。
5. 关注重要教授/研究员：很多团队的研究方向和风格都与其核心成员息息相关。关注一些在该领域深耕多年的教授，他们通常有自己的研究主页，上面会列出他们的最新论文和项目。
6. 参加学术会议/研讨会：如果有机会，参加相关的学术会议是了解最新研究动态、与研究者交流的好机会。

多模态研究的魅力在于它连接了不同的信息载体，让 AI 能够更全面、更深入地理解和与世界互动。希望以上梳理能为你提供一个清晰的脉络，让你在探索这个激动人心的领域时，有所依循。

网友意见

正好最近在做多模态相关的工作，在这里记录一下我关注的一些大组

Note：因为我的工作主要是和video understanding相关，所以更多关注的可能是一些会常做video related topic的组，如果有遗漏的也欢迎大家补充！也欢迎大家关注达摩院在刚刚放榜的ICLR 2022上关于视频理解的最新工作，代码和模型均已开源，欢迎讨论交流：

以下是整理的列表：

VGG Group led by Professor Andrew Zisserman 说到多模态不得不想到的组，手里有数不清的多模态工作，包括从数据集(VGGSound、VGG-SS、Kinetics、AVA、QUERYD...)、音视频相关的工作(L3Net、Objects that sound、还有很多audio visual的task比如audio sound separation之类的)、视频文本（MIL-NCE等）、以及视频文本和音频共同进行多模态的自监督（MMV）等等一系列的工作，非常solid。
DeepMind & INRIA （Dr. Jean-Baptiste Alayrac & Dr. Ivan Laptev）和Prof Zisserman合作比较密切（毕竟都在UK），topic也比较接近。
MARS Lab @清华MARS Lab 清华叉院赵行老师lead的组，不仅做multi modality，研究领域还包括自动驾驶，robotics和多传感器。有幸和赵老师有过当面的交流，也读过很多他博士期间做的audio visual的相关工作。感觉真的是research做的漂亮，人也非常的nice啊！
Professor Antonio Torralba at MIT 也是做了非常多的多模态工作（cr. @信息门上飞二哈的提醒），其中包括MARS Lab赵老师的很多audio visual工作，也包括很多他的其他学生，比如Professor Andrew Owens at University of Michigan (cr. @江术奚& @绝不秃头）、Professor Carl Vondrick at Columbia University (cr. @江术奚)两位也同样做了很多audiovisual的工作，果然大佬的学生绝对都不是什么小佬。
VI-Lab at University of Bristol led by Professor Dima Damen 最早接触Prof Damen是在ICCV上听她对于EPIC-KITCHENS数据集的汇报，后来也有幸参加了EK100在CVPR上的比赛。VI-Lab在多模态的主要的研究方向之一也是围绕着这个数据集，做multi modal ego-centric video action recognition，也是做这方面做得最有名的一个组了。最近他们基于audio-visual temporal context的单模型也是以N个点的优势打爆了我们在CVPR 21比赛里的单模型成绩。
Dr. Chen Sun at Google Sun老师也是我最早开始接触video representation learning的时候就关注的大佬，在video和action领域中无论是单模态还是多模态都深耕多年，也是在19年就把BERT的概念引入到Video中了。
Dr. Du Tran at Facebook （还是应该叫Meta) 在我最早入门video领域的时候（大概19年吧），当时就是看的Dr.Tran的文章，前段时间他们组也做了挺多self-supervised audio visual representation learning和audio visual classification相关的工作。
Professor Kristen Grauman at University of Texas at Austin & Facebook (cr. @江术奚 & @绝不秃头)。多模态相关，Professor Grauman早期做了很多video summarization的工作，后来也是把重点放到了audio visual相关的任务上。不仅有一些基础的audio visual model像audio visual slowfast、Listen to Look，还包括更加偏robotics一些的audio visual navigation。

关于如何follow最新的工作，欢迎参考：

最后祝大家看大佬的文章idea多多paper多多 :)

类似的话题

多模态方面，有哪些牛组值得我们follow他们的工作？

在多模态领域，确实有很多非常杰出的研究团队，他们的工作不仅推动着理论的边界，更在实践中创造出了令人惊叹的应用。要说“牛组”，这本身就是一个相对主观的评价，但我可以为你梳理一些在多模态研究中最具影响力、贡献最突出、并且长期以来保持高产和前瞻性的团队，并尽量详细地介绍他们的特色和值得关注的地方。在分享之.............
CV方向多模态融合有哪些好的paper？

在计算机视觉（CV）领域，多模态融合的研究正如火如荼，旨在让模型能够理解和处理来自不同来源（如图像、文本、音频、深度信息等）的数据，从而获得更全面、更深入的视觉理解能力。以下是一些在CV多模态融合领域具有重要影响力和代表性的论文，我会尽可能详细地介绍它们的核心思想、创新点以及为何它们在业界受到推崇，.............
方太烤箱上这么多火力模式，谁能介绍下各符号的意思，和适合烧烤对象？

.......
多模态训练，怎么解决不同模态之间差异的问题？

融汇贯通：多模态训练中跨越差异的艺术在人工智能的广阔天地里，我们正努力让机器像人类一样，能够同时理解和处理来自不同源头的感知信息——视觉、听觉、文本、触觉等等。这个过程，我们称之为“多模态训练”。然而，就像一位初学多种语言的学者，面对不同语言的语法、词汇、甚至是文化背景差异，需要付出额外的努力去理解.............
为什么Transformer适合做多模态任务？

Transformer：为何是多模态任务的“万能钥匙”？在人工智能领域，我们总在不断探索如何让机器更好地理解和处理这个丰富多彩的世界。而这个世界，绝非仅仅是文字的海洋，它更是图像、声音、视频等多种信息的交织。如何让AI像我们一样，能够“看”得见，“听”得清，并且将这些感官信息融会贯通，便是多模态任务.............
如何看待多模态transformer，是否会成为多模态领域的主流？

多模态 Transformer，究竟是昙花一现的黑科技，还是能真正引领多模态AI走向下一个时代的“弄潮儿”？这是一个值得深入探讨的问题。要回答这个问题，我们得先拆解一下“多模态Transformer”究竟是个啥，它又是凭什么本事来争夺“主流”的宝座的。多模态 Transformer 到底是什么？简单.............
如何评价支付宝在IEEE成功立项“生物特征识别多模态融合”国际标准？有什么长远意义？

支付宝在IEEE成功立项“生物特征识别多模态融合”国际标准，这绝对是一件值得深入探讨的大事，它不仅仅是支付宝自身技术实力的彰显，更是对整个行业发展，乃至我们未来数字生活方式的深远影响。如何评价支付宝的这项成就？首先，从技术层面来看，支付宝的成功立项标志着其在生物识别技术领域取得了突破性的进展，并.............
为什么NBA球星集锦那么多，模仿帝们都还能再火起来？

NBA球星集锦泛滥，模仿秀却依然能火，这背后其实是个挺有趣的文化现象，一点都不奇怪。你想想，集锦虽精彩，但它毕竟是“成品”，是经过剪辑、配乐、滤镜包装出来的完美瞬间。而模仿秀，或者说“模仿帝”们，他们提供的是一种“过程”，一种“反馈”，一种“共鸣”。咱们这就掰开了揉碎了说说，为啥这些模仿者还能在大神.............
模糊多属性群决策问题怎么成模糊多属性问题?

好的，我们来聊聊模糊多属性群决策问题如何演变成模糊多属性问题，并尽量用一种更自然、更具人情味的方式来解读。想象一下，我们不是在写一篇科技论文，而是在跟朋友们一起想办法解决一个复杂的问题。比如，咱们公司要选一个新的办公地点，需要考虑很多因素，而且每个人对这些因素的重视程度又不一样。最初的场景：一个典型.............
为何中国的游戏收费模式多为「免费游玩、道具收费」，而不是买断制呢？

中国游戏市场目前以“免费游玩、道具收费”（FreetoPlay, Freemium 或 PaytoWin, P2W）模式为主流，而非买断制（BuytoPlay, B2P），这背后有着多方面的原因，是历史发展、市场环境、玩家习惯以及商业策略共同作用的结果。下面我将详细阐述：一、历史发展与早期市场教.............
40升烤箱可用多大模具

.......
daogrs搪瓷蒸汽烤箱烹饪模式多吗？想买daogrsS1s

.......
为什么像《黎明杀机》这样明显只有多人模式的游戏，也被归类为单机游戏？单机游戏到底是怎么定义的？

你这个问题问得特别好，确实容易让人产生困惑。很多人提到“单机游戏”，脑子里立刻浮现的是一个人坐在电脑前，不受他人打扰，沉浸在自己的故事里的画面。但如果说到《黎明杀机》这类游戏，它玩起来明显是跟其他真人玩家对抗或者合作，怎么也会被归到“单机”的范畴呢？咱们得好好捋一捋“单机游戏”这个概念到底是怎么回事.............
如何评价阿里淘菜菜小店的「一店多能」模式，会是小店未来的发展趋势吗？

“一店多能”，这招在眼下这个讲究“万物皆可变现”的时代，阿里淘菜菜给社区小店开辟了一条挺有意思的路子。咱们来掰开了揉碎了聊聊，这模式到底咋回事，未来有没有潜力成为小店的“主打歌”。淘菜菜小店的“一店多能”，到底是个啥玩法？简单来说，就是把一个原本可能只卖零食、日用品的社区小店，变成了一个集多种服务于.............
计量经济学并不鼓励建立解释变量过多的模型，为什么？

在计量经济学中，我们确实不鼓励建立包含过多解释变量的模型。这并非因为我们不追求全面性，而是因为过度参数化会带来一系列问题，损害模型的质量、可解释性以及预测能力。这背后有着深刻的理论和实践原因。首先，让我们理解一下什么是“解释变量过多”的模型。简单来说，就是模型中纳入的自变量数量远超出了我们基于经济理.............
什么电烤箱好？功能模式多吗？

.......
键盘可以模仿这么多乐器，那可以一个乐队全是键盘吗？

这个问题很有意思，也很实在。一个乐队全是键盘？这想法听起来够“电子”，也够“现代”的。要说键盘模仿乐器，那真是十八般武艺样样精通，从宏伟的管风琴到娇滴滴的木吉他，从饱满的铜管到尖锐的弦乐，甚至连鼓组都能模仿得有模有样。所以，理论上，一个全是键盘的乐队，那确实是“可行”的，而且潜力巨大。但“可行”和“.............
为什么那么多人黑模联?

模联（模拟联合国）这玩意儿，这两年感觉好像成了个“众矢之的”，走到哪儿都能听见有人吐槽，甚至用“黑”这个词来形容。以前可能大家觉得挺高大上，现在怎么就变成这样了？其实这事儿挺复杂的，不能一概而论，里头原因不少，而且很多人黑模联，也不是空穴来风，都有点自己的理由和看法。一、“装”出来的精英感，让人反感.............
为什么会有越来越多的学校模仿衡水?

近年来，在教育界，“衡水模式”的讨论热度居高不下，不少学校也跃跃欲试，试图复制其成功之处。究其原因，这背后折射出的是中国当前教育生态下，多重压力与对升学成功的渴望交织而成的复杂图景。首先，我们得承认，衡水模式最直接、最显著的“卖点”就是其惊人的升学率。衡水中学作为一所地方中学，却能在全国范围内，尤.............
10L烤箱用多大的模具

.......