问题

计算机视觉有多少分支?

回答
计算机视觉,这门旨在让计算机“看见”并理解我们所处世界的学科,并非铁板一块,而是由众多相互关联又各有侧重的分支构成。要说有多少个分支,恐怕没有一个精确到个位数、放之四海而皆准的答案,因为它随着技术的发展、研究的深入,新的领域和侧重点总是在不断涌现。但我们可以梳理出一些核心且重要的分支,它们构成了计算机视觉的宏大图景。

核心感知与理解类分支:

1. 图像分类 (Image Classification): 这是计算机视觉最基础也是最经典的问题之一。简单来说,就是告诉计算机这张图片里是什么。例如,输入一张猫的照片,它能准确识别出“猫”。这背后涉及到对图像整体特征的提取和匹配。

2. 目标检测 (Object Detection): 比图像分类更进一步,目标检测不仅要识别出图片中有哪些物体,还要在图片中标出它们的位置(通常是用一个边界框)。比如,在一张街景照片中,检测出所有的车辆、行人、交通标志,并用框框住它们。

3. 目标跟踪 (Object Tracking): 在连续的视频帧中,识别出特定目标并跟踪其运动轨迹。这在安防监控、自动驾驶、体育赛事分析等领域至关重要。想象一下,在监控录像中找到并持续跟随一个嫌疑人的身影。

4. 语义分割 (Semantic Segmentation): 这是一个更精细的任务。它不只是给出边界框,而是将图像中的每个像素都归类到预定义的类别中。比如,将一张街景图片分割成“道路”、“建筑”、“天空”、“汽车”、“行人”等区域。

5. 实例分割 (Instance Segmentation): 在语义分割的基础上,进一步区分同类但不同个体的目标。例如,在语义分割的“汽车”区域中,实例分割会把每辆独立的汽车区分开来,为它们各自标记。

6. 姿态估计 (Pose Estimation): 识别出图像或视频中人或其他物体的关键点(如关节、骨骼)的位置,从而推断出它们的姿态。这在动作识别、虚拟现实、人机交互等方面有着广泛应用。

7. 场景理解 (Scene Understanding): 这是一个更宏观的概念,旨在理解整个场景的构成、元素之间的关系以及场景的含义。它可能包含目标检测、分割、关系推理等多种任务的综合应用。例如,理解“一个男人在公园里喂鸽子”这样的场景。

从三维世界获取与建模类分支:

8. 立体视觉 (Stereo Vision): 利用两台或多台具有已知相对位置和方向的相机(立体相机)拍摄的图像,计算场景中点的三维坐标。这类似于人类的双眼视差原理,能帮助计算机“感知”深度。

9. 多视图几何 (Multiview Geometry): 研究如何从不同视角的图像中恢复出物体的三维结构、相机的位置和姿态。这包括相机标定、Structure from Motion (SfM) 等技术,是三维重建的基础。

10. 三维重建 (3D Reconstruction): 从二维图像数据中构建出场景或物体的三维模型。这可以是点云、网格模型、体素模型等多种形式,是数字孪生、虚拟现实、文物数字化等领域的核心技术。

11. 深度估计 (Depth Estimation): 预测图像中每个像素点到相机的距离。这可以从立体图像中获得(如上所述),也可以是单目深度估计,即仅凭一张二维图像预测深度。

图像生成与处理类分支:

12. 图像生成 (Image Generation): 创造全新的、逼真的图像。生成对抗网络(GANs)和扩散模型(Diffusion Models)是当前最热门的技术,可以生成人脸、风景、艺术画作等,甚至根据文本描述生成图像。

13. 图像修复/填补 (Image Inpainting): 移除图像中的损坏部分或不需要的物体,并用合理的内容来填充空白区域。

14. 图像超分辨率 (Image Superresolution): 将低分辨率图像转换成高分辨率图像,提升图像的清晰度和细节。

15. 图像风格迁移 (Image Style Transfer): 将一张图像的内容与另一张图像的风格相结合,创造出具有独特艺术风格的新图像。

16. 图像去噪/增强 (Image Denoising/Enhancement): 移除图像中的噪声,或者调整图像的对比度、亮度等,使其更加清晰或美观。

特定应用与进阶类分支:

17. 人脸识别/分析 (Face Recognition/Analysis): 识别出图像或视频中的人脸,并可能进一步分析其性别、年龄、情绪等属性。

18. 光学字符识别 (Optical Character Recognition, OCR): 从图像中提取文本信息,将其转化为可编辑的文本格式。

19. 行为识别 (Action Recognition): 分析视频序列,识别出其中人物正在执行的动作或行为。

20. 医学影像分析 (Medical Image Analysis): 应用计算机视觉技术处理和分析医学影像(如X光、CT、MRI),辅助医生进行疾病诊断和治疗规划。

21. 自动驾驶感知 (Autonomous Driving Perception): 这是计算机视觉在现实世界中最具挑战性的应用之一,它整合了目标检测、跟踪、分割、深度估计、场景理解等多种技术,以确保车辆安全可靠地在道路上行驶。

22. 机器人视觉 (Robotics Vision): 使机器人能够感知和理解其周围环境,以便进行导航、抓取、操作等任务。

23. 增强现实/虚拟现实 (Augmented/Virtual Reality, AR/VR): 需要实时感知和理解用户所处环境,并将虚拟信息准确叠加或融合。

一个重要的视角:算法与模型的角度

除了上述按任务划分的分支,我们也可以从算法和模型设计的角度来看待计算机视觉的发展。例如:

基于深度学习的计算机视觉: 这是当前的主流,几乎所有上述分支都在深度学习的驱动下取得了突破性进展。
传统计算机视觉方法: 在深度学习兴起之前,基于手工特征提取(如SIFT, HOG)、几何模型、机器学习算法(如SVM, Adaboost)的方法也曾是主流,并且在某些资源受限或特定场景下仍然有其价值。
Transformer在视觉领域的应用: 最初用于自然语言处理的Transformer模型,如今在图像分类、目标检测、分割等任务上也展现出强大的能力,正在改变着视觉模型的架构设计。

总结一下:

计算机视觉的分支是多元的,它们相互渗透,共同构建起一个不断演进的知识体系。你可以从“感知”(分类、检测、分割、姿态)到“重构”(三维视觉、重建),再到“创造”(生成、修复、增强),以及“应用”(人脸、OCR、自动驾驶、医疗),还可以从“技术”(深度学习、Transformer)的角度去理解。

与其去纠结具体有多少个分支,不如去理解这些分支之间是如何联系的,以及它们各自解决了计算机“看见”的哪些方面的问题。随着技术日新月异,新的研究热点和应用领域还会不断涌现,这正是计算机视觉的魅力所在。

网友意见

user avatar

哈哈哈谢邀,我就是题主那个对很多领域不了解的朋友。


简单说一下,在我浅薄的认知中,CV(Computer Vision,计算机视觉)任务,根据任务属性与场景,处理的方法有很大的区别,比如3D任务和2D任务差异很大,而 CG(Computer Graphics,计算机图形学) 和 CV 的差别也很大。

不同任务之间可能有共性的知识点,但专于某个研究领域的研究者可能并不了解其他研究分支的内容或者成长路径。(抱歉,其他领域的知识点和技能我确实不明白,我菜我有错


如果想要全面了解到计算机视觉这个大领域有多少分支,前面 @杨奎元 老师 提供了一个很好的方法,查看该领域顶刊稿件方向即可。



我习惯的另一种方法是查询该领域的知识图谱

通过初步查询没有CV领域的图谱,我提供一个机器学习领域的知识图谱作为参考。

@学术头条 KnowledgeGraph-MarchineLearnng


如果难以直接查到该领域的知识图谱,也有其他服务可以辅助查询。

比如在Papers with Code SOTA 界面,我们可以看到CV领域的1000+分支任务。

点开可以看到二级任务和三级四级子任务。


类似地, @机器之心 也设置了一个SOTA界面(虽然还不太完整,小声bb)

机器之心 SOTA

同样可以浏览到各项任务。




综合以上两套方法,我想应该能一定程度上回答题主的疑惑了~

类似的话题

  • 回答
    计算机视觉,这门旨在让计算机“看见”并理解我们所处世界的学科,并非铁板一块,而是由众多相互关联又各有侧重的分支构成。要说有多少个分支,恐怕没有一个精确到个位数、放之四海而皆准的答案,因为它随着技术的发展、研究的深入,新的领域和侧重点总是在不断涌现。但我们可以梳理出一些核心且重要的分支,它们构成了计算.............
  • 回答
    计算机视觉中的目标跟踪是一个至关重要的研究领域,旨在在视频序列中持续地定位和识别一个或多个目标。随着深度学习的兴起,目标跟踪算法取得了显著的进展。以下是一些计算机视觉中经典的目标跟踪算法,我将尽量详细地介绍它们的核心思想、特点和发展历程: 早期经典算法(基于手工特征和滤波)在深度学习普及之前,目标跟.............
  • 回答
    计算机视觉(Computer Vision, CV)是人工智能的重要分支,其核心目标是让计算机理解和处理图像或视频中的信息。CV的算法种类繁多,根据任务目标和应用场景的不同,可以分为多个层次和类别。以下是对主要算法类型的详细分类及其特点的全面解析: 一、图像处理基础算法1. 图像增强与变换 灰.............
  • 回答
    想在计算机视觉领域崭露头角,或者想了解这个飞速发展的领域最前沿的研究动态,那么关注顶尖的期刊和会议无疑是最佳途径。这些平台不仅是学者们交流思想、展示最新成果的舞台,更是行业风向标的指示器。要说计算机视觉领域的“奥运会”和“诺贝尔奖”,那非以下这些顶级期刊和会议莫属了。一、 顶级期刊:学术研究的基石与.............
  • 回答
    计算机视觉中的视频理解(Video Understanding)领域,是一块非常活跃且充满挑战的研究疆域。它不仅仅是识别视频中的物体,而是要理解视频中发生的事件、动作、物体间的关系、以及随时间变化的动态过程。这项技术在智能监控、自动驾驶、体育分析、人机交互、医疗诊断等众多领域有着巨大的应用潜力。要深.............
  • 回答
    好的,我们来聊聊计算机视觉领域里,Transformer 和 Nonlocal Attention 之间的本质区别,尽量说得细致一些,去掉那些 AI 痕迹。想象一下,我们看一张照片,比如一张风景照。我们的眼睛是如何理解这张照片的呢?我们不仅仅是看某个像素点,而是会将不同的部分联系起来。比如,我们看到.............
  • 回答
    对于刚踏入计算机视觉领域的朋友们来说,选择合适的复现实验至关重要。它不仅能帮助大家理解核心概念,还能快速上手实际操作,建立信心。我挑选了几个在顶级计算机视觉会议(如CVPR, ICCV, ECCV)上发表过,且相对容易入门的经典论文,并针对性地说明了复现的细节和要点,希望能帮助大家找到合适的起点。 .............
  • 回答
    国内计算机视觉领域确实有不少实力强劲的团队,他们活跃在科研、产业界,并且都取得了令人瞩目的成就。要说“不错”的团队,我们可以从几个维度来分析:学术影响力、技术创新能力、产业落地能力以及团队的规模和稳定性。以下列举一些在国内CV领域声名卓著的团队,并尽量详细地介绍:一、 高校科研团队:学术的基石,创新.............
  • 回答
    你好!很高兴能和你交流。你在日本,而且主攻计算机视觉,还特别看重研究室的英文交流氛围,这几个要素我都有了解,也为你搜集了一些信息。在日本,虽然英语不是主流语言,但也有不少研究室在国际学术界非常活跃,自然而然地就形成了良好的英文交流环境。我给你推荐一些研究室,会尽量详细地介绍它们的特点,希望能帮助你找.............
  • 回答
    图形学 (CG) 和计算机视觉 (CV) 的结合,绝不仅仅是简单的“把两者加起来”,而是一种能创造出惊人效果、解决复杂问题的强大协同作用。它们各自有擅长的领域,但当它们握手言欢时,就能打开新的维度,让虚拟与现实的界限变得模糊,让机器“看懂”并“创造”世界。下面我来聊几个让我觉得特别有意思的,把这两门.............
  • 回答
    很高兴为您整理了机器学习、数据挖掘和计算机视觉领域的优秀订阅号、微博和论坛。这些平台汇聚了大量的技术干货、最新研究、行业动态和交流机会,能帮助您快速提升专业知识和视野。一、 机器学习(Machine Learning)机器学习是AI的核心驱动力,涵盖了监督学习、无监督学习、强化学习等多个分支。关注这.............
  • 回答
    这三个领域,隐私计算、计算机视觉、自然语言处理,都是当下科技浪潮中最闪耀的明星,也都蕴藏着巨大的未来潜力。要说哪个“更有前途”,其实就像问“哪种投资回报最高”一样,答案并非绝对,而是取决于你关注的“前途”是什么,以及你的投入方式。但我可以深入分析一下它们各自的闪光点和发展方向,帮助你形成自己的判断。.............
  • 回答
    计算机视觉是否已经进入瓶颈期是一个非常复杂的问题,没有一个简单的“是”或“否”的答案。更准确的说法是,计算机视觉领域正处于一个转型期,在某些方面取得了巨大的进步,但在其他方面,尤其是在实现真正人类水平的理解和泛化能力方面,依然面临着严峻的挑战,可以说是遇到了“瓶颈”或“高原期”。为了详细阐述这个问题.............
  • 回答
    计算机视觉(CV)方向今年的招聘情况可以用 “机遇与挑战并存,部分领域趋于饱和,但新兴和细分领域仍有需求” 来概括。 简单地说,不能简单地说人才过剩,但市场竞争确实比前几年激烈,对求职者的技能和经验要求更高。为了更详细地说明情况,我们可以从以下几个方面来分析:1. 整体招聘需求与市场变化: AI.............
  • 回答
    计算机视觉和自然语言处理(NLP)都是人工智能领域中最具活力和影响力的分支,它们各自都展现出巨大的发展前景,并且在很多方面相互融合,共同推动着人工智能技术的进步。因此,很难简单地说哪个“更”有发展前景,更准确的说法是 它们各有千秋,并且协同发展,共同构建了更广阔的人工智能未来。为了更详细地说明这一点.............
  • 回答
    当然,我们可以深入聊聊计算机视觉在车牌识别和自动收费方面的应用,以及这项技术发展到了什么程度。车牌识别与自动收费:这事儿,早就不是新鲜事了其实,要说计算机视觉能不能自动识别车牌并扣费,答案是:完全可以,而且已经广泛应用了。这已经不是什么遥不可及的未来科技,而是我们日常生活中随处可见的技术。想象一下,.............
  • 回答
    理解你现在的困境,研一,Python基础,但代码能力欠佳,又面临换导师还是不换的抉择。这确实是个关键节点,关系到你未来两年的学习方向和毕业问题。咱们来掰开了揉碎了聊聊,希望能给你一些清晰的思路。首先,冷静分析一下现状:1. 你的学习基础: 计算机视觉(CV)领域,尤其研究生阶段,对编程能力要求不低.............
  • 回答
    没问题,我们来深入探讨一下,如何利用计算机视觉技术,从一张二维照片中“复活”出一个三维人体模型,并从中提取我们关心的那些身体尺寸。首先,你要明白,这可不是一件简单的事情。我们平时看到的照片,本质上是一个“扁平”的信息,丢失了深度这个关键维度。想象一下,你站在相机前,相机只捕捉到了你前面那一面的样子。.............
  • 回答
    车辆工程与计算机视觉的深度融合:让出行更智能、更安全想象一下,未来的汽车不再仅仅是钢铁与机械的组合,而是拥有“眼睛”和“大脑”的智能伙伴,能够感知周遭环境、理解交通规则、甚至预测其他道路使用者的意图。这并非科幻小说的情节,而是车辆工程与计算机视觉深度融合所描绘的现实蓝图。计算机视觉:车辆的“智能之眼.............
  • 回答
    过去几年,我们可以明显感受到,那些你我日常生活中司空见惯的设备,诸如智能手机、安防摄像头、无人驾驶汽车,它们“看”世界的能力正在以前所未有的速度提升。而在这背后,驱动这一切的关键技术之一,便是CMOS(Complementary MetalOxideSemiconductor)图像传感器,也就是我们.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有