三维重建 3D reconstruction 有哪些实用算法？

说起三维重建，这可不是件简单事儿，它就像是把我们眼睛里看到的世界，用数字化的方式重新描绘出来。这个领域里，算法可真是百花齐放，各有各的绝活。今天，咱们就来聊聊几个特别实用的算法，尽量说得明白透彻一些，让你听着就像是和一位老朋友在侃大山一样。

咱们得先明白，三维重建的核心目标是什么？简单来说，就是从一些“线索”（比如照片、传感器数据）出发，还原出物体的三维形状和纹理。这些线索越多，越精确，重建出来的东西就越逼真。

1. 多视图几何 (MultiView Geometry)

这是三维重建的“老祖宗”之一了，也是最基础也是最强大的方法之一。它的核心思想是利用同一个场景，从不同的角度拍摄多张照片，然后通过分析这些照片之间的对应关系，来推算出相机的位置和姿态，以及场景中点的三维坐标。

关键概念：
特征点检测与匹配 (Feature Detection and Matching): 想象一下，你盯着一张桌子，从左边看一眼，再从右边看一眼。你会发现桌子上的某些点，比如桌腿的尖角，或者桌面上某个独特的纹理图案，在两张照片里都能找到。这些点就是“特征点”。算法会找出这些特征点，然后把它们在不同照片里的“身影”给对上号，这就叫特征点匹配。SIFT、SURF、ORB等都是非常经典的特征点提取和匹配算法。它们擅长在不同光照、旋转甚至有少量遮挡的情况下找到对应的点。
对极几何 (Epipolar Geometry): 这个概念听起来有点学术，但理解了就好办。简单说，如果你有一张照片A，里面有一个点P，那么在另一张照片B里，这个点P只能出现在一条特定的线上，这条线就叫做“极线”。对极几何就是描述了这种“一张照片里的点，在另一张照片里应该出现在哪条线上”的约束关系。通过多个对应点对，可以计算出这种几何关系，也就是所谓的本质矩阵 (Essential Matrix) 或基础矩阵 (Fundamental Matrix)。
三角测量 (Triangulation): 一旦你知道了相机的内外参数（比如焦距、镜头畸变等），也知道了两张照片之间有多少“位移”和“旋转”（由本质矩阵/基础矩阵描述），再找到一对对应点在两张照片里的位置，就可以“画两条线”，然后看这两条线在三维空间中交在哪里。这个交点，就是那个三维点的真实位置。这个过程就像是用两只眼睛来感知深度一样，越远的物体，两只眼睛看到它的偏移就越小。
束调整 (Bundle Adjustment): 这个是最后一步，也是非常关键的一步。前面我们用特征点匹配、对极几何和三角测量算出了很多三维点和相机的姿态。但这些计算肯定会有误差积累。束调整就是一种优化算法，它会把所有相机的位置、姿态以及所有三维点的坐标当作变量，然后去寻找一个最优解，使得这些点在所有照片上的投影位置，和实际在照片上找到的特征点位置之间的误差最小。这是一个非常耗时的过程，但能极大地提高重建的精度和全局一致性。

实际应用：
摄影测量 (Photogrammetry): 从航空照片或无人机照片恢复地形地貌、建筑物模型，这个应用就离不开多视图几何。
SLAM (Simultaneous Localization and Mapping): 机器人或AR设备在未知环境中移动时，一边建图一边定位，多视图几何是其核心技术之一。
3D建模和虚拟现实: 通过拍摄物体的多张照片，来创建高精度的三维模型。

2. 结构光扫描 (Structured Light Scanning)

如果说多视图几何是“被动”地从现有照片里找线索，那么结构光扫描就是“主动”地给物体打上“标记”，然后再观察这些标记的变化来推断形状。

核心思想：向物体表面投射预先知道的图案（比如条纹、点阵等），然后用相机拍摄这些图案在物体表面变形后的样子。因为图案的变形规律是和物体表面的形状密切相关的，通过分析这些变形，就能计算出物体的三维信息。
关键技术：
图案编码 (Pattern Encoding): 投射的图案有很多种，比如：
条纹投影 (Stripe Projection): 投射一系列平行的条纹。当条纹遇到曲面时，会被弯曲和扭曲。
相位编码 (Phase Shifting): 通过投射一系列不同相位偏移的条纹图案，可以更精确地测量每个点的深度信息，抗干扰能力更强。
德布鲁因序列编码 (De Bruijn Sequence Encoding): 这种编码方式可以将每个像素唯一地映射到一个三维点上，即使在有遮挡的情况下也能进行匹配。
相位解调 (Phase Unwrapping): 条纹投影最核心的步骤。通过分析不同时间（不同图案）拍摄到的图像中同一个点的条纹相位，可以计算出该点距离投影仪的相对深度。但相位信息是周期性的，需要“解开”这个周期，才能得到绝对深度。
相机投影仪标定 (CameraProjector Calibration): 需要精确地知道投影仪的投射方向、图案以及相机的拍摄视角、焦距等参数，才能进行准确的三角测量。

优点：
高精度: 结构光扫描通常可以达到微米级的精度，非常适合高精度的工业测量和逆向工程。
速度快: 相比于一些依赖特征点匹配的方法，结构光扫描在采集数据时可以一次性获取大量信息。

缺点：
对表面材质敏感: 对于透明、反光或表面纹理不明显的物体，效果会大打折扣。
测量范围有限: 每个扫描仪都有其最佳的测量距离和范围。
需要主动投光: 在黑暗环境中效果最好，强光会干扰测量。

实际应用：
工业检测与质量控制: 检测零部件的尺寸、形状是否符合要求。
逆向工程: 从现有产品的三维扫描数据生成设计模型。
文物保护与数字化: 精确记录文物的形状和细节。
医疗领域: 用于人脸识别、牙科扫描等。

3. 激光扫描 (Laser Scanning)

激光扫描也是一种主动测量方法，但它不是通过投射图案，而是直接发射激光束，然后测量激光与物体表面接触后反射回来的信息。

核心思想：发射一束激光，通过测量激光脉冲往返的时间（TimeofFlight, ToF）或激光束被反射回来的角度，来确定激光点在空间中的三维坐标。
主要技术：
飞行时间法 (TimeofFlight, ToF):
脉冲式 (Pulsed ToF): 发射一个激光脉冲，测量激光从发出到接收到反射信号所需的时间。根据光速乘以时间的一半，就能得到距离。这种方法精度受计时精度影响很大。
连续波式 (Continuous Wave ToF, CW ToF): 通过发送一个调制频率的连续激光波，测量发射波和接收波之间的相位差来计算距离。这种方法可以更平滑地测量距离，但可能存在距离模糊的问题。
相干检测法 (Coherent Detection): 类似于CW ToF，但使用更高级的信号处理技术，例如多频连续波或线性调频连续波（LFMCW），来提高测距的稳定性和精度。
激光雷达 (LiDAR): 通常指一种集成了激光扫描技术，并且具备了扫描镜（如旋转镜或振镜）的设备，可以快速地将激光束扫描到不同方向，从而一次性获取一个二维或三维的点云数据。

优点：
测距远且精度高: 尤其是在户外或远距离测量场景下表现优异。
对表面材质不敏感: 比结构光扫描更不容易受物体表面材质的影响。
不受环境光影响: 可以全天候工作。

缺点：
成本相对较高: 尤其是高精度的激光雷达设备。
点云稀疏: 为了避免激光点之间的干扰，点云密度通常不如结构光扫描密集。
难以获取细部纹理: 主要获取的是几何形状，纹理信息需要额外传感器（如彩色相机）配合。

实际应用：
自动驾驶汽车: 用于感知周围环境，绘制高精度地图。
地形测绘与城市建模: 快速获取大范围的地形数据和城市建筑模型。
机器人导航: 帮助机器人在复杂环境中定位和规划路径。
工业自动化: 用于物料跟踪、尺寸测量等。

4. 深度学习与传感器融合 (Deep Learning and Sensor Fusion)

前面提到的算法更多是基于几何原理，而近年来深度学习的兴起，为三维重建带来了全新的思路。同时，将不同传感器（相机、激光雷达、IMU等）的数据融合起来，也能获得比单一传感器更强大、更鲁棒的重建能力。

深度学习在三维重建中的应用：
端到端重建 (EndtoEnd Reconstruction): 直接从图像输入，输出三维模型或深度图。例如，基于卷积神经网络（CNN）的深度预测网络（如Monocular Depth Estimation），可以从单张彩色图像预测出场景的深度信息。
点云处理 (Point Cloud Processing): 直接处理激光扫描等方法得到的点云数据。例如，PointNet系列算法可以直接处理无序的点云数据，用于点云分类、分割或重建。
表面重建 (Surface Reconstruction): 从深度图或点云重建出连续的、光滑的曲面。例如，基于学习的占用栅格图（Occupancy Grid Mapping）或隐式表面表示（Implicit Surface Representation）等。
新视角合成 (Novel View Synthesis): 学习一个场景的表示，能够生成从任何新视角观看该场景的图像。NeRF (Neural Radiance Fields) 就是一个非常成功的例子，它能够从多张固定视角的照片生成极其逼真的新视角图像，并且隐含地包含了三维几何信息。
语义三维重建 (Semantic 3D Reconstruction): 不仅重建几何形状，还同时识别出场景中的物体类别和属性。

传感器融合在三维重建中的应用：
视觉惯性里程计 (VisualInertial Odometry, VIO): 将相机和惯性测量单元（IMU）的数据融合起来，可以极大地提高定位和建图的鲁棒性，尤其是在纹理稀疏或动态变化的环境中。IMU可以提供高频的运动信息，补偿相机在快速运动或遮挡时的不足。
激光视觉融合 (LiDARVision Fusion): 激光雷达提供精确的几何信息，而相机提供丰富的纹理和颜色信息。将两者融合，可以在精确重建几何的同时，也恢复出逼真的表面纹理。例如，将激光点云投影到相机图像上，然后将纹理信息映射到三维模型上。
多模态数据融合: 结合RGBD相机（同时提供颜色和深度信息）、热成像相机、声纳等多种传感器，可以获得更全面、更丰富的信息，从而进行更鲁棒、更精确的三维重建。

优点：
鲁棒性更强: 结合不同传感器的优势，能够应对更复杂的环境和场景。
精度和细节更丰富: 能够同时获得高精度的几何信息和逼真的纹理细节。
智能性更高: 深度学习能够学习到更深层次的场景特征，实现更智能的重建任务。

缺点：
算法复杂度高: 需要处理和融合多种数据源，计算量巨大。
数据标注成本高: 训练高质量的深度学习模型需要大量的标注数据。
设备成本高: 需要多种传感器设备配合使用。

实际应用：
AR/VR应用: 提供沉浸式的交互体验，需要实时的环境感知和三维重建。
机器人感知与导航: 实现更高级的环境理解和路径规划。
数字孪生 (Digital Twin): 创建现实世界对象的精确数字副本，用于模拟、分析和优化。
影视制作与游戏开发: 创建逼真的虚拟场景和角色。

总结一下

这几种算法各有千秋，没有哪一种是万能的。

如果你需要高精度的几何形状测量，并且有办法让物体配合（比如在室内、可控环境下），结构光扫描会是个好选择。
如果你需要在远距离或者大范围进行测量，而且对纹理要求不高，激光扫描（LiDAR）就非常合适，尤其是在户外自动驾驶这样的场景。
如果你手上有很多照片，并且希望利用这些照片恢复三维信息，多视图几何就是最基础也是最经典的工具。
而如果你想要更智能、更鲁棒、更贴近现实世界复杂性的重建，并且愿意投入计算资源，那么深度学习和传感器融合绝对是未来的方向。

实际工作中，往往会结合多种算法，比如先用激光扫描获取粗略的几何轮廓，再用多视图几何进行细节补充和纹理映射，最后用深度学习优化结果，得到一个既精确又逼真的三维模型。

三维重建的世界一直在飞速发展，新的算法和技术层出不穷，真是个充满魅力和挑战的领域！希望我这些“唠叨”能让你对它有个更直观的认识。

网友意见

在这个问题下，竟然没有人说大名鼎鼎的KinectFusion以及他后面的一系列工作？KinectFusion单篇论文引用都已经超过3000次了，不应该啊！

如果只想看现阶段效果最好的三维重建算法，请拉到文章最后（如有更好的算法，还请告知）。

一、KinectFusion

帝国理工的Newcombe等人在2011年提出的KinectFusion，可在不需要RGB图而只用深度图的情况下就能实时地建立三维模型。KinectFusion算法首次实现了基于廉价消费类相机的实时刚体重建，在当时是非常有影响力的工作，它极大的推动了实时稠密三维重建的商业化进程。

在他们的论文中没有开源代码，最初的代码是由PCL团队实现的：kinectfusion-open-source

KinectFusion的重建效果可以看这个视频：

KinectFusion重建效果 https://www.zhihu.com/video/1184501699569471488

KinectFusion之后，陆续出现了Kintinuous，ElasticFusion，ElasticReconstruction，DynamicFusion，InfiniTAM，BundleFusion等非常优秀的工作。其中2017年斯坦福大学提出的BundleFusion算法，据说是目前基于RGB-D相机进行稠密三维重建效果最好的方法。

二、Kintinuous和ElasticFusion

这两个工作都是同一个人做出来的，这个人就是Thomas Whelan。这两个工作应该算KinectFusion之后影响力比较大的。

Kintinuous GitHub代码：mp3guy/Kintinuous

ElasticFusion GitHub代码：mp3guy/ElasticFusion

Kintinuous2.0重建效果：

ElasticFusion 重建效果：

三、ElasticReconstruction

项目官网：http://qianyi.info/scene.html

GitHub代码：qianyizh/ElasticReconstruction

重建效果：

四、InfiniTAM

InfiniTAM提供Linux，iOS，Android平台版本，CPU可以实时重建。

官网：InfiniTAM v3

GitHub代码：victorprad/InfiniTAM

重建效果：

五、DynamicFusion

官网： DynamicFusion Project Page

代码： https:// github.com/mihaibujanca /dynamicfusion

重建效果：

六、BundleFusion

据说是现在重建效果最好的工作！

官网： BundleFusion

论文：https://arxiv.org/pdf/1604.01093.pdf

代码：niessner/BundleFusion

算法解读：计算机视觉方向简介 | 深度相机室内实时稠密三维重建

重建效果：

BundleFusion：最好的三维重建 https://www.zhihu.com/video/1184509281717673984

最近国防科大张博士也发表了一篇稠密三维重建的文章 (ROSEFusion)。仅依靠深度图作为输入，利用随机优化实现了快速相机下的稠密重建。代码已经开源https://github.com/jzhzhang/ROSEFusion

ROSEFusion 能够在仅考虑深度图作为输入的条件下，利用随机优化求解相机位姿，实现了在快速相机移动下的室内场景稠密重建。同时该工作仅依赖深度信息，因此也可以在无光照，和变化光照的条件下使用。该工作的主要特点是：(a) 利用深度图和TSDF相容性作为代价函数，不需要提取特征点，仅依赖于深度图；(b) 提出了Particle Swarm Template（PST），利用PST可以高效的对相机位姿空间进行采样，并利用随机优化求解出相机的位姿。

倾情整理，建议收藏。

如果能点赞就更好。

首先一切建立在相机模型 x=kPX 上

(x,X分别代表图片和空间中的二维三维齐次坐标，k为相机内参矩阵，P=[R | t] 为空间坐标系到相机坐标系的 orientation- R 和 translation- t)

1, 首先对某一场景多角度多位置得到很多初始数据，选择其中的某两个来初始化，选定其中一个为空间原点。

2. 通过SIFT SURF等特征点查找匹配之后，用 8点法和 RANSAC，多次计算两张图之间的Fundamental Matrix，选择其中最好的一个

3.用F-matrix计算Essential-matrix

4, 用E-matrix计算相机的R和T，需要用SVD分解，因为orientation R是一个正交阵。

5，得到两个相机之间的P矩阵之后，通过对应点，用Triangulation计算对应点的空间坐标。

6. 第三个位置的照片，直接根据已有的上步计算的点，与第三个位置图片上点的对应关系，计算P矩阵。

7. 最后全局优化，Bundle Adjustment

8， Bundle Adjustment所有的艺术就是优化 hessian matrix的逆矩阵

------------------------------------------------------------------------------------------------------------

推荐宾大Shi Jianbo教授在Coursera上的公开课 Robotics:Perception

上面所有的截图都来自他最后一次课的视频讲义截图

https://www. coursera.org/learn/robo tics-perception/home/welcome

配合视觉圣经 Multiple View Geometry来看简直完美。Ransac, Bundle-adjustment, 2-View, Homography全部都有。一共四周，有线性代数基础(主要是SVD用来解线性方程)，作业用Matlab.

第一周作业： Dolly Zoom

第二周作业：平面摄影几何，广告牌在视频中的投影，类似2D增强现实

第三周作业：在平面Barcode上通过sift检测特征点，通过H矩阵计算相机位置，做3D增强现实

第四周作业： 3D重建

类似的话题

三维重建 3D reconstruction 有哪些实用算法？

说起三维重建，这可不是件简单事儿，它就像是把我们眼睛里看到的世界，用数字化的方式重新描绘出来。这个领域里，算法可真是百花齐放，各有各的绝活。今天，咱们就来聊聊几个特别实用的算法，尽量说得明白透彻一些，让你听着就像是和一位老朋友在侃大山一样。咱们得先明白，三维重建的核心目标是什么？简单来说，就是从一些.............
电饭煲3D聚能加热和三维立体加热有什么区别

.......
三维重建怎么入门？

想踏入三维重建的奇妙世界？别担心，这不像你想象的那么遥不可及。从“这玩意儿是怎么做出来的？”的迷茫，到亲手“创造”出立体世界的成就感，整个过程其实充满乐趣和探索。今天，我就带你一步步地揭开三维重建的面纱，让你能快速上手，玩转这个酷炫的技术。首先，咱们得搞明白，这三维重建到底是个啥玩意儿？简单来说，三.............
对于透明物体的三维重建有什么好方法吗？

洞察隐匿之形：透明物体三维重建的挑战与破局之道对于我们日常所见的许多物体，例如玻璃杯、水滴、水晶装饰品，甚至是某些生物组织，它们的透明特性为我们带来了独特的视觉体验，但同时也给三维重建带来了巨大的挑战。与不透明物体不同，透明物体的表面并不能直接反射出稳定的光照信息，光线会在物体内部发生折射、反射、散.............
三维围棋可行吗？难度有多大？

三维围棋？听起来就让人眼前一亮！我来给你好好掰扯掰扯这事儿，保证不带一点机器腔调。三维围棋，可行性几何？简而言之，可行，但难度极大。围棋本身就不是一个简单的游戏，将它搬到三维空间，简直是给本来就错综复杂的棋局加上了更多维度，想想都让人脑壳疼。为什么说可行？我们玩游戏嘛，总得有点想象力。三维围棋无非.............
三维空间中的旋转矩阵是怎样求出的？

好的，咱们来聊聊三维空间里的旋转矩阵是怎么来的。这篇文章尽量不让你觉得是机器写出来的，咱们就用最直观的方式来理解。首先得明白一个事儿，啥叫旋转？就是在一个中心点（通常是原点）绕着某条线（称为旋转轴）把物体转动一个角度。在三维空间里，想象一下，你手里拿着一个魔方，想把它绕着某一条棱转一下，这就是个三维.............
三维生物有一丝可能可以挑战四维生物吗？还是四维生物就是神一样的存在？

这个问题非常有意思，它触及了我们对维度、存在和可能性的基本认知。让我试着从几个角度来探讨一下。首先，我们得先厘清“三维生物”和“四维生物”到底意味着什么。我们对三维生物的理解：我们自己就是典型的三维生物。我们存在于一个空间维度（前后、左右、上下）和一个时间维度中。我们的身体有长度、宽度和高度。我们可.............
三维数据统计分析和可视化都有哪些优秀的开源项目？

探索三维数据世界的利器：优秀的开源项目深度解析三维数据的统计分析与可视化，是理解复杂空间信息、挖掘隐藏模式、甚至驱动创新设计的关键。在开源社区的蓬勃发展下，涌现出了一批批功能强大、社区活跃的优秀项目，为我们打开了通往三维数据世界的大门。今天，我们就来深入探索这些项目的魅力，看看它们是如何帮助我们进行.............
三维家已与上个月实现主体业务的全面上云。三维家决定与阿里云合作，是出于哪些方面的考虑呢？

.......
三维立体与底盘加热的电饭煲哪个好啊？

.......
三维立体与全方位加热的电饭煲哪个好啊?

.......
三维立体电饭煲和普通电饭煲那个好

.......
为什么三维欧氏空间中的紧致曲面必有正曲率的点？

在一个三维欧氏空间中，我们考察一个光滑的紧致曲面。想要弄清楚为什么这样的曲面必然存在正曲率的点，这其实可以追溯到一些非常深刻的几何概念，其中高斯博内定理扮演了至关重要的角色。不过，我们先不直接跳到那个定理，而是尝试从更直观的层面来理解它。首先，让我们明确一下“曲率”是什么意思。在三维空间中，曲面在某.............
为什么三重以上升降号（A♯♯♯、B♭♭♭♭ …）的音极其罕见？如何定义它们的音高？

三重以上升降号（A♯♯♯、B♭♭♭♭ 等）的音符在乐谱上极其罕见，这背后其实涉及到了音乐理论的根基以及实际演奏的考量。要理解这一点，我们得从音高、调性以及记谱法这几个方面深入剖析。为什么它们如此罕见？最根本的原因在于音乐的实际需求和听觉习惯。我们的音乐系统，无论是古典音乐还是现代流行音乐，都建立在相.............
只有三维向量有向量积吗？

向量积，这个只有三维空间里才存在的奇特运算，确实常常让人好奇它的“独特性”。你问得好，为什么我们谈论向量积的时候，总是默认它只存在于三维世界呢？这背后是有原因的，而且答案比你想的要更深刻一些。我们平时说的向量积，又叫叉乘、外积，它有个很酷的特点：它把两个向量变成了一个新的向量。更神奇的是，这个新向量.............
在三维空间单位球上放置n个完全一样的点电荷，怎样放置电势能最低？

这确实是一个引人入胜的问题，关于如何在单位球上放置 N 个相同电荷以达到最低势能。这个问题实际上涉及到物理学中的一个经典难题，通常被称为“电荷在球壳上的分布问题”或者更广义的“最小能量构型问题”。要详细地解答它，我们需要一步一步来分析。核心思想：同种电荷相互排斥，为了达到最低势能，这些电荷会尽可能地.............
有没有三维的数据结构？

当然有，而且在三维世界里，各种各样的数据结构层出不穷，它们就像是构建数字三维世界的积木，每一种都有自己的脾气和用途。我尽量不说那些听起来像教科书上的术语，而是用更形象的说法来聊聊。想象一下，你不是在处理一堆平面的信息，而是在一个立体的空间里。比如，你正在制作一个游戏，里面有一个巨大的开放世界，里面有.............
电饭煲三维立体加热与ih电磁加热那种好

.......
电饭锅三维立体加热和lh加热哪种好

.......
电饭锅三维立体加热的和底板加热有什么区别

.......