三维重建 —— 6.多视图几何（运动恢复结构）

文章目录

1. 运动恢复结构
2. 欧式结构恢复
- 2.1. 基本概念
- 2.2. 求解 R 和 T
- 2.3. 欧式结构恢复的歧义性
3. 仿射结构恢复
- 3.1. 基本概念
- 3.2. 基于因式分解的仿射结构恢复
- 3.3. 仿射结构恢复的歧义性与局限性

课程视频链接：计算机视觉之三维重建（深入浅出SfM与SLAM核心算法）—— 6.多视图几何（运动恢复结构）。

1. 运动恢复结构

运动恢复结构（Structure from Motion, SfM）是计算机视觉领域的核心问题，旨在从一组多视角二维图像序列中恢复三维场景的结构信息（3D 点）和相机的运动参数（相机位姿），如下图所示：
在这里插入图片描述
运动恢复结构问题的数学模型可表述为：：

根据相机模型和已知参数的不同，SfM 可分为三类典型任务：

任务类型	相机模型	参数	求解目标
欧式结构恢复	透视相机	已知相机内参数矩阵	相机外参以及 3D 点坐标
仿射结构恢复	仿射相机	相机内外参数均未知	投影矩阵和 3D 点坐标
透视结构恢复	透视相机	相机内外参数均未知	投影矩阵和 3D 点坐标

2. 欧式结构恢复

2.1. 基本概念

欧式结构恢复是最常见的任务，相机内参（焦距、主点等）已通过标定确定，仅需计算相机外参（旋转矩阵 $\mathbf{R}$ 和平移向量 $T$ ）和 3D 场景点坐标。欧式结构恢复问题的数学模型可以表述如下：
在这里插入图片描述
参考博客：三维重建 —— 4. 三维重建基础与极几何，已知相机内外参数及两张图像中匹配的像素点对，便可通过三角化方法求解该点的 3D 坐标。三角化问题一般有线性法和非线性法两种求解方法，如下图所示：
在这里插入图片描述在欧式结构恢复中，相机外参是未知的，所以我们无法直接使用三角化求解 3D 点。考虑到基础矩阵 $\mathbf{F}$ 与本质矩阵 $\mathbf{E}$ 的数学关系（ $\mathbf{F} = \mathbf{K}_2^{-T} \mathbf{E} \mathbf{K}_1^{-1}$ ）以及本质矩阵与相机外参的数学关系（ $\mathbf{E} = T \times \mathbf{R} = [T_{\times}] \mathbf{R}$ ），我们可以使用归一化八点法求出基础矩阵 $\mathbf{F}$ ，然后求解出 $\mathbf{E} = \mathbf{K}_2^T \mathbf{F} \mathbf{K}_1$ ，在从本质矩阵 $\mathbf{E}$ 中分解出相机外参 $\mathbf{R}$ 和 T，这样我们就可以使用三角化求解场景的 3D 点。
在这里插入图片描述

2.2. 求解 R 和 T

根据方程 $x_2^T \mathbf{F} x_1 = 0$ 和 $\mathbf{E} = \mathbf{K}_2^T \mathbf{F} \mathbf{K}_1$ ，基础矩阵 $\mathbf{F}$ 和本质矩阵 $\mathbf{E}$ 只能确定到相差一个尺度因子（即对于任意非零常数 $k$ ， $k\mathbf{F}$ 同样满足方程）。
在这里插入图片描述
为了辅助后续的推导，我们先定义两个矩阵：
$\mathbf{W} = \begin{pmatrix} 0 & -1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}, \mathbf{Z} = \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix}$ 则有：
$\mathbf{W} = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & -1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & -1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} = -\mathbf{Z}$ $\mathbf{W}^T = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} = \mathbf{Z}$ 所以有：
$\mathbf{Z} = -diag(1, 1, 0) \mathbf{W} = diag(1, 1, 0) \mathbf{W}^T \tag{1}$
先证引理 1：已知 $\begin{pmatrix} t_x \\ t_y \\ t_z \end{pmatrix}$ ，则有 $[T_{\times}] = \begin{pmatrix} 0 & -t_z & t_y \\ t_z & 0 & -t_x \\ -t_y & t_x & 1 \end{pmatrix} = k \mathbf{U} \mathbf{Z} \mathbf{U}^T$ ，其中 $\mathbf{U}$ 是单位正交矩阵。
证明如下：
取 $u_3 = \dfrac{T}{\|T\|} = \begin{pmatrix} \dfrac{t_x}{\|T\|}, \dfrac{t_y}{\|T\|}, \dfrac{t_z}{\|T\|}\end{pmatrix}^T$ 和 $u_1 = \begin{pmatrix} -\dfrac{t_y}{\sqrt{t_x^2 + t_y^2}}, \dfrac{t_x}{\sqrt{t_x^2 + t_y^2}}, 0 \end{pmatrix}^T$ ，可知 $u_3 \cdot u_1 = 0$ 。
令 $u_2 = \dfrac{u_3 \times u_1}{\|u_3 \times u_1\|}$ ，取 $\mathbf{U} = [u_1, u_2, u_3]$ ，则有 $\mathbf{U}^T \mathbf{U} = \mathbf{I}$ ，其中 $u_1, u_2, u_3$ 为标准正交基。
可知 $\mathbf{U}^T T = \begin{pmatrix} u_1^T \\ u_2^T \\ u_3^T \end{pmatrix} T = \begin{pmatrix} u_1^T T \\ u_2^T T \\ u_3^T T \end{pmatrix} = \begin{pmatrix} u_1 \cdot T \\ u_2 \cdot T \\ u_3 \cdot T \end{pmatrix} = (u_1 \cdot T)\begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} + (u_2 \cdot T)\begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} + (u_3 \cdot T)\begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix}$ ，又因为
$\begin{cases} u_3 \cdot T = \dfrac{T}{\|T\|} \cdot T = \|T\| \\ u_1 \cdot T = -\dfrac{t_x t_y}{\sqrt{t_x^2 + t_y^2}} + \dfrac{t_x t_y}{\sqrt{t_x^2 + t_y^2}} = 0 \\ u_2 \cdot T = u_2 \cdot (\|T\|u_3) = 0 \end{cases}$ 所以 $\mathbf{U}^T T =\|T\| \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix}$ 。
对任意向量 $\omega = \begin{pmatrix} \omega_x \\ \omega_y \\ \omega_z \end{pmatrix}$ 有：
$\begin{align*} \mathbf{U}^T [T_{\times}] \mathbf{U} \omega &= \mathbf{U}^T [T \times (\mathbf{U} \omega)] = (\mathbf{U}^TT)\times (\mathbf{U}^T \mathbf{U} \omega) = \|T\| \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix} \times \omega \\ &= \|T\| \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} \omega \end{align*}$ 即有：
$\left[\mathbf{U}^T [T_{\times}] \mathbf{U} - \|T\| \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} \right] \omega = 0$ 由于 $\omega$ 是任意向量，所以有：
$\mathbf{U}^T [T_{\times}] \mathbf{U} = \|T\| \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix}$ 令 $\sigma = \|T\|$ ，即有：
$[T_{\times}] = \sigma \mathbf{U} \mathbf{Z} \mathbf{U}^T \tag{2}$ 证毕。

结合方程 $(1)$ 和引理 $(1)$ 有：
$\begin{align*} [T_{\times}] &= \sigma \mathbf{U} \mathbf{Z} \mathbf{U}^T \\ &= -\sigma \mathbf{U} diag(1, 1, 0) \mathbf{W} \mathbf{U}^T \\ &= \sigma \mathbf{U} diag(1, 1, 0) \mathbf{W}^T \mathbf{U}^T \end{align*} \tag{3}$ 取 $[T_{\times}] = -\sigma \mathbf{U} diag(1, 1, 0) \mathbf{W} \mathbf{U}^T$ ，则有：
$\mathbf{E} = [T_{\times}] \mathbf{R} = \mathbf{U} diag(-\sigma, -\sigma, 0) \mathbf{W} \mathbf{U}^T \mathbf{R}$ 对 $\mathbf{E}$ 做奇异值分解有： $\mathbf{E} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T$ ，对比上述两个式子有：
$\mathbf{V}^T = \mathbf{W} \mathbf{U}^T \mathbf{R}$ 考虑到 $\mathbf{W}$ 和 $\mathbf{U}$ 都是单位正交阵，即有：
$\mathbf{R} = \mathbf{U} \mathbf{W}^T \mathbf{V}^T \tag{4}$ 取 $[T_{\times}] = \sigma \mathbf{U} diag(1, 1, 0) \mathbf{W}^T \mathbf{U}^T$ ，同理可得：
$\mathbf{R} = \mathbf{U} \mathbf{W} \mathbf{V}^T \tag{5}$ 公式 $(4)$ 和 $(5)$ 只保证了矩阵 $\mathbf{U} \mathbf{W} \mathbf{V}^T$ 和 $\mathbf{U} \mathbf{W}^T \mathbf{V}^T$ 是正交的，但是旋转矩阵还要满足 $det(\mathbf{R}) = 1$ ，因此为确保行列式的值为正，将公式 $(4)$ 和 $(5)$ 修改成如下：
$\mathbf{R} = det(\mathbf{U} \mathbf{W} \mathbf{V}^T) \mathbf{U} \mathbf{W} \mathbf{V}^T \quad or \quad \mathbf{R} = det(\mathbf{U} \mathbf{W}^T \mathbf{V}^T) \mathbf{U} \mathbf{W}^T \mathbf{V}^T \tag{6}$ 此外，可知：
$\begin{align*} T \times T = [T_{\times}] T = \sigma \mathbf{U} \mathbf{Z} \mathbf{U}^T T &= \sigma \left( u_1, u_2, u_3 \right) \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} u_1^T \\ u_2^T \\ u_3^T \end{pmatrix} T \\ &= \sigma \left( -u_2, u_1, 0 \right) \begin{pmatrix} u_1^T \\ u_2^T \\ u_3^T \end{pmatrix} T \\ &= \sigma \left( -u_2 u_1^T + u_1u_2^T \right) T = 0 \end{align*}$ 即有： $u_2 (u_1^T T) + u_1 (u_2^T T) = 0$ ，因为 $u_1^T u_3 = 0$ 且 $u_2^T u_3 = 0$ ，不难得出：
$±u_3 \tag{7}$ 其中， $u_3$ 为矩阵 $\mathbf{U}$ 的第三列。上述推导总结如下图：
在这里插入图片描述
根据公式 $(6)$ 和公式 $(7)$ ， $\mathbf{R}$ 和 $T$ 共有四组可能的解。为了确定正确的解，通常通过三角化一个或多个空间点进行验证。其中，只有确保这些点在各自相机坐标系下深度值 $z$ 为正（或者 $z$ 坐标均为正的个数最多）的那组解，才是有效的解，如下图所示：
在这里插入图片描述

2.3. 欧式结构恢复的歧义性

欧式结构恢复无法恢复场景的绝对尺度，仅能重建与真实场景相似的三维结构（尺度比例一致但大小未知）。若需恢复实际尺度，必须依赖外部先验信息（例如，场景中包含已知尺寸的物体，如标准高度的行人、车辆长度、建筑层高等，通过比对重建模型与真实尺寸的比例计算尺度因子）或辅助传感器数据（例如 IMU、深度相机）。这一特性使得单目三维重建在无人驾驶、机器人导航等需精确尺度的场景中必须与其他传感器协同使用。

如下图所示，在欧式结构恢复中，重建的三维场景与真实场景之间存在相似变换歧义：恢复的结构不仅在尺寸上与真实场景相差一个缩放因子 $s$ ，还因坐标系定义差异存在旋转矩阵 $\mathbf{R}$ 和平移向量 $T$ 的偏移。整体而言，重建场景 $P_{rec}$ 与真实场景 $P_{real}$ 的关系可表示为：
$P_{rec} = s \cdot \mathbf{R} \cdot P_{real} + T$ 这一变换的根源在于算法将第一帧相机的坐标系设为世界坐标系，而真实场景的绝对坐标系可能与相机坐标系存在任意刚体变换（如旋转和平移）。此简化设定虽方便计算，但导致重建结果缺乏绝对空间基准。
在这里插入图片描述

3. 仿射结构恢复

3.1. 基本概念

参考博客：三维重建 —— 1. 摄像机几何，仿射相机（如弱透视投影）假设场景深度变化远小于物距，忽略透视效应，导致投影方程线性化，线性模型丢失了深度信息，使解空间扩大。
弱透视投影摄像机的投影矩阵 $\begin{bmatrix} m_1 \\ m_2 \\ m_3 \end{bmatrix} = \begin{bmatrix} A_{2\times3} & b_{2\times1} \\ 0_{1\times3} & 1 \end{bmatrix} = \begin{bmatrix} m_1 \\ m_2 \\ 0,0,0,1 \end{bmatrix}$ 。假设三维点 $P$ 的坐标为 $\begin{bmatrix} x \\ y \\ z \end{bmatrix}$ ，其在图像平面上对应的像素点 $p$ 的坐标为 $\begin{bmatrix} u \\ v \end{bmatrix}$ ，则有：
$[\mathbf{A}, b] \begin{bmatrix} X \\ 1 \end{bmatrix} = \mathbf{A} X + b$ 仿射结构恢复问题的数学模型如下图所示：
在这里插入图片描述

3.2. 基于因式分解的仿射结构恢复

基于因式分解的仿射结构恢复分为两个步骤：数据中心化和因式分解获得运动与结构。
首先，我们来介绍一下数据中心化，如下图所示：
在这里插入图片描述
上图中， $x_{ij}$ 表示第 $i$ 张图像中的第 $j$ 个像素点，该像素点对应于场景中的三维点 $X_j$ 。

下面我们来介绍使用因式分解来获得运动与结构。假设一共有 $m$ 张图像和 $n$ 个三维点，根据 $\hat{x}_{ij} = \mathbf{A}_i \hat{X}_j = \mathbf{A}_i X_j$ ，可以列出数据中心化的矩阵方程，如下图所示：
在这里插入图片描述
由矩阵 $\mathbf{S}$ 和 $\mathbf{M}$ 的秩都为 3 可知， $\mathbf{D} = \mathbf{M} \mathbf{S}$ 的秩也为 3，因式分解方法如下图所示：

3.3. 仿射结构恢复的歧义性与局限性

仿射结构恢复歧义是指在利用仿射相机模型从多视图图像中重建三维结构时，解的不唯一性。这种歧义表现为恢复的场景结构与真实结构之间存在一个仿射变换的差异，即旋转、平移、缩放的组合。
对于任意可逆矩阵 $\mathbf{H} \in \Bbb{R}^{3 \times 3}$ ，有 $\mathbf{D} = \mathbf{M} \mathbf{S} = (\mathbf{M} \mathbf{H})(\mathbf{H}^{-1} \mathbf{S}) = \mathbf{M}^* \mathbf{S}^*$ ，如下图所示：
在这里插入图片描述
歧义对重建的影响包括：