三维重建 —— 7. 透视结构恢复

文章目录

1. 基本概念
2. 代数方法
3. 捆绑调整

课程链接：计算机视觉之三维重建（深入浅出SfM与SLAM核心算法）—— 7.多视图几何（下）。

1. 基本概念

透视结构恢复问题的数学模型如下图所示：
在这里插入图片描述
透视结构恢复的歧义如下图所示。从图中可以看出， $x_{ij} = \mathbf{M}_i X_j = (\mathbf{M}_i \mathbf{H}^{-1})(\mathbf{H} X_j) = \mathbf{M}^* X^*$ 。因此，估计的投影矩阵 $\mathbf{M^*}$ 与真实的投影矩阵 $\mathbf{M}$ 至多相差一个可逆矩阵 $\mathbf{H}^{-1}$ （这里 $\mathbf{H}$ 是 $\times 4$ 可逆矩阵），而重建的三维点 $X^*$ 与真实三维点 $X_j$ 之间相差矩阵 $\mathbf{H}$ 所定义的线性变换。
在这里插入图片描述
在相差一个 $\times 4$ 可逆矩阵 $\mathbf{H}$ 的情况下，恢复摄像机运动与场景结构的方法有两种：

代数方法（通过基础矩阵 $\mathbf{F}$ ）
捆绑调整(Bundle Adjustment, BA)

2. 代数方法

我们先讨论 2 视图的解法，再拓展到 $N$ 视图的解法。2 视图的代数解法如下：
代数方法的求解步骤如下图所示。首先，通过归一化八点法求解出基础矩阵 $\mathbf{F}$ 。然后，我们需要通过基础矩阵 $\mathbf{F}$ 估计出两个相机的投影矩阵 $\mathbf{M}_1$ 和 $\mathbf{M}_2$ 。最后，利用三角化求解三维点。
在这里插入图片描述
由于透视歧义存在，即 $x_{ij} = \mathbf{M}_i X_j = (\mathbf{M}_i \mathbf{H}^{-1})(\mathbf{H} X_j) = \mathbf{M}^* X^*$ 。因此，我们总是可以找到一个可逆矩阵 $\mathbf{H}$ ，使得：
$\begin{cases} \mathbf{M}^*_{1} = \mathbf{M}_1 \mathbf{H}^{-1} = [\mathbf{I} | 0] \\ \mathbf{M}^*_{2} = \mathbf{M}_2 \mathbf{H}^{-1} = [\mathbf{A} | b] \end{cases}$ 我们通过下图的方法建立基础矩阵 $\mathbf{F}$ 与 $\mathbf{A}$ 和 $b$ 之间的数学关系，即
$\mathbf{F} = [b_{\times}] \mathbf{A}$ 这里用到了向量叉积的性质： $\boldsymbol{a} \times \boldsymbol{b} = -\boldsymbol{b} \times \boldsymbol{a}$ 。
在这里插入图片描述
根据基础矩阵 $\mathbf{F}$ 估计 $\mathbf{A}$ 和 $b$ 的方法如下图所示：

从图中可知， $b$ 为方程 $\mathbf{F}^T b = 0$ 的解，且 $\mathbf{A} = -[b_{\times}] \mathbf{F}$ 。上述证明中应用了如下公式： $[b_{\times}][b_{\times}] = b b^T - |b|^2 \mathbf{I}$ 证明如下：
$\begin{align*} [b_{\times}][b_{\times}] &= \begin{pmatrix} 0 & -b_z & b_y \\ b_z & 0 & -b_x \\ -b_y & b_x & 0 \end{pmatrix} \begin{pmatrix} 0 & -b_z & b_y \\ b_z & 0 & -b_x \\ -b_y & b_x & 0 \end{pmatrix} \\ &= \begin{pmatrix} -b_z^2 - b_y^2 & b_x b_y & b_x b_z \\ b_x b_y & -b_z^2 - b_x^2 & b_y b_z \\ b_x b_z & b_y b_z & -b_y^2 - b_x^2 \end{pmatrix} \\ &= \begin{pmatrix} b_x^2 & b_x b_y & b_x b_z \\ b_x b_y & b_y^2 & b_y b_z \\ b_x b_z & b_y b_z & b_z^2 \end{pmatrix} - \begin{pmatrix} b_x^2 + b_y^2 + b_z^2 & 0 & 0 \\ 0 & b_x^2 + b_y^2 + b_z^2 & 0 \\ 0 & 0 & b_x^2 + b_y^2 + b_z^2 \end{pmatrix} \\ &= \begin{pmatrix} b_x \\ b_y \\ b_z \end{pmatrix} \begin{pmatrix} b_x b_y b_z \end{pmatrix} - (b_x^2 + b_y^2 + b_z^2) \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} = b b^T - |b|^2 \mathbf{I} \end{align*}$ 又因为：
$\begin{cases} e^{\prime T} \mathbf{F} = 0 \\ \mathbf{F}^T b = 0 \Rightarrow (\mathbf{F}^T b)^T = 0 \Rightarrow b^T \mathbf{F} = 0 \end{cases}$ 因此， $b$ 可以取值为 $\dfrac{e^{\prime}}{\|e^{\prime}\|}$ ，其中 $e^{\prime}$ 为极点。

由上述讨论知，当设置第一个相机的投影矩阵为 $\mathbf{M}^*_1 = [I \quad 0]$ 时，第二个相机的投影矩阵 $\mathbf{M}^*_2 = [-[b_{\times}] \mathbf{F} \quad b]]$ 。当我们已知相机的投影矩阵时，就可以使用三角化计算三维点，关于三角化可以参考博客：三维重建 —— 4. 三维重建基础与极几何。

上述已讨论过两视图的代数解法。通过计算每个图像对 $I_k, I_h)$ 的运动与结构，即可将该方法推广到 $N$ 视图情况，如下图所示。
在这里插入图片描述

3. 捆绑调整

代数法与分解法的局限性如下图所示：
在这里插入图片描述
捆绑调整(Bundle Adjustment, BA)是计算机视觉、摄影测量和机器人领域中用于联合优化相机参数（位姿、内参）与三维点坐标的核心技术，其目标是通过最小化重投影误差，提升三维重建或运动恢复结构的全局一致性。重投影误差是指三维点通过相机模型投影到图像平面后，与真实观测点之间的欧氏距离。最小化重投影误差的数学公式如下：
$\min_{\{\mathbf{K_i}, \mathbf{R_i}, T_i, X_j\}} \sum_{i=1}^{m} \sum_{j=1}^{n} \left\| \text{proj}(\mathbf{K_i} [\mathbf{R_i} \mid T_i] X_j) - (u_{ij}, v_{ij}) \right\|^2$ BA 依赖迭代优化，常用方法包括：梯度下降法、牛顿法、LM 算法等。下图介绍了 BA 算法以及其优势和局限性。值得注意的是：BA 算法常用作 SfM 的最后一步，而分解或代数方法可作为优化问题的初始解。
在这里插入图片描述

三维重建 —— 7. 透视结构恢复

文章目录

1. 基本概念

2. 代数方法

3. 捆绑调整

相关资讯

热文排行

最新新闻

推荐新闻

热搜词