港科大华为诺亚发布Occ-LLM：大模型赋能自动驾驶，空间感知能力飞跃

导读
港科大和华为诺亚最新在占用预测（Occupancy）的研究工作-OccLLM, 利用LLM（大型语言模型）结合占用预测网络，全面提升了空间感知能力。实验表明，它各方面超越OccWorld。

©️【深蓝AI】编译

本文由paper一作——Tianshuo Xu 授权【深蓝AI】编译发布！

论文标题：Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models

论文作者：Tianshuo Xu, Hao Lu, Xu Yan, Yingjie Cai, Bingbing Liu, Yingcong Chen

论文地址：http://arxiv.org/abs/2502.06419

01 背景简介

大型语言模型（LLMs）发展迅速，并逐步推动AI跨行业发展的核心技术。尽管LLMs最初专为NLP设计，但其强大的泛化能力使其在自动驾驶等复杂领域展现出卓越的适应性，尤其在自动驾驶领域。现有自动驾驶领域的LLM应用主要依赖图像输入，此类方法在环境理解中缺乏必要的空间感知能力。基于视觉与激光雷达的现有方案虽能提升车辆导航与环境解析能力，但存在计算复杂度高、中间推理过程不透明等局限。

占位表征（Occupancy）是自动驾驶中一种高表现力的模态，其通过全面描述场景前景与背景，提供丰富的空间与语义信息。这种通用表征无需依赖物体具体类别，即可实现已知或未知对象的感知。值得注意的是，以特斯拉为代表的头部车企正逐步采用基于占位的系统，标志着环境解析范式正转向这一鲁棒性更强的技术路径。

本文旨在利用LLMs的深度分析与泛化能力解析占位栅格，构建面向自动驾驶下游任务的通用基础模型。然而，直接将占位表征融入LLMs面临两大挑战：

占位类别分布失衡
以及大量体素（voxels）表征空气导致的低效学习与内存瓶颈

为此，本文提出创新性方法——运动分离变分自编码器（Motion Separation Variational Autoencoder, MS-VAE）。该方法在占位场景中分离动态实体（如车辆、行人）与静态结构（如道路、绿化）对应的体素，通过类似残差学习的机制，强化模型对动态轨迹的聚焦能力并优化静态场景重建。这种分离策略显著降低了学习难度，提升了整体模型性能。

▲图1｜ Occ-LLM 概览©️【深蓝AI】编译

作者提出的占位大语言模型（Occ-LLM）经过系统化设计，可支持自动驾驶领域的多场景应用。如图1所示，其核心功能包括4D占位场景预测、自车规划及基于占位的场景问答（QA），这些功能对提升自动驾驶系统的安全性、效率与可靠性至关重要。

本文主要贡献如下：

提出首个面向自动驾驶的占位大语言模型（Occ-LLM），其场景理解能力显著优于现有方案；
设计运动分离变分自编码器（MS-VAE），通过解耦动态/静态体素高效处理海量占位数据，全面提升系统性能指标；
验证Occ-LLM的多任务泛化能力，包括4D场景预测、自车规划与场景问答，证明其在自动驾驶多维任务中的优越性；
通过复用现有占位预测方法，展示Occ-LLM的工程实用性，为其实际部署提供技术支撑。

02 相关研究

2.1. 多模态大语言模型

多模态大语言模型（MLLMs）通过将大语言模型（LLMs）的高级推理能力与图像、视频和音频数据相结合。这些模型在零样本和少样本图像分类、分割和目标检测等任务中表现出色，主要得益于视觉与文本数据之间的协同作用。在自动驾驶领域，LLMs通过增强场景理解、提供更丰富的语义上下文以及优化决策过程，弥补了当前系统的关键缺陷。目前已有多种方法提出利用LLMs提升自动驾驶能力。基于视觉的方法，如DriveGPT4，通过解析视频输入生成与驾驶相关的文本响应，而HiLM-D等模型则通过高分辨率视觉数据提升危险识别和意图预测能力。基于激光雷达的方法则利用矢量化的视觉嵌入，赋予LLMs环境感知能力，从而实现对驾驶场景的详细分析。

2.2. 占用网络

3D语义占据网格技术通过显式建模3D网格中每个体素的占据状态，提供了更精细的环境表示。SSCNet首次引入了语义场景补全任务，将几何与语义信息相结合。后续研究通常利用包含显式深度信息的几何输入。MonoScene提出了首个单目语义场景补全方法，使用3D UNet处理通过视线投影生成的体素特征。基于迁移架构的各种网络也被设计出来。此外，多项并行研究致力于为3D语义占据预测提出环视基准，推动了占据社区的快速发展。OccWorld基于3D占据学习了一个世界模型，因其可解释性和高效性而备受关注。

03 方法精析

如图2所示，Occ-LLM框架将大语言模型（LLMs）与占据表示相结合，以提升自动驾驶系统的性能。该框架增强了空间与语义理解能力，辅助场景解析与决策制定。

▲图2｜ Occ-LLM 架构概览©️【深蓝AI】编译

3.1. 运动分离变分自编码器（MS-VAE）

基于已有的多模态LLM集成方法，作者的目标是训练一个变分自编码器（VAE）以促进模态融合并降低计算成本。直接将占据表示集成到LLMs中面临诸多挑战，例如占据类别分布不平衡以及空气体素占主导地位，导致数据表示稀疏且低效。为解决这一问题，本文提出了运动分离变分自编码器（MS-VAE），该模型在占据网格中分离动态与静态成分，从而提高编码效率，并将重点转向对自动驾驶至关重要的动态元素。因此，MS-VAE实现了更平衡且有效的LLM框架集成。

MS-VAE的核心思想是训练两个独立的VQVAE，分别对动态与静态占据体素进行编码和解码。然而，在保持单一编码器与解码器的同时，利用两个不同的码本分别处理动态与静态体素，也能取得不错的效果。

设 $x$ 表示输入的占据表示，其中 $\mathbf x_m$ 和 $\mathbf x_s$ 分别表示动态与静态体素。编码器 $q_\phi(z|\mathbf x)$ 将输入 $x$ 映射到潜在空间 $z$ 。对于MS-VAE，我们为动态与静态体素分别定义两个独立的潜在变量 $\mathbf z_m$ 和 $\mathbf z_s$ ：

$\mathbf z_m \sim q_{\phi}(\mathbf z_m|\mathbf x_m), \mathbf z_s \sim q_{\phi}(\mathbf z_s|\mathbf x_s)$

每个编码后的潜在变量 $\mathbf z_m$ 和 $\mathbf z_s$ 在对应的码本 $\mathbf C_m$ 和 $\mathbf C_s$ 中搜索，并在输入解码器之前被最相似的码本条目替换。这一过程表示为：

$\mathbf z'_m = \operatorname{argmin}_{c_m \in C_m} ||\mathbf z_m - \mathbf c_m||, \mathbf z'_s = \operatorname{argmin}_{c_s \in C_s} ||\mathbf z_s - \mathbf c_s||$

解码器 $p_\theta(\mathbf x|\mathbf z)$ 从量化后的潜在变量 $\mathbf z'_m$ 和 $\mathbf z'_s$ 中重建输入：

$\hat{\mathbf{x}}_m = p_\theta(\mathbf{x}_m | \mathbf{z}'_m), \hat{\mathbf{x}}_s = p_\theta(\mathbf{x}_s | \mathbf{z}'_s)$

为促进占据表示中运动与静态元素的分离，基于体素分类应用变换。设 $\mathcal M$ 表示可移动类别的集合。我们在修改后的占据表示中定义运动与空气填充的指示函数如下：定义指示函数 $1_\mathcal M(x)$ ，使得：

$1_\mathcal{M}(\mathbf{x}) = \begin{cases} 1 & \text{if } \mathbf{x} \in \mathcal{M}, \\ 0 & \text{otherwise.} \end{cases}$

修改后的动态占据 $\mathbf x'_m$ 与静态占据 $\mathbf x'_s$ 由下式给出：

$\mathbf{x}_{m}^{\prime}=(1-1_{\mathcal{M}}(\mathbf{x})) \cdot \mathbf{x}_{m}$

$x_s'= 1_{\mathcal{M}}(x) \cdot \text{air} + (1-1_{\mathcal{M}}(x)) \cdot x_s$

其中 $air$ 表示静态占据网格中的空气表示，通常编码为代表未占据空间的占位符值。

为重建原始占据表示，我们利用掩码区分活跃运动区域。重建后的占据将静态与动态成分结合如下：

$\hat{\mathbf{x}}=\hat{\mathbf{x}}_{m} \cdot \text { mask }+\hat{\mathbf{x}}_{s} \cdot(1-\text {mask })$

MS-VAE的整体损失函数结合了重建损失与承诺损失，以确保编码后的潜在变量接近码本条目：

$\mathcal{L} = \mathbb{E}_{q_{\phi}(\mathbf{z}_m|\mathbf{x}_m)} \left[ \log p_{\theta}(\mathbf{x}_m|\mathbf{z}'_m) \right] + \mathbb{E}_{q_{\phi}(\mathbf{z}_s|\mathbf{x}_s)} \left[ \log p_{\theta}(\mathbf{x}_s|\mathbf{z}'_s) \right] + \\ \beta \left( ||\mathbf{z}_m - \mathbf{z}'_m||^2 + ||\mathbf{z}_s - \mathbf{z}'_s||^2 \right)$

通过为动态与静态体素使用独立的码本，同时保持统一的编码器与解码器，并适当处理占据表示，MS-VAE有效捕捉了各类体素的独特特征，从而提升了占据重建与泛化能力。

此外，整体VAE架构参考了OccWorld实现中的方法，特别是将占据视为具有16通道的2D数据，并采用2D VAE进行编码与解码。然而，为保留三维信息的完整性，在编码器之前与解码器之后集成了一层轻量级3D卷积。这一修改尊重了占据表示固有的空间维度，并显著提升了重建占据的质量。与传统的2D VAE使用方式相比，该方法显著提高了占据表示在三维空间中的保真度。

3.2. 基于LLM的占用网络的预处理

分块化处理。在使用MS-VAE对原始占据表示进行编码后，生成的潜在表示仍然较为庞大。为解决这一问题，本文采用了一种类似于视觉Transformer（ViT）的方法，将占据潜在空间划分为小网格并展平。观察表明，分块大小对占据重建的质量有显著影响。这是因为预测未来占据帧涉及感知和低级视觉任务。例如，感知任务通常受益于较大的分块大小，有助于更好地理解输入数据的语义信息。而低级视觉任务则通常采用较小的分块大小以实现更高质量的数据重建。通过消融实验，分块大小为10时效果最佳。

帧分离。每帧展平后的占据潜在表示较长，直接拼接多帧的展平占据潜在表示会导致生成占据的位置漂移。这种漂移表现为前一帧的部分占据出现在后续帧中，导致级联错位（如图3所示）。

▲图3｜级联错位演示©️【深蓝AI】编译

为解决这一问题，作者提出了一种简单但有效的解决方案：在每帧占据潜在表示的开头和结尾添加特定的文本标记。具体来说，在开头使用“”，在结尾使用“”。这些标记在推理过程中明确界定了帧之间的间隔，有效消除了漂移问题。

预融合。通过引入了一种预融合方法，以更好地建立占据表示与自车动作之间的联系。该方法首先通过多个MLP层对自车动作进行编码。类似于SE-Net的方法，随后将编码后的动作潜在表示作为权重来调制占据表示。这种技术增强了占据表示与自车动作之间的一致性，从而提升了整体模型性能。

3.3. 下游任务

Occ-LLM框架支持多种对提升自动驾驶系统至关重要的下游任务，包括4D占据预测、自车规划以及基于占据的场景问答。任务切换通过特定提示词进行管理：“<4-D occupancy forecasting and self-ego planning>”启动4D占据预测与自车规划的联合任务，而“”则触发问答任务。这些任务共同增强了情境感知与决策能力。4D占据预测用于预测环境动态，这对预判危险至关重要。自车规划则利用这些预测结果实现安全高效的导航。基于占据的场景问答用于解析复杂情境，辅助做出明智决策。这些功能共同显著提升了自动驾驶系统的安全性、可靠性和效率。

04 实验结果

本文以Llama2为基础模型，并使用交并比（IoU）和平均交并比（mIoU）指标评估4D占据预测。自车规划能力则通过L2距离指标进行评估。

作者采用Nuscenes数据集，该数据集包含1000个场景。这些场景被划分为700个用于训练，150个用于验证，150个用于测试。每个场景包含约50帧，对应一个占据场景。占据表示的维度为(200,200,16)，其中前两个维度(200,200)表示长度和宽度，16表示高度。该数据集配置使能够全面评估和验证模型在各种场景下的性能。

4.1. 与SORT方法实验对比结果

4D占据预测与自车规划：表1将Occ-LLM与当前最先进的4D占据预测和运动规划方法进行了比较，提供了1秒、2秒和3秒时间间隔的交并比（IoU）、平均交并比（mIoU）以及L2距离等指标。如图4所示，该方法在准确性和一致性上均优于现有技术。

评估的方法包括基于激光雷达的方法，如IL、NMP和FF，以及基于摄像头的方法，如UniAD、VAD-Base和OccNet。作者还将预测的占据数据集成到Occ-LLM框架中，通过BevFormer+Ours等模型实现了更高的性能，平均IoU达到23.79%，mIoU为10.21%，L2距离为0.43米。

与基于占据的方法相比，Occ-LLM超越了OccWorld，平均IoU达到32.52%，mIoU为20.99%，L2距离为0.28米，展现了更高的准确性和可靠性，适用于自动驾驶。

问答任务：Occ-LLM展示了专为自动驾驶场景设计的高级问答能力。如图5所示，该系统能够有效解析多视角摄像头输入，预测占据情况，并准确回答有关驾驶环境的查询。它能够识别场景中的关键物体，为自车推荐安全操作，并描述潜在危险，例如准备过马路的行人。

4.2. 消融实验

为定量评估系统性能，Occ-LLM与DriveLM模型进行了对比评估，使用了BLEU、ROUGE L、CIDEr和GPT Score等标准指标，结果如表2所示。这些评估指标的详细信息见。Occ-LLM在所有指标上均优于DriveLM，取得了更高的分数。这些结果验证了Occ-LLM在自动驾驶环境中提供准确且上下文相关答案的有效性。

OccWorld的VAE与提出的MS-VAE的对比分析：表3比较了OccWorld的VAE 与本文的MS-VAE，展示了重建性能的显著提升。通过增加3D卷积层和运动分离策略，IoU和mIoU均有所提高，MS-VAE的IoU达到62.74%，mIoU为71.08%，而OccWorld的VAE分别为59.07%和60.50%。

不同分块大小在分块化处理中的对比分析：表4研究了不同分块大小对重建性能的影响。分块大小为10时表现最佳，在训练集上的IoU为32.48%，mIoU为26.16%，在验证集上分别为27.12%和26.83%，在细节捕捉与效率之间取得了平衡。

Occ-LLM模块的消融研究：表5展示了Occ-LLM模块的消融研究。基线模型的IoU为20.67%，mIoU为16.63%，L2距离为0.82米。添加预融合模块后，这些指标有所提升，而结合运动分离（MS）模块后，IoU进一步提升至32.52%，mIoU达到20.99%，L2距离降至0.28米，凸显了MS模块的优势。

05 总结

本文提出了基于占据的大语言模型（Occ-LLM），通过将LLM与占据表示相结合，提升了自动驾驶性能。全文提出的运动分离变分自编码器（MS-VAE），通过分离动态物体与静态场景，解决了类别不平衡问题。Occ-LLM在4D占据预测、自车规划以及场景问答任务中均超越了现有最先进方法，取得了更高的交并比（IoU）和平均交并比（mIoU）分数，并减少了规划误差。