MPDrive：利用基于标记的提示学习提高自动驾驶的空间理解能力

MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving

25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室（广东 AI 和数字经济实验室）

自动驾驶视觉问答（AD-VQA）旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题，严重依赖于模型的空间理解能力。先前的作品通常通过坐标的文本表示来表达空间信息，导致视觉坐标表示和文本描述之间存在语义差距。这种疏忽阻碍了空间信息的准确传输，增加了表达负担。为了解决这个问题，我们提出了一种新的基于标记的提示学习框架（MPDrive），该框架通过简洁的视觉标记表示空间坐标，确保语言表达的一致性，并提高ADVQA中视觉感知和空间表达的准确性。具体来说，我们通过聘请检测专家用数字标签覆盖对象区域来创建标记图像，将复杂的文本坐标生成转换为简单的基于文本的视觉标记预测。此外，我们将原始图像和标记图像融合为场景级特征，并将其与检测先验相结合，以推导出实例级特征。通过结合这些特征，我们构建了双粒度视觉提示，以激发LLM的空间感知能力。对DriveLM和CODA-LM数据集的广泛实验表明，MPDrive实现了最先进的性能，特别是在需要复杂空间理解的情况下。

核心问题

现有自动驾驶视觉问答（AD-VQA）中，多模态大语言模型（MLLMs）空间理解能力不足：

传统方法：用文本描述空间坐标（如 (x,y)），导致视觉坐标表示与文本语义存在鸿沟。
后果：坐标文本表达复杂，增加模型负担，降低感知与规划的准确性。

创新方案：MPDrive框架

提出基于视觉标记（Marker）的提示学习框架，核心思想是将坐标生成转化为索引预测：

视觉标记生成：
- 使用检测专家（如StreamPETR）定位交通对象，生成带数字标签的半透明区域（图1）。
- 示例：在车辆中心标注 k=1，用半透明掩码标识边界。
- 优势：将复杂坐标预测简化为文本索引预测（如输出 k=1 而非 (x,y)），避免语义歧义。
双粒度特征融合：
- 场景级特征：融合原始图像与标记图像，保留全局空间关系。
- 实例级特征：通过掩码平均池化（Mask Average Pooling）提取对象级细节。
- 提示生成：结合双粒度特征生成视觉提示（T_s 和 T_i），输入LLM增强空间感知。
关键技术模块：
- Marker ControlNet (MCNet)：
  冻结原始视觉编码器，通过零初始化线性层逐步融合标记图像信息（公式1），避免覆盖原始特征。
- PSPL模块：
  整合场景级与实例级提示，提升细粒度空间理解（图2）。

实验验证

数据集与指标

数据集：DriveLM（多视图）、CODA-LM（单视图）。
指标：
- 语言质量：BLEU-4、ROUGE_L、CIDEr、METEOR。
- 空间感知：匹配度（Match，预测坐标与真值距离<16像素的比例）、准确率（Accuracy）。

关键结果

SOTA性能（表1-2）：
- DriveLM：Match 13.43（↑82% vs InternVL-2），Accuracy 85.18。
- CODA-LM：区域感知任务中车辆类精度 79.48，VRU类 70.00。
消融实验（表3-4）：
- 视觉标记：Match从7.59→11.89，但语言指标波动（需MCNet平衡）。
- MCNet：提升语言一致性（BLEU-4 52.56），但轻微牺牲空间精度。
- 实例级提示：双粒度融合后Match达13.43，综合性能最优。
- 模型无关性：在LLaMA-Adapter上应用MPDrive，Match从1.48→10.05。
定性对比（图3）：
- MPDrive准确定位目标（如行人、车辆），而InternVL-2坐标偏移显著。
- 复杂场景中，MPDrive正确预测碰撞风险（如“急右转”），基线模型误判。