MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving
25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室(广东 AI 和数字经济实验室)
自动驾驶视觉问答(AD-VQA)旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题,严重依赖于模型的空间理解能力。先前的作品通常通过坐标的文本表示来表达空间信息,导致视觉坐标表示和文本描述之间存在语义差距。这种疏忽阻碍了空间信息的准确传输,增加了表达负担。为了解决这个问题,我们提出了一种新的基于标记的提示学习框架(MPDrive),该框架通过简洁的视觉标记表示空间坐标,确保语言表达的一致性,并提高ADVQA中视觉感知和空间表达的准确性。具体来说,我们通过聘请检测专家用数字标签覆盖对象区域来创建标记图像,将复杂的文本坐标生成转换为简单的基于文本的视觉标记预测。此外,我们将原始图像和标记图像融合为场景级特征,并将其与检测先验相结合,以推导出实例级特征。通过结合这些特征,我们构建了双粒度视觉提示,以激发LLM的空间感知能力。对DriveLM和CODA-LM数据集的广泛实验表明,MPDrive实现了最先进的性能,特别是在需要复杂空间理解的情况下。
核心问题
现有自动驾驶视觉问答(AD-VQA)中,多模态大语言模型(MLLMs)空间理解能力不足:
-
传统方法:用文本描述空间坐标(如
(x,y)
),导致视觉坐标表示与文本语义存在鸿沟。 -
后果:坐标文本表达复杂,增加模型负担,降低感知与规划的准确性。
创新方案:MPDrive框架
提出基于视觉标记(Marker)的提示学习框架,核心思想是将坐标生成转化为索引预测:
-
视觉标记生成:
-
使用检测专家(如StreamPETR)定位交通对象,生成带数字标签的半透明区域(图1)。
-
示例:在车辆中心标注
k=1
,用半透明掩码标识边界。 -
优势:将复杂坐标预测简化为文本索引预测(如输出
k=1
而非(x,y)
),避免语义歧义。
-
-
双粒度特征融合:
-
场景级特征:融合原始图像与标记图像,保留全局空间关系。
-
实例级特征:通过掩码平均池化(Mask Average Pooling)提取对象级细节。
-
提示生成:结合双粒度特征生成视觉提示(
T_s
和T_i
),输入LLM增强空间感知。
-
-
关键技术模块:
-
Marker ControlNet (MCNet):
冻结原始视觉编码器,通过零初始化线性层逐步融合标记图像信息(公式1),避免覆盖原始特征。
-
PSPL模块:
整合场景级与实例级提示,提升细粒度空间理解(图2)。
-
实验验证
数据集与指标
-
数据集:DriveLM(多视图)、CODA-LM(单视图)。
-
指标:
-
语言质量:BLEU-4、ROUGE_L、CIDEr、METEOR。
-
空间感知:匹配度(Match,预测坐标与真值距离<16像素的比例)、准确率(Accuracy)。
-
关键结果
-
SOTA性能(表1-2):
-
DriveLM:Match 13.43(↑82% vs InternVL-2),Accuracy 85.18。
-
CODA-LM:区域感知任务中车辆类精度 79.48,VRU类 70.00。
-
-
消融实验(表3-4):
-
视觉标记:Match从7.59→11.89,但语言指标波动(需MCNet平衡)。
-
MCNet:提升语言一致性(BLEU-4 52.56),但轻微牺牲空间精度。
-
实例级提示:双粒度融合后Match达13.43,综合性能最优。
-
模型无关性:在LLaMA-Adapter上应用MPDrive,Match从1.48→10.05。
-
-
定性对比(图3):
-
MPDrive准确定位目标(如行人、车辆),而InternVL-2坐标偏移显著。
-
复杂场景中,MPDrive正确预测碰撞风险(如“急右转”),基线模型误判。
-
贡献总结
-
创新框架:
首次用视觉标记桥接坐标与语言描述,简化空间预测任务。 -
双粒度提示:
MCNet + PSPL实现场景与实例级空间感知联合优化。 -
强泛化性:
在DriveLM/CODA-LM上全面超越SOTA,尤其空间相关任务(Match↑82%)。
局限与未来方向
-
依赖检测专家:
检测误差会传播至后续模块(表6:DETR3D vs. StreamPETR影响精度)。
-
长时序感知不足:
未解决跨帧动态场景理解(如车辆运动轨迹)。 -
计算效率:
多视图输入需处理1,536个token(表5:压缩至384 token时性能下降)。
未来工作:探索时序标记融合、轻量化设计,以及端到端联合训练检测专家。
实用意义
MPDrive为自动驾驶提供可解释的空间推理框架,通过视觉标记显著提升VQA可靠性,推动人车交互与安全决策发展。代码与数据未公开,但方法论可扩展至其他空间敏感任务(如机器人导航)。
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!