欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 建筑 > MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力

MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力

2025/6/18 18:12:42 来源:https://blog.csdn.net/qq_54556560/article/details/148682262  浏览:    关键词:MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力

MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving

25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室(广东 AI 和数字经济实验室)

        自动驾驶视觉问答(AD-VQA)旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题,严重依赖于模型的空间理解能力。先前的作品通常通过坐标的文本表示来表达空间信息,导致视觉坐标表示和文本描述之间存在语义差距。这种疏忽阻碍了空间信息的准确传输,增加了表达负担。为了解决这个问题,我们提出了一种新的基于标记的提示学习框架(MPDrive),该框架通过简洁的视觉标记表示空间坐标,确保语言表达的一致性,并提高ADVQA中视觉感知和空间表达的准确性。具体来说,我们通过聘请检测专家用数字标签覆盖对象区域来创建标记图像,将复杂的文本坐标生成转换为简单的基于文本的视觉标记预测。此外,我们将原始图像和标记图像融合为场景级特征,并将其与检测先验相结合,以推导出实例级特征。通过结合这些特征,我们构建了双粒度视觉提示,以激发LLM的空间感知能力。对DriveLM和CODA-LM数据集的广泛实验表明,MPDrive实现了最先进的性能,特别是在需要复杂空间理解的情况下。


核心问题

现有自动驾驶视觉问答(AD-VQA)中,多模态大语言模型(MLLMs)空间理解能力不足

  • 传统方法:用文本描述空间坐标(如 (x,y)),导致视觉坐标表示与文本语义存在鸿沟

  • 后果:坐标文本表达复杂,增加模型负担,降低感知与规划的准确性。


创新方案:MPDrive框架

提出基于视觉标记(Marker)的提示学习框架,核心思想是将坐标生成转化为索引预测

  1. 视觉标记生成

    • 使用检测专家(如StreamPETR)定位交通对象,生成带数字标签的半透明区域(图1)。

    • 示例:在车辆中心标注 k=1,用半透明掩码标识边界。

    • 优势:将复杂坐标预测简化为文本索引预测(如输出 k=1 而非 (x,y)),避免语义歧义。

  2. 双粒度特征融合

    • 场景级特征:融合原始图像与标记图像,保留全局空间关系。

    • 实例级特征:通过掩码平均池化(Mask Average Pooling)提取对象级细节。

    • 提示生成:结合双粒度特征生成视觉提示(T_s 和 T_i),输入LLM增强空间感知。

  3. 关键技术模块

    • Marker ControlNet (MCNet)
      冻结原始视觉编码器,通过零初始化线性层逐步融合标记图像信息(公式1),避免覆盖原始特征。


    • PSPL模块
      整合场景级与实例级提示,提升细粒度空间理解(图2)。

 


实验验证

数据集与指标
  • 数据集:DriveLM(多视图)、CODA-LM(单视图)。

  • 指标

    • 语言质量:BLEU-4、ROUGE_L、CIDEr、METEOR。

    • 空间感知:匹配度(Match,预测坐标与真值距离<16像素的比例)、准确率(Accuracy)。

关键结果 
  1. SOTA性能(表1-2):


    • DriveLM:Match 13.43(↑82% vs InternVL-2),Accuracy 85.18

    • CODA-LM:区域感知任务中车辆类精度 79.48,VRU类 70.00

  2. 消融实验(表3-4):


    • 视觉标记:Match从7.59→11.89,但语言指标波动(需MCNet平衡)。

    • MCNet:提升语言一致性(BLEU-4 52.56),但轻微牺牲空间精度。

    • 实例级提示:双粒度融合后Match达13.43,综合性能最优。

    • 模型无关性:在LLaMA-Adapter上应用MPDrive,Match从1.48→10.05。

  3. 定性对比(图3):


    • MPDrive准确定位目标(如行人、车辆),而InternVL-2坐标偏移显著。

    • 复杂场景中,MPDrive正确预测碰撞风险(如“急右转”),基线模型误判。


贡献总结

  1. 创新框架
    首次用视觉标记桥接坐标与语言描述,简化空间预测任务。

  2. 双粒度提示
    MCNet + PSPL实现场景与实例级空间感知联合优化。

  3. 强泛化性
    在DriveLM/CODA-LM上全面超越SOTA,尤其空间相关任务(Match↑82%)。


局限与未来方向

  1. 依赖检测专家
    检测误差会传播至后续模块(表6:DETR3D vs. StreamPETR影响精度)。


  2. 长时序感知不足
    未解决跨帧动态场景理解(如车辆运动轨迹)。

  3. 计算效率
    多视图输入需处理1,536个token(表5:压缩至384 token时性能下降)。

未来工作:探索时序标记融合、轻量化设计,以及端到端联合训练检测专家。


实用意义

MPDrive为自动驾驶提供可解释的空间推理框架,通过视觉标记显著提升VQA可靠性,推动人车交互与安全决策发展。代码与数据未公开,但方法论可扩展至其他空间敏感任务(如机器人导航)。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词