欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 创投人物 > 【AI论文】MiMo-VL技术报告

【AI论文】MiMo-VL技术报告

2025/6/9 15:07:56 来源:https://blog.csdn.net/m0_66899341/article/details/148515232  浏览:    关键词:【AI论文】MiMo-VL技术报告

摘要:我们开源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL,这两款强大的视觉语言模型在一般视觉理解和多模态推理方面都提供了最先进的性能。 在40个评估任务中的35个任务上,MiMo-VL-7B-RL的表现优于Qwen2.5-VL-7B,在OlympiadBench上的得分为59.4,超过了高达78B参数的模型。 对于GUI接地应用,它在OSWorld-G上以56.1的速度设定了新的标准,甚至超过了UI-TARS等专业模型。 我们的训练将四阶段预训练(2.4万亿代币)与混合策略强化学习(MORL)相结合,整合了多种奖励信号。 我们确定了将高质量推理数据与长链思维整合到预训练阶段的重要性,以及混合强化学习的好处,尽管在同时进行多领域优化方面存在挑战。 我们还提供了一个涵盖50多个任务的全面评估套件,以促进可重复性并推动该领域的发展。 模型检查点和完整的评估套件可在Github。Huggingface链接:Paper page,论文链接:2506.03569

一、研究背景和目的

研究背景

随着人工智能技术的飞速发展,视觉语言模型(VLMs)已成为多模态AI系统的核心组成部分。这些模型使自主代理能够感知视觉世界,对多模态内容进行推理,并与数字和物理环境进行交互。VLMs在多个领域展现出了巨大的潜力,包括图像理解、视频分析、自然语言处理以及图形用户界面(GUI)交互等。然而,尽管VLMs取得了显著进展,但在复杂推理任务、多模态对齐以及用户偏好对齐方面仍存在挑战。

在此背景下,小米公司(Xiaomi)的研究团队致力于开发一款紧凑而强大的VLM——MiMo-VL-7B。该模型旨在通过创新的架构设计、高质量的数据集构建以及先进的训练方法,提升VLM在复杂推理和多模态任务中的性能。

研究目的

  1. 开发高性能VLM:构建一款在一般视觉理解和多模态推理方面表现卓越的VLM——MiMo-VL-7B。
  2. 探索高效训练方法:通过四阶段预训练和混合策略强化学习(MORL),探索提升VLM性能的有效途径。
  3. 验证模型有效性:在多个基准测试上评估MiMo-VL-7B的性能,证明其在复杂推理和多模态任务中的优越性。
  4. 推动领域发展:开源模型检查点和评估套件,促进VLMs领域的可重复性和进一步研究。
二、研究方法

1. 模型架构设计

MiMo-VL-7B由三个核心组件构成:

  • 视觉Transformer(ViT)编码器:用于编码视觉输入,如图像和视频。
  • 多层感知机(MLP)投影器:将视觉编码映射到与大型语言模型(LLM)对齐的潜在空间。
  • MiMo-7B语言模型:执行文本理解和推理任务,特别针对复杂推理任务进行了优化。

2. 数据集构建

MiMo-VL-7B的预训练数据集包含2.4万亿个高质量、多样化的多模态数据,涵盖图像、视频和文本。数据集通过专门的数据处理流程进行构建,确保每个数据模态的质量。具体数据类型包括:

  • 图像字幕数据:通过多阶段流程确保高质量和分布平衡。
  • 交错数据:从网页、书籍和学术论文中收集,涵盖丰富的世界知识。
  • OCR和接地数据:提升模型在OCR和对象接地方面的能力。
  • 视频数据:设计视频重字幕管道,生成密集的事件级描述。
  • GUI数据:收集开源预训练数据,并构建合成数据引擎以增强特定能力。
  • 合成推理数据:利用大型推理模型生成包含长思维链(CoT)的推理数据。

3. 训练方法

MiMo-VL-7B的训练分为两个阶段:

  • 预训练阶段:包含四个阶段,分别是投影器预热、视觉语言对齐、一般多模态预训练和长上下文监督微调(SFT)。通过调整不同训练阶段的数据模态比例,优化训练效率和模型稳定性。
  • 后训练阶段:引入混合策略强化学习(MORL),整合多样化的奖励信号,包括感知准确性、视觉接地精度、逻辑推理能力和人类偏好。采用GRPO算法进行策略更新,确保训练的稳定性和有效性。

4. 评估方法

在50多个任务上评估MiMo-VL-7B的性能,包括一般视觉理解、多模态推理、GUI理解和接地等。使用内部评估数据集和GPT-4o评估模型的用户偏好,计算Elo评分以量化模型性能。

三、研究结果

1. 一般视觉理解能力

MiMo-VL-7B在多个一般视觉理解基准测试上取得了领先成绩。例如,在MMMU基准测试上,MiMo-VL-7B-SFT和MiMo-VL-7B-RL分别获得了64.6%和66.7%的准确率,优于更大规模的模型如Gemma-327B。在文档和图表理解方面,MiMo-VL-7B-RL在CharXiv-RQ上取得了56.5%的顶级开源成绩,显著超过Qwen2.5-VL。

2. 多模态推理能力

在多模态推理任务中,MiMo-VL-7B-SFT和MiMo-VL-7B-RL均显著优于所有比较的开源基线模型。例如,在OlympiadBench上,MiMo-VL-7B-RL的准确率为59.4%,超越了参数规模高达78B的模型。在数学推理任务中,如MathVision和MathVerse,MiMo-VL-7B-RL也展现出了卓越的性能。

3. GUI理解和接地能力

MiMo-VL-7B在GUI理解和接地任务上表现尤为突出。在OSWorld-G基准测试上,MiMo-VL-7B-RL取得了56.1的成绩,设定了新的标准,甚至超过了专业模型如UI-TARS。在ScreenSpot和ScreenSpot-Pro等更复杂的基准测试上,MiMo-VL-7B也展现出了与专业模型相当甚至更优的性能。

4. 用户偏好和Elo评分

通过内部评估数据集和GPT-4o评估,MiMo-VL-7B-RL在所有开源VLM中获得了最高的Elo评分,排名跨越7B到72B参数的模型。这表明MiMo-VL-7B-RL在实际应用中能提供更优越的用户体验。

5. 训练效率和稳定性

在预训练的最后阶段(Stage4),通过引入大量合成长形式推理数据,MiMo-VL-7B-SFT的性能显著提升,且未出现饱和现象。这表明在预训练阶段直接融入高质量推理数据对提升模型性能至关重要。在后训练阶段,采用混合策略强化学习(MORL)进一步提升了模型性能,尽管在多领域优化方面仍存在挑战。

四、研究局限

1. 多领域优化挑战

尽管MORL在提升模型性能方面取得了显著成效,但在同时优化多个任务领域时仍面临挑战。不同任务领域的增长趋势和难度差异导致难以在所有任务上实现稳定且持续的性能提升。

2. 数据覆盖和多样性

尽管MiMo-VL-7B的预训练数据集包含了大量高质量、多样化的多模态数据,但仍可能存在某些特定领域或任务的数据覆盖不足的问题。这可能限制模型在某些特定场景下的性能表现。

3. 计算资源需求

MiMo-VL-7B的训练涉及大量计算资源,包括预训练阶段的2.4万亿代币和后训练阶段的混合策略强化学习。这对于资源有限的研究机构或企业来说可能是一个挑战。

4. 模型解释性和透明度

尽管MiMo-VL-7B在多个任务上取得了卓越性能,但其决策过程和推理机制仍缺乏足够的解释性和透明度。这可能限制模型在某些对安全性或可解释性要求较高的领域的应用。

五、未来研究方向

1. 提升多领域优化能力

未来的研究可以探索更有效的多领域优化方法,以解决不同任务领域之间的增长趋势和难度差异问题。例如,可以尝试引入领域自适应技术或动态任务权重调整策略,以实现更稳定且持续的性能提升。

2. 扩展数据覆盖和多样性

为了进一步提升MiMo-VL-7B的性能和泛化能力,未来的研究可以致力于扩展数据覆盖和多样性。这包括收集更多特定领域或任务的数据、利用数据增强技术生成更多样化的训练样本以及探索跨模态数据融合的新方法。

3. 优化计算资源利用

针对计算资源需求较高的问题,未来的研究可以探索更高效的训练算法和模型架构设计。例如,可以尝试利用分布式训练技术加速模型训练过程、设计更轻量级的模型架构以减少计算资源消耗或探索迁移学习和预训练模型微调的新方法。

4. 提升模型解释性和透明度

为了提高MiMo-VL-7B在安全性或可解释性要求较高领域的应用潜力,未来的研究可以致力于提升模型的解释性和透明度。这包括开发模型解释工具、探索可解释性机器学习技术以及建立模型决策过程的可视化机制等。

5. 探索新的应用场景

随着VLMs技术的不断发展,MiMo-VL-7B有望在更多新的应用场景中发挥重要作用。未来的研究可以探索MiMo-VL-7B在自动驾驶、智能医疗、智能教育等领域的应用潜力,并开发相应的解决方案和产品。

6. 加强跨学科合作

VLMs技术的发展涉及计算机科学、认知科学、心理学等多个学科领域。未来的研究可以加强跨学科合作,共同探索VLMs技术的本质和规律,推动其在更多领域的应用和发展。

综上所述,MiMo-VL技术报告展示了小米公司在VLMs领域的研究成果和创新实践。通过开发高性能的MiMo-VL-7B模型、探索高效的训练方法和评估体系,小米公司为VLMs领域的发展做出了重要贡献。未来的研究可以进一步探索多领域优化、数据覆盖和多样性、计算资源利用、模型解释性和透明度等方面的问题,推动VLMs技术在更多领域的应用和发展。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词