欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 文化 > 小米MiMo系列:多模态 MiMo-VL-7B 技术报告解读

小米MiMo系列:多模态 MiMo-VL-7B 技术报告解读

2025/6/19 17:30:13 来源:https://blog.csdn.net/wjinjie/article/details/148674817  浏览:    关键词:小米MiMo系列:多模态 MiMo-VL-7B 技术报告解读

文章目录

    • 1、模型简介
    • 2、核心思想
    • 3、模型架构
    • 4、评测结果

  1. 技术报告:https://arxiv.org/pdf/2506.03569v1
  2. github: https://github.com/XiaomiMiMo/MiMo-VL

1、模型简介

近期,小米正式开源了多模态大模型 MiMo-VL-7B 系列,包括两个模型:MiMo-VL-7B-SFTMiMo-VL-7B-RL。MiMo-VL-7B 系列模型涉及两个连续的训练过程:

  1. 四阶段预训练阶段:包括投影器预热、视觉-语言对齐、通用多模态预训练和长上下文监督微调 (SFT)。这一阶段产生了 MiMo-VL-7B-SFT 模型。

  2. 后训练阶段:引入了混合在线强化学习 (MORL),这是一种新颖的框架,能够无缝集成涵盖感知准确性、视觉接地精度、逻辑推理能力和人类/AI 偏好的多样化奖励信号。这一阶段产生了 MiMo-VL-7B-RL 模型。

在这里插入图片描述

2、核心思想

预训练阶段:纳入高质量、广泛覆盖的推理数据对于提升模型性能至关重要

  • 通过识别多样化的查询,使用大型推理模型重新生成带有长CoT的响应,并应用拒绝采样以确保质量,从而策划高质量的推理数据。
  • 不是将这些数据视为补充的微调数据,而是直接将大量这种合成推理数据纳入到后期的预训练阶段,在这个阶段延长训练可以持续提升性能而不会饱和。

混合在线策略强化学习进一步提升了模型性能,但实现稳定的同时改进仍然具有挑战性

  • 在包括推理、感知、接地和人类偏好对齐在内的多种能力上应用RL,涵盖文本、图像和视频等多种模态。
  • 虽然这种混合训练方法进一步释放了模型的潜力,但跨数据域的干扰仍然是一个挑战。

3、模型架构

和主流的多模态大模型一样,MiMo-VL-7B 包括三个部分:(1) 一个保留细粒度视觉细节的原生分辨率 ViT 编码器;(2) 一个用于高效跨模态对齐的 MLP 投影器;以及 (3) MiMo-7B 语言模型,专门针对复杂推理任务进行了优化。

在这里插入图片描述

模型可在 Huggingface 和 ModelScope 下载:

在这里插入图片描述

4、评测结果

通用能力:在一般的视觉语言理解中,MiMo-VL-7B模型达到了最先进的开源结果
在这里插入图片描述

推理任务:在多模态推理中,SFT和RL模型在这几个基准测试中显著优于所有比较的开源基线

在这里插入图片描述

GUI 任务:MiMo-VL-7B-RL 具备出色的 GUI 理解和定位能力。作为一个通用的视觉语言模型,MiMo-VL 在性能上与专门针对 GUI 的模型相当,甚至更优。

在这里插入图片描述

参考文章:https://modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-SFT

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词