文章目录
- 1、模型简介
- 2、核心思想
- 3、模型架构
- 4、评测结果
- 技术报告:https://arxiv.org/pdf/2506.03569v1
- github: https://github.com/XiaomiMiMo/MiMo-VL
1、模型简介
近期,小米正式开源了多模态大模型 MiMo-VL-7B 系列,包括两个模型:MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。MiMo-VL-7B 系列模型涉及两个连续的训练过程:
-
四阶段预训练阶段:包括投影器预热、视觉-语言对齐、通用多模态预训练和长上下文监督微调 (SFT)。这一阶段产生了 MiMo-VL-7B-SFT 模型。
-
后训练阶段:引入了混合在线强化学习 (MORL),这是一种新颖的框架,能够无缝集成涵盖感知准确性、视觉接地精度、逻辑推理能力和人类/AI 偏好的多样化奖励信号。这一阶段产生了 MiMo-VL-7B-RL 模型。
2、核心思想
预训练阶段:纳入高质量、广泛覆盖的推理数据对于提升模型性能至关重要
- 通过识别多样化的查询,使用大型推理模型重新生成带有长CoT的响应,并应用拒绝采样以确保质量,从而策划高质量的推理数据。
- 不是将这些数据视为补充的微调数据,而是直接将大量这种合成推理数据纳入到后期的预训练阶段,在这个阶段延长训练可以持续提升性能而不会饱和。
混合在线策略强化学习进一步提升了模型性能,但实现稳定的同时改进仍然具有挑战性
- 在包括推理、感知、接地和人类偏好对齐在内的多种能力上应用RL,涵盖文本、图像和视频等多种模态。
- 虽然这种混合训练方法进一步释放了模型的潜力,但跨数据域的干扰仍然是一个挑战。
3、模型架构
和主流的多模态大模型一样,MiMo-VL-7B 包括三个部分:(1) 一个保留细粒度视觉细节的原生分辨率 ViT 编码器;(2) 一个用于高效跨模态对齐的 MLP 投影器;以及 (3) MiMo-7B 语言模型,专门针对复杂推理任务进行了优化。
模型可在 Huggingface 和 ModelScope 下载:
4、评测结果
通用能力:在一般的视觉语言理解中,MiMo-VL-7B模型达到了最先进的开源结果
推理任务:在多模态推理中,SFT和RL模型在这几个基准测试中显著优于所有比较的开源基线
GUI 任务:MiMo-VL-7B-RL 具备出色的 GUI 理解和定位能力。作为一个通用的视觉语言模型,MiMo-VL 在性能上与专门针对 GUI 的模型相当,甚至更优。
参考文章:https://modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-SFT