【AIGC半月报】AIGC大模型启元：2025.01（下）

2026/4/19 1:51:09 来源：https://blog.csdn.net/qq_36722887/article/details/145234176 浏览: 次关键词：【AIGC半月报】AIGC大模型启元：2025.01（下）

【AIGC半月报】AIGC大模型启元：2025.01（下）

- （1）MiniCPM-o 2.6（面壁智能音视听大模型）

（1）MiniCPM-o 2.6（面壁智能音视听大模型）

2025.01.16 MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型。最新更新的模型为MiniCPM-o 2.6。
　　MiniCPM-o 是从 MiniCPM-V 升级的最新端侧多模态大模型系列。该系列模型可以以端到端的方式，接受图像、视频、文本、音频作为输入，并生成高质量文本和语音输出。
　　自2024年2月以来，MiniCPM这个项目以实现高性能和高效部署为目标，发布了6个版本的模型。上一次发布的版本为MiniCPM-V 2.6。
　　MiniCPM-V 2.6: MiniCPM-V 系列中性能最佳的模型。总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等的单图理解表现，并成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。
　　从介绍中看，上一次发布的版本已经很优秀了。而这一次发布的MiniCPM-o 2.6版本简直有点“炸裂”。
　　MiniCPM-o 2.6: 🔥🔥🔥 MiniCPM-o 系列的最新、性能最佳模型。总参数量 8B，视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别，是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中，MiniCPM-o 2.6 支持可配置声音的中英双语语音对话，还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。

参考博客：
全球首次！国产AI开源端侧GPT-4o海外爆火，8B参数iPad就能跑
国产“小钢炮”有点屌，开源低配运行，实时视频语音，支持声音克隆!
代码：https://github.com/OpenBMB/MiniCPM-o
模型：https://huggingface.co/openbmb/MiniCPM-o-2_6
体验地址：https://minicpm-omni-webdemo-us.modelbest.cn/?type=0

【AIGC半月报】AIGC大模型启元：2025.01（下）

【AIGC半月报】AIGC大模型启元：2025.01（下）

（1）MiniCPM-o 2.6（面壁智能音视听大模型）

相关资讯

热文排行

最新新闻

推荐新闻

热搜词