欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 美景 > 【AIGC半月报】AIGC大模型启元:2025.01(下)

【AIGC半月报】AIGC大模型启元:2025.01(下)

2025/5/6 16:32:52 来源:https://blog.csdn.net/qq_36722887/article/details/145234176  浏览:    关键词:【AIGC半月报】AIGC大模型启元:2025.01(下)

【AIGC半月报】AIGC大模型启元:2025.01(下)

    • (1)MiniCPM-o 2.6(面壁智能音视听大模型)

(1)MiniCPM-o 2.6(面壁智能音视听大模型)

2025.01.16 MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型。最新更新的模型为MiniCPM-o 2.6。
  MiniCPM-o 是从 MiniCPM-V 升级的最新端侧多模态大模型系列。该系列模型可以以端到端的方式,接受图像、视频、文本、音频作为输入,并生成高质量文本和语音输出。
  自2024年2月以来,MiniCPM这个项目以实现高性能和高效部署为目标,发布了6个版本的模型。上一次发布的版本为MiniCPM-V 2.6。
  MiniCPM-V 2.6: MiniCPM-V 系列中性能最佳的模型。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V。它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等的单图理解表现,并成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。
  从介绍中看,上一次发布的版本已经很优秀了。而这一次发布的MiniCPM-o 2.6版本简直有点“炸裂”。
  MiniCPM-o 2.6: 🔥🔥🔥 MiniCPM-o 系列的最新、性能最佳模型。总参数量 8B,视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中,MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。

参考博客
全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑
国产“小钢炮”有点屌,开源低配运行,实时视频语音,支持声音克隆!
代码:https://github.com/OpenBMB/MiniCPM-o
模型:https://huggingface.co/openbmb/MiniCPM-o-2_6
体验地址:https://minicpm-omni-webdemo-us.modelbest.cn/?type=0

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词