欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 维修 > kimi 开源

kimi 开源

2025/6/19 9:15:19 来源:https://blog.csdn.net/jpld/article/details/148744165  浏览:    关键词:kimi 开源

请在此添加图片描述

大家好,我是 Ai 学习的老章

昨天MiniMax 开源了 M1 系列 MoE 大模型,模型参数 456B,比 Qwen3 还要庞大,最大亮点是超长上下文支持,原生支持 100 万 token,是 DeepSeek R1 的 8 倍,其实昨天还有一个大模型开源了——Kimi-Dev-72B

请在此添加图片描述

Kimi 暂未放出技术文件,所以信息不多,这里就简单看看

Kimi-Dev-72B 基于 Qwen2.5-72B 进行微调,为软件工程任务优化,旨在提升代码生成、bug 修复、测试编写和问题解决的能力:

  • 问题解决与 bug 修复:通过自动识别代码问题并提供修补方案,提升开发效率。
  • 代码推理:理解和解释复杂代码结构,辅助开发者分析和优化。
  • 测试编写:生成单元测试,确保代码质量和可靠性。
  • 集成开发流程:在 Docker 环境中工作,支持真实仓库的修补,符合实际开发需求。

测评情况:

请在此添加图片描述

目前已知,Kimi 只放出了 SWE-bench Verified 基准测试表现,Kimi-Dev-72B 达到 60.4% 的成绩,超越了此前由 DeepSeek-R1 保持的 57.6% 的记录,创造了开源模型的新纪录。

SWE-Bench 是用于评估大语言模型(LLM)在真实软件开发环境中解决代码问题的基准测试工具,尤其在自动修复 bug、代码生成等软件工程任务中具有权威性。
SWE - bench Verified 是 OpenAI 推出的 SWE - bench 的改进版本,包含 500 个经过验证的样本,是一个更精炼的子集。‌‌

看了一下评价,普遍质疑态度

请在此添加图片描述

主要是作为 Qwen2.5-72B 微调版的模型,仅在一个基准测试上取得的成绩没有说服力,而且很多实测效果远不如 DeepSeek-R1-0528,让人怀疑是否在刷榜

还有就是为了增强思考/推理能力而牺牲了多语言处理功能

还有就是幻觉非常严重

我也简单测试了一下,感觉类似:中文提问,思考和回答都是英文,最终效果也很一般

请在此添加图片描述

效果如下

请在此添加图片描述

DeepSeek-R1-0528-Qwen3-8BQwen3:32B 都差,也不如昨天的 Agent 模式下的 MiniMax-M1

我没有本地部署,模型文件 140GB 靠上了,没实力

请在此添加图片描述

测试我用的 OpenRouter

它提供了免费兼容 OpenAI API 调用的 Kimi-Dev-72B

https://openrouter.ai/moonshotai/kimi-dev-72b:free

请在此添加图片描述

申请 api:https://openrouter.ai/settings/keys

chatbot 我用的 CherryStudio,之前介绍过 给所有大模型加上联网功能,套到极致,就是艺术

请在此添加图片描述

后续:我让它中文回复我,效果更惊艳一些

请在此添加图片描述

依然是英文回复,效果上,仅仅是改了颜色

请在此添加图片描述

有点失望

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)

图解机器学习 - 中文版(72 张 PNG)

ChatGPT、大模型系列研究报告(50 个 PDF)

108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础

116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数

史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词