欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 新车 > Qwen3系列对比测试

Qwen3系列对比测试

2025/5/2 23:07:11 来源:https://blog.csdn.net/a66920164/article/details/147644327  浏览:    关键词:Qwen3系列对比测试

背景

Qwen3系列发布带来了对比上代近乎翻倍的性能(指几乎所有模型都达到了上一代参数量翻倍版本的性能,如32b达到72b能力等),这里通过devopseval测试集的ProgrammingLanguage下4个子集(对应C_C++、Go、Java、Python编程相关问题,均为选择题),对上述说法进行验证。
另外,我也对Qwen3系列的两个MOE模型(235B-A30B和30B-A3B)性能很感兴趣。

测试方案

通过不同模型在相同测试集上的表现,大致判断模型性能对应档次;

  • 测试集:devopseval测试集 - zh - test - CODE - Develop - ProgrammingLanguage (包含4个子集)
  • 测试参数:temperature=0.8(Deepseek-V3、Qwen3-235B-A22B为0.7),其余默认,所有测试模型均为Q4_K_M量化模型

首先Qwen3系列全系列均具备可选推理能力,这里为提高验证效率,在提示词末尾增加/nothink,以取消模型思考。

参与测试模型:

  • Deepseek-V3-0324
  • Deepseek-coder-V2-Lite
  • Qwen2.5:7B
  • Qwen2.5:14B
  • Qwen2.5-Coder:32B
  • Qwen3:4B
  • Qwen3:8B
  • Qwen3:14B
  • Qwen3:32B
  • Qwen3-30B-A3B
  • Qwen3-235B-A22B

测试数据

Deepseek-V3-0324 测试结果


测试项准确率指令遵循率耗时测试次数
devopseval - C_C++.c0.791.0517.07100
devopseval - Go.csv0.721.0460.91100
devopseval - Java.cs0.751.0417.73100
devopseval - Python.0.79451.0282.1773

总通过率: 0.7614

Deepseek-Coder-V2-Lite 测试结果


测试项准确率指令遵循率耗时测试次数
devopseval - C_C++.c sv 测试集0.681.077.8100
devopseval - Go.csv 测试集0.591.074.08100
devopseval - Java.cs v 测试集0.620.9970.79100
devopseval - Python.csv 测试集0.5891.054.1273

总通过率: 0.622

qwen2.5:7b


测试项准确率指令遵循率耗时测试次数
devopseval - C/C++.c0.480.8319.23100
devopseval - Go.csv0.450.7812.66100
devopseval - Java.cs0.510.8213.54100
devopseval - Python.0.71230.93158.9173

总通过率: 0.5255

qwen2.5:14b


测试项准确率指令遵循率耗时测试次数
devopseval - C/C++.c0.610.9828.78100
devopseval - Go.csv0.550.9731.07100
devopseval - Java.cs0.640.9928.19100
devopseval - Python.0.76711.014.5573

总通过率: 0.6327

qwen2.5-coder:32b


测试项准确率指令遵循率耗时测试次数
devopseval - C/C++.c0.731.049.11100
devopseval - Go.csv0.661.047.23100
devopseval - Java.cs0.721.045.31100
devopseval - Python.0.83561.031.5773

总通过率: 0.7292

qwen3:4b


测试项准确率指令遵循率耗时测试次数
devopseval - C_C++.c0.630.9914.95100
devopseval - Go.csv0.670.9914.43100
devopseval - Java.cs0.641.014.17100
devopseval - Python.0.54790.986310.3573

总通过率:0.6273

qwen3:8b


测试项准确率指令遵循率耗时测试次数
devopseval - C_C++.csv 测试集0.681.021.25100
devopseval - Go.csv测试集0.671.016.75100
devopseval - Java.csv 测试集0.661.016.54100
devopseval - Python.csv 测试集0.63011.011.6773

总通过率: 0.6622

qwen3:14b


测试项准确率指令遵循率耗时测试次数
devopseval - C_C++.csv 测试集0.721.024.87100
devopseval - Go.csv测试集0.681.024.57100
devopseval - Java.csv 测试集0.741.023.83100
devopseval - Python.csv 测试集0.82191.016.7973

总通过率: 0.7346

qwen3:32b


测试项准确率指令遵循率耗时测试次数
devopseval - C_C++.c0.761.051.87100
devopseval - Go.csv0.731.049.73100
devopseval - Java.cs0.731.047.56100
devopseval - Python.0.76711.033.1873

总通过率: 0.7453

Qwen3-30B-A3B 测试结果


测试项准确率指令遵循率耗时测试次数
devopseval - C_C++.csv 测试集0.721.035.35100
devopseval - Go.csv测试集0.591.033.46100
devopseval - Java.csv 测试集0.761.031.7100
devopseval - Python.csv 测试集0.78081.021.3673

总通过率: 0.7078

Qwen3-235B-A22B 测试结果

测试项准确率指令遵循率耗时测试次数
devopseval - C/C++.c0.761.0376.14100
devopseval - Go.csv0.651.0355.37100
devopseval - Java.cs0.741.0332.95100
devopseval - Python.0.64381.0226.3273

总通过率 : 0.7024

汇总表格(已排序):

模型名称准确率
Deepseek-V3-03240.7614
qwen3:32b0.7453
qwen3:14b0.7346
qwen2.5-coder:32b0.7292
Qwen3-30B-A3B0.7078
Qwen3-235B-A22B0.7024
qwen3:8b0.6622
qwen2.5:14b0.6327
qwen3:4b0.6273
Deepseek-Coder-V2-Lite0.622
qwen2.5:7b0.5255

测试结论

稠密模型

首先对于同为稠密模型的qwen3系列,可见在该测试集上确实得到了近乎跨层级的提升,不仅是测试通过率,指令遵循率(即是否按提示词要求仅输出选项)也得到了大幅提升,这意味着8B级别的模型已经完全可以胜任Agent中的“执行者”角色。
另外,可见测试正确率随模型参数量提升而上升,因此我认为在同架构、同系列的模型上此测试是可信的。

MOE模型

而MOE模型似乎有些问题,Qwen3-30B-A3B(总参数30B,激活参数为3B)测试数据介于7B - 14B 模型之间,吞吐量数据同样介于7B - 14B 模型之间(基于llama-bench,Qwen3-30B-A3B | p1000+ | t 100+,Qwen2.5-7B | p4300+ | t134+),这对于额外占用的显存/内存以及降低的prefill速度而言似乎得不偿失。

至于Qwen3-235B-A22B,其测试数据低于同架构的Qwen3-30B-A3B就有些摸不着头脑,对于这个数据我调整参数测试了两次:

  1. 参考Qwen文档中提到的推荐参数(–presence_penalty 1.5 --top_k 20 --temperature 0.7 --top_p 0.95)测得数据为0.6907;

  2. 使用kt默认参数(–presence_penalty 0 --top_k 50 --temperature 0.95 --top_p 0.8)测得数据为0.7024;

数据均持平甚至低于Qwen3-30B-A3B。

但在逻辑推理方面,Qwen3-235B-A22B表现出接近R1的能力,这让我推测:或许Qwen3-235B-A22B的训练语料、预训练调优方面与Qwen3系列其他模型不一致。亦或者这款模型在gguf量化产生的损失超出预期,否则难以解释官方发布的数据中超过Deepseek R1,接近Gemini Pro的测试成绩。

总结

需要注意的是,上述测试仅代表在较短上下文、有明确指令约束、单选题场景下的模型性能,实际使用中,更大体量的模型往往有更强的指令遵循、人类意图理解能力,从而在复杂任务下表现更优。

但可以体现的是,在简单任务场景下,Qwen3的稠密模型确实可以称得上当前最强开源模型,还有其附带的基于/think|/nothink标签的可选思维链功能,可以有效拓展模型的能力边界,适应更多使用场景(但小于14B的模型按以往经验,开启思维链对回答质量是降低的)。

而MOE模型就需要更多后续的观察、复现,Qwen3-235B-A22B已知有出现 高概率进入死循环(官方文档中有提到可以增大presence_penalty参数,说明官方已知存在这个问题)、指令遵循异常(cline中出现不遵循diff格式问题)等,这些问题在qwq-preview版本也有出现,或许后面会再发布该模型的调优版本。

另外我很期待基于Qwen3-32B的Coder模型,在现在的性能表现下,或许Coder模型可以在小任务上达到超过deepseek-v3-0324的表现。

转载声明:此博文未经本人允许,不得转载,请勿爬取

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词