大模型能力评估数据集都有哪些?

2025/9/22 10:27:21 来源：https://blog.csdn.net/bestpasu/article/details/145422257 浏览: 次关键词：大模型能力评估数据集都有哪些?

大模型能力的评估数据集种类繁多，涵盖了语言理解、推理、生成、代码能力、安全性和鲁棒性等多个方面。以下是一些主要的评估数据集及其特点：

通用能力评估数据集：
- MMLU：多模态大规模多语言任务理解数据集，覆盖从基础教育到高级专业水平的57个科目，用于评估模型的知识储备和推理能力。
- CMMLU：中文版的大语言模型基准，涵盖自然科学、社会科学、人文、工程和常识等67个主题，包含11,528个问题。
- SuperGLUE：由纽约大学和谷歌联合推出，包含8个子任务，覆盖推理能力、常识问答、语言理解等。
- Big-bench：综合评估模型在分析蕴涵、因果判断、经验判断、未知逻辑和已知事实等方面的能力。
推理与逻辑能力评估数据集：
- MATH：包含初高中数学题目，用LaTeX编写，部分题目类似代码阅读，用于评估数学推理能力。
- GSM8K：小学数学问题数据集，包含8.5K高质量问题，用于评估数学推理运算能力。
- CE-Eval：综合基准测试，包含近14,000道问题，覆盖52个学科，用于评估中文语言模型的能力。
代码生成能力评估数据集：
- HumanEval：由OpenAI推出，用于评估代码生成能力，包含人类编写的代码样例。
- BBH：用于评估多语言代码生成能力。
行业与专业能力评估数据集：
- FinEval：金融领域的通用能力评估数据集。
- PubMedOA：医学领域的通用能力评估数据集。
- JEC-OA：学术期刊领域的能力评估数据集。
安全性和鲁棒性评估数据集：
- SafetyBench：针对语言模型的安全性评估。
- TOXIGEN：用于检测模型生成有害内容的能力。
多模态能力评估数据集：
- MMBench：视觉问答数据集，用于评估模型在视觉推理上的表现。
- LLaVA-Bench：视觉推理任务的数据集。
中文特定能力评估数据集：
- SuperCLUE：中文大模型的综合性评测基准，包括语言理解与生成、专业技能与知识、Agent智能体和安全性等四个象限。
- GAOKAO-Bench：基于中国高考题目的语言理解和逻辑推理能力评估框架。
其他重要数据集：
- GLUE：自然语言理解任务的基准测试，包括多项任务如文本分类和情感分析。
- Natural Questions和TriviaQA：用于常识理解测试。
- Pass@k：用于评估模型在特定任务上的表现。

这些数据集从不同角度全面评估了大模型的能力，包括理解、生成、推理、代码编写、安全性以及多模态处理等。通过这些数据集的评测，可以有效揭示模型的强项和弱点，为模型优化提供方向。同时，不同数据集的使用也需根据具体任务需求进行选择，以确保评测结果的准确性和全面性。

大模型能力评估数据集都有哪些?

相关资讯

热文排行

最新新闻

推荐新闻

热搜词