欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 家装 > 大模型能力评估数据集都有哪些?

大模型能力评估数据集都有哪些?

2025/5/24 1:01:33 来源:https://blog.csdn.net/bestpasu/article/details/145422257  浏览:    关键词:大模型能力评估数据集都有哪些?

大模型能力的评估数据集种类繁多,涵盖了语言理解、推理、生成、代码能力、安全性和鲁棒性等多个方面。以下是一些主要的评估数据集及其特点:

  1. 通用能力评估数据集

    • MMLU:多模态大规模多语言任务理解数据集,覆盖从基础教育到高级专业水平的57个科目,用于评估模型的知识储备和推理能力。
    • CMMLU:中文版的大语言模型基准,涵盖自然科学、社会科学、人文、工程和常识等67个主题,包含11,528个问题。
    • SuperGLUE:由纽约大学和谷歌联合推出,包含8个子任务,覆盖推理能力、常识问答、语言理解等。
    • Big-bench:综合评估模型在分析蕴涵、因果判断、经验判断、未知逻辑和已知事实等方面的能力。
  2. 推理与逻辑能力评估数据集

    • MATH:包含初高中数学题目,用LaTeX编写,部分题目类似代码阅读,用于评估数学推理能力。
    • GSM8K:小学数学问题数据集,包含8.5K高质量问题,用于评估数学推理运算能力。
    • CE-Eval:综合基准测试,包含近14,000道问题,覆盖52个学科,用于评估中文语言模型的能力。
  3. 代码生成能力评估数据集

    • HumanEval:由OpenAI推出,用于评估代码生成能力,包含人类编写的代码样例。
    • BBH:用于评估多语言代码生成能力。
  4. 行业与专业能力评估数据集

    • FinEval:金融领域的通用能力评估数据集。
    • PubMedOA:医学领域的通用能力评估数据集。
    • JEC-OA:学术期刊领域的能力评估数据集。
  5. 安全性和鲁棒性评估数据集

    • SafetyBench:针对语言模型的安全性评估。
    • TOXIGEN:用于检测模型生成有害内容的能力。
  6. 多模态能力评估数据集

    • MMBench:视觉问答数据集,用于评估模型在视觉推理上的表现。
    • LLaVA-Bench:视觉推理任务的数据集。
  7. 中文特定能力评估数据集

    • SuperCLUE:中文大模型的综合性评测基准,包括语言理解与生成、专业技能与知识、Agent智能体和安全性等四个象限。
    • GAOKAO-Bench:基于中国高考题目的语言理解和逻辑推理能力评估框架。
  8. 其他重要数据集

    • GLUE:自然语言理解任务的基准测试,包括多项任务如文本分类和情感分析。
    • Natural QuestionsTriviaQA:用于常识理解测试。
    • Pass@k:用于评估模型在特定任务上的表现。

这些数据集从不同角度全面评估了大模型的能力,包括理解、生成、推理、代码编写、安全性以及多模态处理等。通过这些数据集的评测,可以有效揭示模型的强项和弱点,为模型优化提供方向。同时,不同数据集的使用也需根据具体任务需求进行选择,以确保评测结果的准确性和全面性。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词