欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > 论文略读:Position: AI Evaluation Should Learn from How We Test Humans

论文略读:Position: AI Evaluation Should Learn from How We Test Humans

2025/6/9 18:59:49 来源:https://blog.csdn.net/qq_40206371/article/details/148519493  浏览:    关键词:论文略读:Position: AI Evaluation Should Learn from How We Test Humans

ICML 2025

  • 目前AI的benchmark,大体上都准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分
    • 但这种评估范式实际应用中存在如下问题:
      • 成本:尤其针对大模型,评估涉及大量的计算成本、人工成本、时间成本
      • 可靠性:大量题目存在重复/冗余、题目质量良莠不齐
      • 安全性:很多测试题在训练阶段被模型“见过”/“记住”了
      • 可解释性:只观测到“做对多少题”,但不知道“能力强在哪儿”“能力有多强”
  • ——>论文受到心理测量学(Psychometrics)自适应测试的启发,认为:
    • 每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征
      • 难度:
        • 下图的两个问题单独有差异,简单的题目中有明显的情感偏向词汇
      • 可靠性(区分度)
        • Benchmark 中可能出现低质量甚至是标注错误的题目
      • 猜测系数
        • 部分题目易被“猜对”,无法真实考察能力
        • 下图是MedQA的一道题,即便模型缺乏医学知识,也可能仅凭常识猜对,这些题目的高猜测系数削弱了其评估价值
    • 系统根据考生表现动态分发题目,更精准评估能力
  • 当然还有一个问题是数据污染问题:测试数据很可能被模型在训练阶段“看”过
    • 之前针对 LLM 的污染检测方法
      • 高难题答对,低难题却答错
      • 模型频繁在“不可能答对的题”上答对
    • 此时自适应测试的天然优势出现了
      • 每个模型做的题不同,完整的测试集没有完全暴露,进一步降低了数据污染风险

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com