迈向评估工程:对现实环境中机器学习评估框架的实证研究

Hugging Face Daily Papers 论文

摘要

本文对57个机器学习评估框架进行了实证研究,识别了五个工作阶段中常见的操作挑战及其根本原因,并主张将评估工程作为一个独立的软件工程关注点。

评估框架是协调模型评估的软件系统,通过管理模型调用、数据加载、指标计算和结果报告。尽管它们在机器学习基础设施中扮演关键角色,但其操作挑战和工程问题迄今受到的关注有限。我们对57个评估框架进行了实证研究,得出了一个五阶段框架模型,并按照工作阶段和根本原因对16,560个问题进行了分类。大多数框架的操作挑战集中在规范阶段(占问题的41.4%),在该阶段框架整合外部模型、数据集和评分判断。操作挑战的三个最常见根本原因是未实现的功能(24.3%)、文档缺失(20.3%)和缺少输入验证(17.2%),三者合计占分类问题的61.7%,涵盖了现有功能缺陷和阻碍预期工作流程的能力差距。根本原因也因工作阶段而异:环境不兼容和外部依赖断裂占配置问题的36.2%,而算法错误(25.9%)和验证差距(22.5%)主导了评估问题。这些贡献共同为将评估工程视为一个独立的软件工程关注点奠定了实证基础。
查看原文
查看缓存全文

缓存时间: 2026/05/26 22:46

论文页面 - 迈向评估工程:对实际环境中机器学习评估框架的实证研究

来源:https://huggingface.co/papers/2605.24213

摘要

评估框架(Evaluation harnesses)是通过管理模型调用、数据加载、指标计算和结果报告来协调模型评估的软件系统。尽管它们在机器学习基础设施中扮演着关键角色,但其操作挑战和工程问题迄今受到的关注有限。我们通过对57个评估框架的实证研究,推导出一个五阶段框架模型,并按工作流阶段和根本原因对16,560个问题进行了分类。大多数框架操作挑战集中在规范(Specification)阶段(占问题的41.4%),该阶段需要集成外部模型、数据集和评分判断器。操作挑战最常见的三个根本原因是:功能未实现(24.3%)、文档缺失(20.3%)和输入验证遗漏(17.2%),三者合计占已分类问题的61.7%,既包含现有功能中的缺陷,也包含阻碍预期工作流的能力缺口。根本原因在不同工作流阶段也有所差异:环境不兼容和外部依赖失效占配置阶段问题的36.2%,而算法错误(25.9%)和验证缺失(22.5%)在评估阶段问题中占主导地位。这些贡献共同为将评估工程作为独立的软件工程关注领域奠定了实证基础。

查看 arXiv 页面 (https://arxiv.org/abs/2605.24213) 查看 PDF (https://arxiv.org/pdf/2605.24213) 项目页面 (https://zhimin-z.github.io/EvalEng) GitHub1 (https://github.com/zhimin-z/EvalEng) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.24213)

在您的 agent 中获取该论文:

hf papers read 2605.24213

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

值得信赖的第三方评估共享手册

OpenAI Blog

OpenAI分享了关于设计值得信赖的前沿模型第三方评估的经验教训和推荐方法,强调了评估框架和有效性检查的关键作用。

停止在不公开执行框架的情况下比较LLM智能体

arXiv cs.AI

这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

你的评估会出问题,而你却察觉不到

Reddit r/ArtificialInteligence

讨论当前LLM评估方法的结构性弱点,这些方法未能预见能力的质变,并指出开发主动评估基础设施是实现安全能力跃升的关键瓶颈。