迈向评估工程:对现实环境中机器学习评估框架的实证研究
摘要
本文对57个机器学习评估框架进行了实证研究,识别了五个工作阶段中常见的操作挑战及其根本原因,并主张将评估工程作为一个独立的软件工程关注点。
查看缓存全文
缓存时间: 2026/05/26 22:46
论文页面 - 迈向评估工程:对实际环境中机器学习评估框架的实证研究
来源:https://huggingface.co/papers/2605.24213
摘要
评估框架(Evaluation harnesses)是通过管理模型调用、数据加载、指标计算和结果报告来协调模型评估的软件系统。尽管它们在机器学习基础设施中扮演着关键角色,但其操作挑战和工程问题迄今受到的关注有限。我们通过对57个评估框架的实证研究,推导出一个五阶段框架模型,并按工作流阶段和根本原因对16,560个问题进行了分类。大多数框架操作挑战集中在规范(Specification)阶段(占问题的41.4%),该阶段需要集成外部模型、数据集和评分判断器。操作挑战最常见的三个根本原因是:功能未实现(24.3%)、文档缺失(20.3%)和输入验证遗漏(17.2%),三者合计占已分类问题的61.7%,既包含现有功能中的缺陷,也包含阻碍预期工作流的能力缺口。根本原因在不同工作流阶段也有所差异:环境不兼容和外部依赖失效占配置阶段问题的36.2%,而算法错误(25.9%)和验证缺失(22.5%)在评估阶段问题中占主导地位。这些贡献共同为将评估工程作为独立的软件工程关注领域奠定了实证基础。
查看 arXiv 页面 (https://arxiv.org/abs/2605.24213) 查看 PDF (https://arxiv.org/pdf/2605.24213) 项目页面 (https://zhimin-z.github.io/EvalEng) GitHub1 (https://github.com/zhimin-z/EvalEng) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.24213)
在您的 agent 中获取该论文:
hf papers read 2605.24213
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。
包含此论文的合集 0
没有合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
值得信赖的第三方评估共享手册
OpenAI分享了关于设计值得信赖的前沿模型第三方评估的经验教训和推荐方法,强调了评估框架和有效性检查的关键作用。
停止在不公开执行框架的情况下比较LLM智能体
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。
@sairahul1: https://x.com/sairahul1/status/2063544956158185927
本文介绍了“Harness Engineering”这一概念,这是一门专注于设计约束和引导AI代理的系统,使其在生产中可靠的学科,并认为Harness(约束系统)比模型本身更重要。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
你的评估会出问题,而你却察觉不到
讨论当前LLM评估方法的结构性弱点,这些方法未能预见能力的质变,并指出开发主动评估基础设施是实现安全能力跃升的关键瓶颈。