迈向评估工程：对现实环境中机器学习评估框架的实证研究

Hugging Face Daily Papers 2026/05/22 00:00 论文

摘要

本文对57个机器学习评估框架进行了实证研究，识别了五个工作阶段中常见的操作挑战及其根本原因，并主张将评估工程作为一个独立的软件工程关注点。

评估框架是协调模型评估的软件系统，通过管理模型调用、数据加载、指标计算和结果报告。尽管它们在机器学习基础设施中扮演关键角色，但其操作挑战和工程问题迄今受到的关注有限。我们对57个评估框架进行了实证研究，得出了一个五阶段框架模型，并按照工作阶段和根本原因对16,560个问题进行了分类。大多数框架的操作挑战集中在规范阶段（占问题的41.4%），在该阶段框架整合外部模型、数据集和评分判断。操作挑战的三个最常见根本原因是未实现的功能（24.3%）、文档缺失（20.3%）和缺少输入验证（17.2%），三者合计占分类问题的61.7%，涵盖了现有功能缺陷和阻碍预期工作流程的能力差距。根本原因也因工作阶段而异：环境不兼容和外部依赖断裂占配置问题的36.2%，而算法错误（25.9%）和验证差距（22.5%）主导了评估问题。这些贡献共同为将评估工程视为一个独立的软件工程关注点奠定了实证基础。

查看原文

查看缓存全文

缓存时间: 2026/05/26 22:46

论文页面 - 迈向评估工程：对实际环境中机器学习评估框架的实证研究

来源：https://huggingface.co/papers/2605.24213

摘要

评估框架（Evaluation harnesses）是通过管理模型调用、数据加载、指标计算和结果报告来协调模型评估的软件系统。尽管它们在机器学习基础设施中扮演着关键角色，但其操作挑战和工程问题迄今受到的关注有限。我们通过对57个评估框架的实证研究，推导出一个五阶段框架模型，并按工作流阶段和根本原因对16,560个问题进行了分类。大多数框架操作挑战集中在规范（Specification）阶段（占问题的41.4%），该阶段需要集成外部模型、数据集和评分判断器。操作挑战最常见的三个根本原因是：功能未实现（24.3%）、文档缺失（20.3%）和输入验证遗漏（17.2%），三者合计占已分类问题的61.7%，既包含现有功能中的缺陷，也包含阻碍预期工作流的能力缺口。根本原因在不同工作流阶段也有所差异：环境不兼容和外部依赖失效占配置阶段问题的36.2%，而算法错误（25.9%）和验证缺失（22.5%）在评估阶段问题中占主导地位。这些贡献共同为将评估工程作为独立的软件工程关注领域奠定了实证基础。

查看 arXiv 页面 (https://arxiv.org/abs/2605.24213) 查看 PDF (https://arxiv.org/pdf/2605.24213) 项目页面 (https://zhimin-z.github.io/EvalEng) GitHub1 (https://github.com/zhimin-z/EvalEng) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.24213)

在您的 agent 中获取该论文：

hf papers read 2605.24213

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.24213 以从此页面链接。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-e…

X AI KOLs Timeline

本文深入解释AI领域评测框架（Harness）的重要性，分析DeepSeek自建Harness团队的战略意义，并对比了开源lm-evaluation-harness与自建系统的区别。

迈向评估工程：对现实环境中机器学习评估框架的实证研究

论文页面 - 迈向评估工程：对实际环境中机器学习评估框架的实证研究

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

重新审视智能体框架演进的评估

重新思考智能体工具框架进化的评估

你是评估整个框架还是它的各个部分？

值得信赖的第三方评估共享手册

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-e…

提交意见反馈

论文页面 - 迈向评估工程：对实际环境中机器学习评估框架的实证研究

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

重新审视智能体框架演进的评估

重新思考智能体工具框架进化的评估

你是评估整个框架还是它的各个部分？

值得信赖的第三方评估共享手册

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。 在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。 行业标准品是 EleutherAI 的 lm-e…

提交意见反馈

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-e…