在Hugging Face模型页面上展示Every Eval Ever的所有结果

Hugging Face Blog 工具

摘要

Every Eval Ever (EEE) 与 Hugging Face Community Evals 现已互操作,允许将 AI 评估结果标准化地交叉发布到模型页面,提升信任度和可比性。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/30 17:27

在 Hugging Face 模型页面上展示每次评测的所有结果

来源:https://huggingface.co/blog/eee-community-evals

返回文章列表 (https://huggingface.co/blog)

Every Eval Ever(EEE)与 Hugging Face Community Evals 现已实现互兼容。我们支持评测结果的交叉发布与解读,同时链接到开放模型、排行榜以及统一的标准化元数据存储。

EEE 于 2026 年 2 月作为 EvalEval Coalition 的一个项目启动,这是首个跨机构合作项目,旨在改善 AI 评测结果的报告方式,无论是由第一方还是第三方评测者提交。Hugging Face 于 2026 年 2 月推出了 Community Evals,旨在将基准测试分数的报告方式去中心化到 Hub 上。两者结合,弥补了用户、研究人员和政策制定者在信任、理解和选择评测与模型方面的空白。

评测结果是我们衡量模型能力、比较模型之间差异以及推理安全性和治理的方式。然而,这些结果分散各处,难以比较。它们存在于论文、排行榜、博客文章和评测框架日志等多种格式中。同一模型在相同基准测试上,根据运行者和运行方式的不同,往往返回不同的分数;例如,LLaMA 65B 在 MMLU 上报告的分数既有 63.7 也有 48.8。这些差异可能源于我们发现的 通常未被报告的评测设置

EEE 是我们针对报告侧问题的解决方案。它采用一个 JSON schema 来记录评测结果,包含:

  • 谁运行的
  • 哪个模型
  • 访问方式
  • 生成设置
  • 指标的实际含义
  • [推荐] 每个样本输出的配套 JSONL 文件

该 schema 是在研究人员和政策研究者的反馈下构建的,能够接收来自任何来源的结果,因此评测框架日志、排行榜抓取数据和论文中的数字最终都能统一格式。GitHub 仓库 提供了转换器、示例和贡献指南。

自推出以来,Hugging Face 上的 数据存储 已增长到约 229,000 个评测结果,涵盖超过 22,000 个模型和 2,200 个基准测试,数据来自 31 种不同的报告格式。从头开始复现这些运行将花费数十万美元,这充分说明一旦有人付费生成了数据,就不应让其散失。了解更多关于 schema 和如何贡献的信息,请点击 此处

现在,它带来了更好的集成和归属功能。贡献者现在可以将 EEE 结果发送到 Hugging Face Community Evals。我们构建了一个转换器,可以获取您的 EEE 记录并写入 Hugging Face 所需的小型 YAML 文件,这样您就不必手动维护两种格式的相同结果。

Eval Cards 上的已验证评测者

这是针对所有报告或阅读评测的用户的新功能,不仅限于现有的 EEE 贡献者。报告自己模型的第一方评测者和报告他人模型的第三方评测者都可以向 Community Evals 和 EEE 提交数据,浏览 Hub 的任何人都能获得可追溯到完整记录的结果。当您通过所在组织的官方 Hugging Face 账户提交数据时,您的结果将在 EvalEval 上显示一个 已验证 的勾选标记,向读者表明这些数字直接来自源头。

本文后续部分将介绍 Community Evals 是什么以及转换器的作用。

Hugging Face Community Evals 如何与 EvalEval 协同工作

Hugging Face Community Evals 有两个方面。一个基准测试存在于一个数据集仓库中,该仓库通过添加 eval.yaml 进行注册。注册后,该数据集页面会收集并显示一个排行榜,列出 Hub 上针对该基准测试报告的所有分数。官方基准测试列表 会随时间增长。

模型的分数存储在模型仓库内的 .eval_results/*.yaml 中。它们会显示在模型卡片上,并输入到相应的基准测试排行榜中。模型作者自己的结果以及任何其他人通过拉取请求提交的结果都会被汇总,每个分数都带有一个徽章,标明是作者提交、社区提交还是独立验证。任何人都可以通过提交包含正确 YAML 文件的 PR 来为任何模型添加分数,模型作者可以关闭 PR 或在自己的仓库中隐藏结果。

以下是其中一个排行榜的样子:

Hub 上 Humanity’s Last Exam 的 Community Evals 排行榜

这就是 EEE 和 Community Evals 的结合点。当您将结果发送到两者时,会发生两件事:首先,您的分数会出现在 Hugging Face 模型页面上,并被拉入基准测试的排行榜。其次,它会附带一个源徽章,直接链接回完整的 EEE 记录,其中包含生成配置、评测框架版本、可复现性说明以及任何实例级数据。

SmolLM2 模型页面上的 EvalEval 源信息
来自 EEE 数据存储的评测(MMLU-Pro)(a) 在文件级别交叉链接到 Hugging Face 模型卡片 (b)。Source EvalEval 徽章链接到完整的 JSON 记录。

这两个目的地朝着同一目标发挥着不同的作用。Hugging Face 将您的结果放在人们查看模型的地方,并带有返回源的链接。EEE 则保存完整的结构化记录,使结果可解读,并在此基础上驱动 Eval Cards 将数据发送到两者,同一评测结果将同时可见且可理解,这正是报告评测结果的意义所在。您可以在下方看到这种跨兼容性。显示在上方模型卡片上的相同 GPQA 分数,也在 Eval Cards 中呈现,后者将 EEE 运行数据与基准测试和模型元数据组合成一个可解读的记录。同一评测,不同的展示面:

工作原理

Hugging Face 将评测分数以 YAML 格式存储在模型仓库的 .eval_results/ 目录下。必填字段仅为基准测试数据集、任务和值。source 块是创建指向 EEE 反向链接的部分。

- dataset:
    id: openai/gsm8k
  task_id: gsm8k
  value: 96.8
  date: '2024-07-16'
  notes: '8-shot CoT'
  source:
    url: https://huggingface.co/datasets/evaleval/EEE_datastore/blob/main/flat/objects/<collection>/<record_hash>.json
    name: EvalEval

转换器从您现有的记录中填充这些字段。 它将 source_data.hf_repo 映射到 dataset.idevaluation_name 映射到 task_idscore_details.score 映射到 valueevaluation_timestamp 映射到 date,然后插入数据存储对象 URL 作为指向每条记录 EEE JSON 的源链接。目前它支持四个官方基准测试:MMLU-Pro、GPQA、HLE 和 GSM8K。

转换器的作用不仅仅是重塑字段。 您将其指向一个 EEE 数据存储集合,它会下载该集合及其引用的记录,检查对象哈希值,并找到映射到受支持基准测试的分数。在写入任何实际内容之前,它会审计当前已存在的内容:读取模型主分支和打开 PR 中的每个 .eval_results YAML,并按数据集和任务进行比较,而不是按文件名。如果分数已存在,则标记为 already_present;如果存在不同分数,则标记为 score_conflict;如果模型仓库在 Hub 上无法解析,则标记为 missing_hf_model。所有其他内容标记为 ready

未经您的确认,不会推送任何内容。 该工具会写入本地 YAML 预览和一个可供检查的审查文件,显示哪些内容已就绪、哪些需要关注,并且仅在您输入 OPEN PRS 并输入提交消息后才会打开 PR。重新运行会为同一集合缓存结果,除非您传入 --force

转换器的 TUI 界面
转换器的审查步骤。排除的条目(此处为没有匹配 Hub 仓库的模型)会列出其 EEE 源 URL,就绪的 PR 等待明确的 OPEN PRS 确认。

从这里开始

将您的完整记录提交到 EEE 数据存储。使用 EEE 仅需额外一个步骤,而转换器在很大程度上自动化了这一步骤。

社区评测转换器工具 可在 GitHub 仓库中找到。要处理一个集合,请执行以下操作:

uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \
    --datastore evaleval/EEE_datastore@main

审查它生成的预览和报告,然后在准备提交时输入 OPEN PRS

关于 schema、CLI 和转换器的完整文档,请访问 evalevalai.com/every_eval_ever/hf-community-evals

相似文章

Evaluation Cards: 一种AI评估报告的解释层

Hugging Face Daily Papers

本文介绍了EvalCards,这是一种操作框架,通过将基准元数据、评估运行数据和模型元数据组合成一个统一记录,并包含可重现性、完整性、来源、风险和分数可比性的解释性信号,从而标准化AI评估报告。作者在数千个模型和基准测试中部署了一个监控工具,揭示了当前报告实践中的系统性差距。