Every Eval Ever:统一AI评估结果的架构与社区存储库

arXiv cs.AI 论文

摘要

介绍 Every Eval Ever,一个用于标准化AI评估结果的共享架构和社区众包存储库,提供自动转换器和托管数据库,涵盖超过22,000个模型和2,200个基准。

arXiv:2606.14516v1 公告类型:新 摘要:AI评估被广泛用于测试和理解进展。然而,各种评估者带来的不一致性给分析和比较带来挑战。首先,结果以不兼容格式保存,分散在排行榜、论文、博客文章、评估工具日志和自定义存储库中。其次,结果由不同的评估框架生成,这些框架对名义上相同的评估产生不同的分数,并且不一致地记录元数据,从而阻碍了比较、跨社区的评估科学、成本降低和重用。我们介绍 Every Eval Ever,这是第一个用于AI评估结果的共享架构和社区众包存储库。该架构标准化了评估在统一的单一JSON文档中的表示方式。它在设计上与来源无关,可以吸收来自评估工具和论文的结果,并可选地存储每个实例的输出以进行细粒度分析。我们的贡献包括:(i) 一个社区治理的元数据架构及配套的实例级架构,这是此类标准化工作的首次尝试;(ii) 从流行格式、评估工具和排行榜到统一架构的自动转换器;(iii) 一个托管在 Hugging Face 上的众包社区数据库,目前涵盖22,235个模型、2,273个独特基准和31种评估格式。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:12

# AI评估结果的统一模式与社区仓库

来源:https://arxiv.org/html/2606.14516

Jan Batzner\*,1\-3 Sree Harsha Nelaturu\*,4 Damian Stachura\*,5 Anastassia Kornilova\*,6 Jon Crall⋄\diamond, 7 Tommaso Cerruti⋄\diamond, 8 Yanan Long⋄\diamond, 9 Yifan Mai⋄\diamond, 10 Sanchit Ahuja⋄\diamond, 11 Asaf Yehudai⋄\diamond, 12 Marek Šuppa⋄\diamond, 13,14 John P. Lalor⋄\diamond, 15 Oluwagbemike Olowe⋄\diamond, 16 Jatin Ganhotra12 Brian H. Hu7 Eliya Habba17 Andrew M. Bean18 Chang Liu19 Sander Land20 Steven Dillmann10 Aniketh Garikaparthi21 Elron Bandel12 Saki Imai11 James Edgell22 Wm. Matthew Kennedy18 Jenny Chim23 Patrick Meusling24 Asteria Kaeberlein11 Venkata Ramachandra Karthik Chundi16 Manasi Patwardhan21 Martin Ku22 Austin Meek25 Leon Knauer26 Brian Wingenroth27 Srishti Yadav28,29 Usman Gohar30 Felix Friedrich31 Michelle Lin32,33 Jennifer Mickel34 Arman Cohan35 Stella Biderman†\dagger, 34 Irene Solaiman†\dagger, 36 Zeerak Talat†\dagger, 37 Anka Reuel†\dagger, 10,38 Mubashara Akhtar†\dagger, 39,8 Gjergji Kasneci†\dagger, 1,2 Avijit Ghosh†\dagger, 36 Leshem Choshen†\dagger, 40,41,12

\*主要作者 ⋄\diamond 顶级贡献者 †\dagger 顾问

本项目是“评估评估(EvalEval)”联盟的一部分:![[无标题图片]](https://arxiv.org/html/2606.14516v1/figs/logo-square.png) https://evalevalai.com/

1. 慕尼黑工业大学
2. 慕尼黑机器学习中心
3. 魏岑鲍姆研究所
4. 柏林祖斯研究所
5. Evidence Prime
6. Trustible
7. Kitware
8. 苏黎世联邦理工学院
9. StickFlux Labs
10. 斯坦福大学
11. 东北大学
12. IBM研究院
13. 布拉迪斯拉发夸美纽斯大学
14. 思科
15. 圣母大学
16. 独立学者
17. 耶路撒冷希伯来大学
18. 牛津大学
19. 俄亥俄大学
20. Writer
21. TCS Research
22. 牛津大学出版社
23. 伦敦玛丽女王大学
24. 柏林工业大学
25. 特拉华大学
26. Cinemo
27. 约翰霍普金斯大学
28. 哥本哈根大学
29. ELLIS
30. 爱荷华州立大学
31. Meta FAIR
32. 蒙特利尔大学
33. Mila 魁北克人工智能研究所
34. EleutherAI
35. 耶鲁大学
36. Hugging Face
37. 爱丁堡大学
38. 哈佛大学
39. ETH AI中心
40. 麻省理工学院
41. MIT-IBM Watson实验室

###### 摘要

AI评估被广泛用于测试和理解进展。然而,多样化的评估者带来了不一致性,给分析和比较带来了挑战。首先,结果以不兼容的格式保存,分散在排行榜、论文、博客文章、评估框架日志和自定义仓库中。其次,结果由不同的评估框架生成,这些框架对名义上相同的评估产生不同的分数,并且不一致地记录元数据,阻碍了比较、跨社区评估科学、成本降低和复用。我们引入了**Every Eval Ever**,这是第一个用于AI评估结果的共享模式和社区众包仓库。该模式通过统一、单一的JSON文档标准化了评估的表示方式。它设计为与来源无关,可以吸收来自评估框架和论文的结果,并可选择存储每个实例的输出以进行细粒度分析。我们贡献了:(i) 一个社区治理的元数据模式,并附有一个实例级模式 `evaleval/every_eval_ever` (https://github.com/evaleval/every_eval_ever),这是同类中的第一个标准化工作;(ii) 从流行格式、评估框架和排行榜到统一模式的自动转换器https://github.com/evaleval/every_eval_ever;以及(iii) 一个托管在Hugging Face上的众包社区数据库,目前涵盖22,235个模型、2,273个独特的基准测试和31种评估格式[![[无标题图片]](https://arxiv.org/html/2606.14516v1/figs/hf-logo.png) evaleval/EEE_datastore](https://huggingface.co/datasets/evaleval/EEE_datastore)。

## 1 引言

评估对于衡量AI进展至关重要,然而其报告方式却是不一致、不完整且难以解读的。评估结果通常被简化为表格中的聚合分数,而重要的评估元数据(如生成参数、评估设置和数据来源)则被省略,或分散在论文、临时日志文件和代码仓库中。这种碎片化损害了可重复性,使跨基准比较变得复杂,并限制了系统性元分析的潜力。实际上,这给研究人员和实践者带来了根本性挑战。比较性评估研究通常受限于能够可靠复现的结果子集(例如,架构缩放[22 (https://arxiv.org/html/2606.14516#bib.bib54),80 (https://arxiv.org/html/2606.14516#bib.bib55)]或量化比较[48 (https://arxiv.org/html/2606.14516#bib.bib4)]),通常需要大量的计算和财务资源[34 (https://arxiv.org/html/2606.14516#bib.bib71),70 (https://arxiv.org/html/2606.14516#bib.bib53)]。当不同方评估同一模型或基准却产生不同分数时,缺乏可比性尤其具有误导性(见§[7.3](https://arxiv.org/html/2606.14516#S7.SS3) 以及[97 (https://arxiv.org/html/2606.14516#bib.bib7),89 (https://arxiv.org/html/2606.14516#bib.bib1)])。例如,LLaMA 65B模型在MMLU上报告的分数既有63.7也有48.8[39 (https://arxiv.org/html/2606.14516#bib.bib11)]。仔细查看后发现,分数差异源于使用了不同的评估框架。没有这个上下文,这些分数无法直接比较[29 (https://arxiv.org/html/2606.14516#bib.bib40)]。类似地,我们对超过22,235个模型和2,273个基准的评估分析揭示了31种不同的报告格式,凸显了标准化的缺乏,并激发了更结构化报告实践的需求(统计数据见图2 (https://arxiv.org/html/2606.14516#S6.F2))。AI管道的其他部分已受益于标准化:共享元数据模式(如DCAT、Schema.org/Dataset和Croissant[90 (https://arxiv.org/html/2606.14516#bib.bib79),81 (https://arxiv.org/html/2606.14516#bib.bib80),3 (https://arxiv.org/html/2606.14516#bib.bib14)]);文档实践(如Datasheets for Datasets和Model Cards[33 (https://arxiv.org/html/2606.14516#bib.bib81),67 (https://arxiv.org/html/2606.14516#bib.bib82)]);以及通用评估和基准协议(如GLUE、SuperGLUE、HELM、BIG-bench和MLPerf[92 (https://arxiv.org/html/2606.14516#bib.bib83),91 (https://arxiv.org/html/2606.14516#bib.bib84),53 (https://arxiv.org/html/2606.14516#bib.bib9),85 (https://arxiv.org/html/2606.14516#bib.bib78),76 (https://arxiv.org/html/2606.14516#bib.bib85)])已提高了可重复性、可比性和透明度。相比之下,评估报告仍然碎片化[54 (https://arxiv.org/html/2606.14516#bib.bib41),18 (https://arxiv.org/html/2606.14516#bib.bib42),75 (https://arxiv.org/html/2606.14516#bib.bib44),27 (https://arxiv.org/html/2606.14516#bib.bib43),19 (https://arxiv.org/html/2606.14516#bib.bib45)],对下游分析(如基准饱和研究[15 (https://arxiv.org/html/2606.14516#bib.bib35),4 (https://arxiv.org/html/2606.14516#bib.bib38)])产生了影响。同样,该领域的心理测量分析依赖于标准化的实例级数据,这在当前的评估报告中很少见[51 (https://arxiv.org/html/2606.14516#bib.bib5),74 (https://arxiv.org/html/2606.14516#bib.bib6)]。最后,诸如EU AI Act[28 (https://arxiv.org/html/2606.14516#bib.bib36)]等治理框架要求可重复的风险评估,然而当前的评估工具和报告甚至缺乏可重复性所需的基本标准化。

参照图例

图1:Every Eval Ever包含四个组件:(1) 异构评估数据(排行榜、论文、框架日志、自定义脚本);(2) 已知日志格式(HELM、Inspect AI、lm-eval)的转换器以及社区格式(Hugging Face、排行榜)的元数据解析器;(3) 支持聚合和实例级结果的统一元数据模式;(4) 一个众包社区数据库,使公开的评估结果易于访问和处理。

Every Eval Ever (EEE)通过一个共享的报告模式和众包仓库来填补这些空白。正如数据[3 (https://arxiv.org/html/2606.14516#bib.bib14)]和模型[67 (https://arxiv.org/html/2606.14516#bib.bib82)]有文档标准一样,EEE标准化了评估的核心方面:谁运行的、在什么设置下运行的、以及结果分数意味着什么。它从任何来源(如框架日志、排行榜抓取和论文结果)获取结果,并以单一的、可互操作的格式表示。总之,EEE做出了以下贡献:

1. 1. 一个**共享的、版本化的JSON模式**,用于AI评估结果,在单个记录中捕获源出处、模型访问模式、生成配置和度量语义,并带有一个可选的实例级伴随模式,支持单轮和多轮交互类型。
2. 2. **自动转换器**,可从主要框架(HELM、lm-eval-harness、Inspect AI)和常见格式生成符合模式的记录,包括源日志中提供的每实例输出,并配有一个验证管道,确保在贡献时符合模式。
3. 3. 一个托管在Hugging Face上的**众包社区仓库**,已涵盖22,235个模型、2,273个独特的基准测试和31种评估格式,首次实现了大规模跨框架的评估结果比较。
4. 4. 由统一仓库实现的**示例性实证分析**,其中EEE可以识别代理评估中的成本-准确性权衡(7.1 (https://arxiv.org/html/2606.14516#S7.SS1)),揭示实现相关的困惑度分数(7.2 (https://arxiv.org/html/2606.14516#S7.SS2)),捕捉评估框架的可重复性差距(7.3 (https://arxiv.org/html/2606.14516#S7.SS3)),并使用项目反应理论实现元分析(7.4 (https://arxiv.org/html/2606.14516#S7.SS4)),这些在没有统一结果格式之前都是不可行的。

## 2 相关工作

##### 评估框架:评估框架描述了标准化模型评估的软件,从输入提示到输出度量。虽然像lm-eval-harness[32 (https://arxiv.org/html/2606.14516#bib.bib8)]、HELM[53 (https://arxiv.org/html/2606.14516#bib.bib9)]和InspectAI[2 (https://arxiv.org/html/2606.14516#bib.bib10)]这样的评估框架已经 proliferated,但它们的结果格式仍然互不兼容[7 (https://arxiv.org/html/2606.14516#bib.bib25),14 (https://arxiv.org/html/2606.14516#bib.bib46)]。Every Eval Ever不是一个新评估框架,而是一个位于这些框架之上的转换层,能够更好地聚合评估结果。

##### 评估共享:有一些大的来源共享评估结果。主要来源是排行榜[53 (https://arxiv.org/html/2606.14516#bib.bib9),43 (https://arxiv.org/html/2606.14516#bib.bib63)],或网站[6 (https://arxiv.org/html/2606.14516#bib.bib18),65 (https://arxiv.org/html/2606.14516#bib.bib17),26 (https://arxiv.org/html/2606.14516#bib.bib16)],这些努力发布了它们运行的结果,以及两项与我们同时进行的工作,它们专门收集实例级[41 (https://arxiv.org/html/2606.14516#bib.bib15)]或Inspect框架输出[1 (https://arxiv.org/html/2606.14516#bib.bib19)]并公开共享。我们与他们合作,将他们的结果聚合到Every Eval Ever。公共排行榜如Open LLM Leaderboard[12 (https://arxiv.org/html/2606.14516#bib.bib20)]、Chatbot Arena[99 (https://arxiv.org/html/2606.14516#bib.bib21)]、AlpacaEval[52 (https://arxiv.org/html/2606.14516#bib.bib56)]、MT-Bench[98 (https://arxiv.org/html/2606.14516#bib.bib57)]大规模聚合了结果,但导出的结构化元数据有限[93 (https://arxiv.org/html/2606.14516#bib.bib50)]。我们创建了Every Eval Ever,将所有分数以统一格式和数据库组合在一起,同时将本地框架运行也纳入同一格式。

##### 可重复性:当不同的评估设置未明确说明且使用相同的基准名称时,比较是不可靠的。缺乏标准阻碍了社区可靠地比较、复制和重用成本高昂的评估[14 (https://arxiv.org/html/2606.14516#bib.bib46)]。同一模型,通过不同提供商访问或使用不同引擎配置运行,可能产生不同输出[69 (https://arxiv.org/html/2606.14516#bib.bib51)]。此外,提示顺序[58 (https://arxiv.org/html/2606.14516#bib.bib33)]和数据污染[60 (https://arxiv.org/html/2606.14516#bib.bib34)]可能引入分数方差。大规模分析评估结果可能需要数周的数据整理才能开始任何研究(例如[80 (https://arxiv.org/html/2606.14516#bib.bib55),22 (https://arxiv.org/html/2606.14516#bib.bib54),70 (https://arxiv.org/html/2606.14516#bib.bib53),4 (https://arxiv.org/html/2606.14516#bib.bib38)]),如果这种分析不重新运行整个排行榜(以极高成本)就可能无法进行(例如[35 (https://arxiv.org/html/2606.14516#bib.bib52),70 (https://arxiv.org/html/2606.14516#bib.bib53),34 (https://arxiv.org/html/2606.14516#bib.bib71)]),我们估计重现第6节中数据的推理成本(见§6)。

##### 数据集和模型文档:尽管机器学习社区在数据集和模型文档方面有较大努力,但评估和结果文档本身仍然是社区的一个空白[54 (https://arxiv.org/html/2606.14516#bib.bib41),18 (https://arxiv.org/html/2606.14516#bib.bib42)];存在多种关于应报告元数据的建议[86 (https://arxiv.org/html/2606.14516#bib.bib3),16 (https://arxiv.org/html/2606.14516#bib.bib2),84 (https://arxiv.org/html/2606.14516#bib.bib49)],但没有针对低层评估的建议。对于数据集,Datasheets for Datasets[33 (https://arxiv.org/html/2606.14516#bib.bib81)]和Croissant[3 (https://arxiv.org/html/2606.14516#bib.bib14)]标准化了机器学习数据集的元数据。对于基准测试,这些努力已经针对基准需求进行了定制[78 (https://arxiv.org/html/2606.14516#bib.bib47),40 (https://arxiv.org/html/2606.14516#bib.bib48),84 (https://arxiv.org/html/2606.14516#bib.bib49)]。对于模型,Model Cards[67 (https://arxiv.org/html/2606.14516#bib.bib82),56 (https://arxiv.org/html/2606.14516#bib.bib76)]记录了制品及其预期用途。对于评估结果,Every Eval Ever填补了最紧迫的剩余空白:一个用于运行时上下文的共享模式,该上下文决定了两个分数是否可以聚合和比较。

##### 代理评估标准化:最近的工作开始理解标准化代理评估的重要性[10 (https://arxiv.org/html/2606.14516#bib.bib67),43 (https://arxiv.org/html/2606.14516#bib.bib63)],并采取了初步步骤来实现它[8 (https://arxiv.org/html/2606.14516#bib.bib58),49 (https://arxiv.org/html/2606.14516#bib.bib65),64 (https://arxiv.org/html/2606.14516#bib.bib110),38 (https://arxiv.org/html/2606.14516#bib.bib66),96 (https://arxiv.org/html/2606.14516#bib.bib68)]。这些工作侧重于运行时和执行层,在任务表示、环境类型、接口协议和工具规范格式方面标准化代理评估,以实现简单且可扩展的代理和基准集成。Every Eval Ever提供了补充性的关注点,即标准化代理评估结果的表示和存储方式。因此,允许跨不同来源轻松进行结果分析(第7.1节 (https://arxiv.org/html/2606.14516#S7.SS1))。

表1:Every Eval Ever背后的设计决策及其实现的能力

相似文章

Evaluation Cards: 一种AI评估报告的解释层

Hugging Face Daily Papers

本文介绍了EvalCards,这是一种操作框架,通过将基准元数据、评估运行数据和模型元数据组合成一个统一记录,并包含可重现性、完整性、来源、风险和分数可比性的解释性信号,从而标准化AI评估报告。作者在数千个模型和基准测试中部署了一个监控工具,揭示了当前报告实践中的系统性差距。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。