AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI 2026/05/15 04:00 论文

benchmarking ai-evaluation foundation-models generative-ai metrics model-comparison dataset

摘要

本文介绍了Benchmarking-Cultures-25数据集，该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化，跨模型可比性有限，并指出基准测试更多被用作市场定位的叙事工具，而非标准化的科学测量手段。

arXiv:2605.14164v1 公告类型: 新论文摘要: 基础模型和生成式AI模型建立和比较能力的主要方式已从同行评审文献转向新闻稿和公司博客文章，模型构建者会在其中突出所选基准测试的结果。这些材料如今在很大程度上定义了研究人员和公众对最新技术的认知。尽管它们举足轻重，但模型构建者选择突出哪些基准测试，以及通过这种选择传达什么信息，却未得到充分研究。为探究这一问题，我们引入并开源了Benchmarking-Cultures-25数据集，其中包含2025年11家主要AI构建者发布的139个模型中所突出的231个基准测试，并附带一个交互式工具用于探索数据。我们的分析揭示了一个碎片化的评估格局，跨模型可比性有限：63.2%的突出基准测试仅被一家构建者使用，38.5%仅出现在一次发布中。少数基准测试获得广泛应用（例如GPQA Diamond、LiveCodeBench、AIME 2025）。此外，不同构建者根据自身叙述将不同能力归因于基准测试。为厘清这些矛盾呈现，我们开发了一个统一分类法，将不同的术语映射到一个基于基准测试作者声称测量内容的共享信号测量框架中。“通用知识应用”是第二受欢迎的类别，但其定义模糊。定性分析显示，许多此类基准测试弱化了构念效度，反而将结果框定为通往AGI进展的指标。其作者声称测量广泛的知识或推理能力，但实际主要评估STEM科目（尤其是数学）。我们认为，突出的基准测试功能更接近于灵活的市场定位叙事工具，而非标准化科学测量工具。数据: https://hf.co/datasets/matybohacek/benchmarking-cultures-25；工具: https://bench-cultures.net。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:21

# 不稳定的指标与AI模型构建者的基准测试文化 来源: https://arxiv.org/html/2605.14164 \(2026\) ###### 摘要。基础模型与生成式AI模型的能力建立与比较方式，已从同行评审文献大幅转向新闻稿和公司博客文章——模型构建者在此类公开材料中强调其在选定基准上的结果。这些面向公众的行业构件如今在很大程度上定义了研究界和广大公众对"最先进技术"的认知。然而，尽管这些基准备受瞩目，模型构建者选择突出哪些基准、以及通过这种选择传递了什么信息，却鲜少被审视。为探究这一问题，我们引入并开源了*Benchmarking-Cultures-25*数据集，该数据集包含2025年来自11家主要AI模型构建者的139次模型发布中重点强调的231项基准。此外，我们还发布了一个交互式工具，可直观探索所收集数据之间的关联。我们的分析揭示了一个碎片化的评估格局，跨模型的可比性有限：63.2%的重点基准仅被一家模型构建者使用，38.5%只在一次模型发布中出现。只有少数基准实现了真正广泛的使用（例如GPQA Diamond、LiveCodeBench和AIME 2025）。此外，同一项基准根据模型构建者的不同叙事，被赋予不同的能力标签。为厘清这些相互矛盾的表述，我们制定了一个统一的分类体系，将分歧的术语映射到一个基于基准作者声称测量内容的共享信号框架上。"通用知识应用"是我们数据集中第二受欢迎但定义模糊的基准类别。对这些基准的定性分析表明，许多基准淡化了构念效度；相反，它们将结果框定为向通用人工智能（AGI）迈进的指标。这种框架既体现在明确引用AGI文献的基准中，也体现在那些受AGI叙事隐性塑造的基准中。此外，"通用知识应用"基准的作者声称测量的是通用的知识或推理能力，但主要评估的却是STEM学科（尤其是数学）的内容。基于这些发现，我们认为，模型发布文档中被强调的基准目前更像是一种灵活的叙事工具，用于构建一个优先考虑市场定位而非实用科学评估与比较的进步叙事，而非标准化的测量工具。数据可在 https://hf.co/datasets/matybohacek/benchmarking-cultures-25 获取；交互式工具可在 https://bench-cultures.net/ 获取。基准测试、模型评估、发布构件、生成式AI ††booktitle:\acmConference@name\(\acmConference@shortname\),\acmConference@date,\acmConference@venue ††journalyear:2026 ††copyright:cc ††conference:2026年ACM公平、问责与透明度大会；2026年6月25–28日；加拿大魁北克省蒙特利尔 ††booktitle:2026年ACM公平、问责与透明度大会（FAccT '26），2026年6月25–28日，加拿大魁北克省蒙特利尔 ††doi:10.1145/3805689.3812240 ††isbn:979-8-4007-2596-8/2026/06 ††ccs:综合与参考 评估 ††ccs:综合与参考 指标 ††ccs:社会与专业议题 ## 1. 引言 近期研究越来越质疑，常用的AI模型基准是否真正反映了现实世界的模型性能和用户体验（Alzahrani 等，2024 (https://arxiv.org/html/2605.14164#bib.bib31)；Cheng 等，2025 (https://arxiv.org/html/2605.14164#bib.bib32)；Eriksson 等，2025 (https://arxiv.org/html/2605.14164#bib.bib1)；Ethayarajh 和 Jurafsky，2020 (https://arxiv.org/html/2605.14164#bib.bib28)；Bowman 和 Dahl，2021 (https://arxiv.org/html/2605.14164#bib.bib29)；Raji 等，2021 (https://arxiv.org/html/2605.14164#bib.bib30)）。尽管如此，模型构建者在每次模型发布时依然会在学术场所之外——系统卡、新闻稿和公司博客中——突出展示基准结果（OpenAI，2024 (https://arxiv.org/html/2605.14164#bib.bib33)、2023a (https://arxiv.org/html/2605.14164#bib.bib34)；Anthropic，2025 (https://arxiv.org/html/2605.14164#bib.bib35)；OpenAI，2023b (https://arxiv.org/html/2605.14164#bib.bib36)）。这些面向公众的行业构件中被强调的基准，不太可能反映各自组织使用的完整内部评估套件（Wan 等，2025 (https://arxiv.org/html/2605.14164#bib.bib52)；Bommasani 等，2024 (https://arxiv.org/html/2605.14164#bib.bib53)；Haimes 等，2024 (https://arxiv.org/html/2605.14164#bib.bib54)）；相反，它们构成了一个精心策划的子集，呈现给外部受众（包括通过API使用模型的潜在用户和开发者），旨在突出独特能力和竞争定位（Joaquin 等，2025 (https://arxiv.org/html/2605.14164#bib.bib55)）。尽管已有大量学术研究探讨个别基准的质量和覆盖范围（Bean 等，2025 (https://arxiv.org/html/2605.14164#bib.bib37)），以及它们在学术文献中的使用情况（Koch 等，2021 (https://arxiv.org/html/2605.14164#bib.bib38)；Wang 等，2024a (https://arxiv.org/html/2605.14164#bib.bib39)；Liao 等，2021 (https://arxiv.org/html/2605.14164#bib.bib40)），但相对较少关注模型构建者如何在公开的发布构件中选择性地使用基准来传达模型能力。在这样的背景下分析基准，是评估它们是否促进了有意义的跨模型比较、并揭示模型构建者通过选择基准所发展的叙事（这些叙事编码了隐含的优先级、组织规范和竞争压力）的一个机会。在本文中，我们构建并分析了*Benchmarking-Cultures-25*数据集，该数据集包含了2025年11家知名模型构建者在139次模型发布中重点强调的231项基准。我们在 https://hf.co/datasets/matybohacek/benchmarking-cultures-25 开源该数据集，并提供交互式网络界面 https://bench-cultures.net/。为构建该数据集，我们基于基准作者声称测量的内容制定了一个统一的分类体系，以弥合AI模型构建者使用的分歧术语，从而定量分析趋势并比较不同类型的模型提供者如何突出基准。最后，我们还对引入五个最流行的"通用知识应用"基准的论文进行了定性分析。我们探讨以下研究问题： - (RQ1) 基准作者所属机构的构成（例如，产业界、学术界、政府）如何，以及随时间如何变化？ - (RQ2) 基准中哪些被测试的能力最为突出，这些能力的呈现方式是否一致？ - (RQ3) AI模型构建者中最受欢迎的基准是哪些？ - (RQ4) 基准被采纳的速度和广泛程度如何，这是否允许跨模型比较？ ## 2. 相关工作 除了作为衡量AI模型性能和进步的构件之外，基准还发挥着治理技术的作用。它们通过定义性能层级、确定优先级，并最终迫使模型构建者与这些标准化指标保持一致（在某些情况下导致制度同构）（Wang 等，2024a (https://arxiv.org/html/2605.14164#bib.bib39)；Raji 等，2021 (https://arxiv.org/html/2605.14164#bib.bib30)；DiMaggio 和 Powell，1983 (https://arxiv.org/html/2605.14164#bib.bib65)）。由于其重要性，一个通常被称为"基准科学"的独立领域已经出现，研究其机制、质量和影响（Laskar 等，2024 (https://arxiv.org/html/2605.14164#bib.bib57)；Chang 等，2024 (https://arxiv.org/html/2605.14164#bib.bib58)；Liang 等，2022 (https://arxiv.org/html/2605.14164#bib.bib59)）。Campolo (2025 (https://arxiv.org/html/2605.14164#bib.bib70)) 将基准置于更广泛的时间和文化的逻辑中，认为宣布最先进结果的做法不仅仅是一种科学主张，更是一种塑造研究议程和竞争动态的表演行为。相关地，Sculley 等 (2018 (https://arxiv.org/html/2605.14164#bib.bib71)) 提醒，强调排行榜排名和增量基准收益可能冒着"赢家诅咒"的风险，即指标上的表面进步掩盖了深层科学理解的缺失。在本节中，我们回顾该领域及相邻领域的现有学术研究。 ### 2.1. 基准饱和与古德哈特定律 AI模型构建者优化基准指标上的性能：在不太严重的情况下，这是由于了解测试方法的样子；在更严重的情况下，则是通过数据污染，即明确在基准内容（测试集）上进行训练（Dominguez-Olmedo 等，2024 (https://arxiv.org/html/2605.14164#bib.bib25)；Oren 等，2023 (https://arxiv.org/html/2605.14164#bib.bib26)；Ni 等，2025 (https://arxiv.org/html/2605.14164#bib.bib27)）。根据古德哈特定律（Goodhart，1984 (https://arxiv.org/html/2605.14164#bib.bib23)；Strathern，1997 (https://arxiv.org/html/2605.14164#bib.bib24)），此类指标不再具有信息性。由于这种直接优化，加上基准的静态性质¹¹（大多数流行基准是静态的：它们使用固定的、公开已知的测试集，自最初发布后从未改变。相比之下，混合基准会随时间更新其测试集（Chen 等，2025 (https://arxiv.org/html/2605.14164#bib.bib60)），从而减轻AI模型直接学习这些数据的能力。但这增加了创建复杂性，并需要重新运行评估以实现向后可比性。）和缓慢的出版周期²²（对于知名AI会议（例如NeurIPS、ICML和ICLR），从提交截止日期到出版通常需要5–6个月。此外，数据开源通常存在延迟，即使资料库在出版时可用（Semmelrock 等，2025 (https://arxiv.org/html/2605.14164#bib.bib61)）。预印本服务器如arXiv的流行减少了这种延迟（Zhou 等，2025b (https://arxiv.org/html/2605.14164#bib.bib62)）。尽管如此，从基准的构思到被采纳之间仍存在差距，这为数据污染和其他不良做法打开了可能性。），AI模型通常迅速在新的基准上饱和，有效消除了其关于模型性能的区分信号（Zhou 等，2025a (https://arxiv.org/html/2605.14164#bib.bib8)；Srivastava 等，2023 (https://arxiv.org/html/2605.14164#bib.bib7)）。提出的解决方案包括统一评估标准（Bommasani 等，2023 (https://arxiv.org/html/2605.14164#bib.bib3)）、持续评估基准本身（Carro 等，2025 (https://arxiv.org/html/2605.14164#bib.bib9)），或开发完全动态的基准（Kiela 等，2021 (https://arxiv.org/html/2605.14164#bib.bib4)）。 ### 2.2. 数据污染与可靠性 数据污染指的是模型在训练期间已经见过基准内容，从而使其能够记忆数据（Deng 等，2024 (https://arxiv.org/html/2605.14164#bib.bib10)；Xu 等，2024 (https://arxiv.org/html/2605.14164#bib.bib5)）。为避免这种情况，有人提出了仅使用模型权重冻结后发布的数据源的策略（Li 等，2023 (https://arxiv.org/html/2605.14164#bib.bib12)）。即使在微妙的情境下，例如数据集之间的最小分布偏移导致主要性能差异，也已证明了对基准的过拟合（Zhang 等，2024 (https://arxiv.org/html/2605.14164#bib.bib11)）。 ### 2.3. 覆盖范围与目标与测量信号之间的差异 基准的另一个已知问题是，声称测试同一概念的不同基准实例之间缺乏一致性，以及基准目标与实际测量的信号之间也存在差异。推理领域就是一个例子，它面临着不同的定义和范围（Fodor，2025 (https://arxiv.org/html/2605.14164#bib.bib15)；Xie 等，2024 (https://arxiv.org/html/2605.14164#bib.bib13)），导致在看似简单的任务上表现得出奇差（Salido 等，2025 (https://arxiv.org/html/2605.14164#bib.bib14)）。一些提出的解决方案包括通过模型激活和可解释性的视角来检查覆盖范围（Bohacek 等，2025 (https://arxiv.org/html/2605.14164#bib.bib21)）。另一个与缺乏构念效度相关的批评是，各种AI子领域倾向于优先考虑少数几个被当作迈向通用AI系统里程碑的基准（Raji 等，2021 (https://arxiv.org/html/2605.14164#bib.bib30)）。 ### 2.4. 基准测试文化 Eriksson 等 (2025 (https://arxiv.org/html/2605.14164#bib.bib1)) 研究了他们所称的AI评估中的"信任危机"，指出了构念效度的失败和缺乏标准化。其他人，包括 Blili-Hamelin 等 (https://arxiv.org/html/2605.14164#bib.bib19) 和 Thais (2024 (https://arxiv.org/html/2605.14164#bib.bib20))，考察了围绕这些基准的叙事和陈述的研究议程；一些研究发现这些模式因地区和社区而异（Ott 等，2022 (https://arxiv.org/html/2605.14164#bib.bib22)）。Weidinger 等 (2025 (https://arxiv.org/html/2605.14164#bib.bib2)) 呼吁为生成式AI建立一门正式的"评估科学"。总体而言，这些非标准化的评估实践及其周围的叙事，构成了 Campolo (2025 (https://arxiv.org/html/2605.14164#bib.bib70)) 概念化为一种独特"基准测试文化"的东西。 ### 2.5. AI基准作为叙事工具 研究还显示了AI公司如何塑造关于AI的公众辩论。Nielsen (2024 (https://arxiv.org/html/2605.14164#bib.bib66)) 的分析表明，AI的媒体报道"往往由行业来源主导，并且经常不加批判地接受关于技术能做什么、不能做什么以及未来可能做什么的说法，这加剧了炒作周期"。从更细致的角度看，Magalhães 和 Smit (2026 (https://arxiv.org/html/2605.14164#bib.bib67)) 对《纽约时报》（美国）、《人民报》（荷兰）和《圣保罗页报》（巴西）中AI报道的定性文本分析表明，虽然新闻报道不一定在助长炒作，但"AI的影响被视为不可避免，但其确切轨迹仍存在争议"（Magalhães 和 Smit，2026 (https://arxiv.org/html/2605.14164#bib.bib67)）。其他人则探索了为何AI公司主导公共话语。Khanal 等 (2025 (https://arxiv.org/html/2605.14164#bib.bib68)) 认为，科技垄断企业已成为"超级政策企业家"。它们通过突出某些问题作为问题领域而充当"问题经纪人"，通过为政策问题提供技术解决方案而充当"政策企业家"，以及利用其资源塑造政治制度以促进自身利益而充当"政治企业家"（Khanal 等，2025 (https://arxiv.org/html/2605.14164#bib.bib68)）。Abdalla 和 Abdalla (2021 (https://arxiv.org/html/2605.14164#bib.bib69)) 探讨了科技垄断企业如何越来越多地通过资金来影响研究，以塑造政府机构所依赖的学术专业知识，其方式类似于大型烟草行业。这一系列研究表明，A

AI模型构建者的不稳定指标与基准测试文化

相似文章

我不再相信模型基准测试，开始运行自己的评估集，这是变化所在[D]

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

评估陷阱：基准设计作为理论承诺

通过基准构建教授AI：QuestBench作为负责任知识工作的课程实践

提交意见反馈