有基准却无度量——生成式人工智能应以现实效用为评估标准

arXiv cs.LG 论文

摘要

本文主张生成式人工智能的评估应从静态基准转向衡量现实效用和人类成果。文章提出了 SCU-GenEval 框架及辅助工具,旨在解决基准表现与部署成功之间的脱节问题。

arXiv:2605.06856v1 公告类型:新发布 摘要:生成式人工智能系统虽然在标准基准测试中表现优异,却无法提供现实效用,我们在涵盖教育、医疗、软件工程和法律的 28 个部署案例中发现了这种脱节。我们认为,这种基准效用差距源于评估实践中三种反复出现的失效:代理置换、时间崩塌和分布遮蔽。基于这些观察,我们主张生成式人工智能的评估需要实现范式转变,从以静态基准为中心的透明度转向以利益相关者、目标和上下文为条件的效用透明度,并以人类成果轨迹为基础。现有评估主要描述模型输出的特性,而部署成功则取决于与 AI 的互动是否能随着时间推移提升利益相关者实现目标的能力。因此,缺失的构建要素是效用:即在与部署环境中的 AI 系统持续互动过程中,利益相关者能力所发生的变化。为落实这一观点,我们提出了 SCU-GenEval,这是一个四阶段评估框架,包括利益相关者目标映射、构念指标规范、机制建模和纵向效用测量。为使这些阶段具备实际可操作性,我们引入了三种辅助工具:结构化部署协议、上下文条件用户模拟器以及基于角色和目标条件的代理指标。最后,我们提出了针对特定领域的行动呼吁,主张生成式人工智能的进展应通过人类成果的可衡量改进来评估,而不仅仅依赖基准表现。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:57

# 已对标却未衡量 —— 生成式 AI 应依据真实世界效用进行评估

来源:https://arxiv.org/abs/2605.06856
查看 PDF (https://arxiv.org/pdf/2605.06856)

> 摘要:生成式 AI 系统在标准基准测试中表现优异,却未能提供现实世界的效用,我们在涵盖教育、医疗保健、软件工程和法律的 28 个部署案例中发现了这种脱节现象。我们认为,这种“基准-效用差距”源于评估实践中三种反复出现的失败:代理置换、时间崩溃和分布隐藏。基于这些观察,我们主张生成式 AI 的评估需要实现范式转变,从以静态基准为中心的透明度转向以利益相关者、目标和情境为条件的效用透明度,并以此为基础关注人类结果轨迹。现有评估主要描述模型输出的属性,而部署的成功取决于与 AI 的互动是否改善了利益相关者随时间实现目标的能力。因此,缺失的关键概念是“效用”:在部署情境中,通过与 AI 系统持续互动所引发的利益相关者能力的变化。为了将这一视角付诸实践,我们提出了 SCU-GenEval,一个包含四个阶段的评估框架,包括利益相关者-目标映射、构念-指标规范、机制建模以及纵向效用测量。为了使这些阶段具备实际可操作性,我们引入了三种支持工具:结构化部署协议、情境条件化用户模拟器,以及基于角色和目标条件的代理指标。最后,我们提出了针对特定领域的行动呼吁,主张生成式 AI 的进展必须通过人类可衡量的结果改进来评估,而不仅仅依赖于基准测试的表现。

## 提交历史

来自:Ishani Mondal \[查看邮箱 (https://arxiv.org/show-email/04925bc4/2605.06856)\] **\[v1\]** 2026年5月7日 星期四 18:56:07 UTC \(1,923 KB\)

相似文章

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

用于衡量前沿AI能力的开放世界评估

arXiv cs.AI

本文认为传统基准测试既高估又低估了前沿AI能力,并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目,并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。