衡量我们的模型在实际任务中的性能
摘要
OpenAI 推出 GDPval,这是一个新的评估框架,用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务,代表了从学术基准向更现实的职业评估的进步。
OpenAI 推出 GDPval,这是一项新的评估方法,用于衡量模型在 44 个职业中具有经济价值的实际任务上的表现。
查看缓存全文
缓存时间:
2026/04/20 14:53
# 衡量我们的模型在真实任务中的性能
来源:https://openai.com/index/gdpval/
我们的使命是确保通用人工智能造福全人类。作为使命的一部分,我们希望透明地沟通 AI 模型如何在现实世界中帮助人们的进展。这就是为什么我们推出 GDPval:一项新的评估工具,旨在帮助我们追踪我们的模型和其他模型在经济价值高、真实世界任务上的表现。我们称这个评估为 GDPval,因为我们从国内生产总值 (GDP) 这一关键经济指标的概念出发,从对 GDP 贡献最大的行业中的关键职业中抽取任务。
人们经常推测 AI 对社会的广泛影响,但理解其潜力的最清晰方式是查看模型已经能够做什么。历史表明,从互联网到智能手机这样的重大技术从发明到广泛采用需要超过十年的时间。像 GDPval 这样的评估有助于将关于 AI 未来改进的讨论建立在证据而非猜测的基础上,并可以帮助我们随时间推移追踪模型的改进。
以往的 AI 评估,如具有挑战性的学术测试和竞争性编程挑战,在推动模型推理能力边界方面至关重要,但它们往往不足以应对许多人在日常工作中处理的那类任务。
为了弥补这一差距,我们一直在开发能够衡量日益现实且经济相关能力的评估。这个进展已经从经典学术基准(如涵盖数十个科目的考试风格问题的 MMLU)发展到更实际应用的评估,如 [SWE-Bench](https://openai.com/index/introducing-swe-bench-verified/)(软件工程 bug 修复任务)、[MLE-Bench](https://openai.com/index/mle-bench/)(机器学习工程任务,如模型训练和分析)和 [Paper-Bench](https://openai.com/index/paperbench/)(研究论文的科学推理和评论),以及最近的基于市场的评估,如 [SWE-Lancer](https://openai.com/index/swe-lancer/)(基于真实报酬的自由职业软件工程项目)。
GDPval 是这个进展的下一步。它衡量模型在直接来自各种职业和部门的经验丰富专业人士真实世界知识工作的任务上的表现,提供了关于模型如何在经济价值高的任务上表现的更清晰图景。在现实职业任务上评估模型帮助我们了解的不仅是他们在实验室中的表现如何,还有他们可能如何支持人们日常工作。
GDPval 第一个版本涵盖了从对美国 GDP 贡献最大的前 9 个行业中选出的 44 个职业。GDPval 完整集包括 1,320 个专业任务(黄金开源集中有 220 个),每项任务都由这些领域拥有平均超过 14 年经验的有经验专业人士精心制作和审核。每项任务都基于真实的工作产品,如法律摘要、工程蓝图、客户支持对话或护理计划。
GDPval 的独特之处在于其任务的真实性和多样性。与其他与经济价值相关的评估(如专注于特定领域的 SWE-Lancer)不同,GDPval 涵盖许多任务和职业。与涉及以学术考试或测试风格综合创建任务的基准(如《人类最后的考试》或 MMLU)不同,GDPval 专注于基于可交付成果的任务,这些可交付成果要么是当今存在的实际工作或产品,要么是类似构建的工作产品。
与传统基准不同,GDPval 任务不是简单的文本提示。它们附带参考文件和上下文,预期的可交付成果包括文档、幻灯片、图表、电子表格和多媒体。这种真实性使 GDPval 成为模型如何支持专业人士的更现实的测试。
GDPval 是一个早期步骤,不能反映许多经济任务的全部细微差别。虽然它跨越 44 个职业和数百个知识工作任务,但它仅限于单次评估,因此不能捕捉模型需要建立上下文或通过多个草稿改进的情况。未来的版本将扩展到更多交互式工作流和上下文丰富的任务,以更好地反映真实世界知识工作的复杂性(详见下面的《局限性》部分)。
GDPval 涵盖 9 个行业和 44 个职业的任务,未来的版本将继续扩大覆盖范围。最初的 9 个行业是根据圣路易斯联邦储备银行数据对美国 GDP 贡献超过 5% 的行业选择的。然后,我们使用 2024 年 5 月美国劳工统计局 (BLS) [职业就业报告](https://www.bls.gov/oes/tables.htm)的工资和就业数据,选择了每个行业内对总工资和薪酬贡献最大且主要是知识工作职业的 5 个职业。为了确定职业是否主要是知识工作,我们使用了来自 [O*NET](https://www.onetonline.org/)(美国劳工部赞助的美国职业信息数据库)的任务数据。我们对 O*NET 中每个职业的每项任务进行了分类,确定是否为知识工作或体力工作/手动劳动(在物理世界中需要采取的行动)。如果职业的至少 60% 的任务被分类为不涉及体力工作或手动劳动,则该职业总体上被认定为"主要知识工作"。我们选择 60% 作为 GDPval 第一个版本的起点,专注于 AI 可能对真实世界生产力产生最高影响的职业。
这个过程产生了 44 个职业的包含。
GDPval 涵盖 9 个部门中 44 个知识工作职业,从软件开发人员和律师到注册护士和机械工程师。这些职业因其经济重要性而被选中,代表了 AI 可以有意义地协助专业人士的日常工作类型。
对于每个职业,我们与有经验的专业人士合作,创建代表其日常工作的代表性任务。这些专业人士平均拥有 14 年的经验,具有良好的晋升记录。我们特意招聘了广泛的专家——例如来自不同执业领域和不同规模律师事务所的律师——以最大化代表性。
每项任务都经过多步骤审查过程,以确保其代表真实工作、对其他专业人士可行,并清晰可评估。平均而言,每项任务接受了 5 轮专家评审,包括其他任务编写者、额外职业评审员和基于模型的验证的检查。
所得数据集包括每个职业 30 个完全审查的任务(完整集),我们开源黄金集中每个职业有 5 个任务,为评估模型在真实世界知识工作上的表现提供了坚实基础。
为了评估 GDPval 任务上的模型性能,我们依靠专家"评分员"——来自数据集中代表的相同职业的一群有经验的专业人士。这些评分员盲目地比较模型生成的可交付成果与任务编写者生成的可交付成果(不知道哪个是 AI 还是人类生成的),并提供批评和排名。评分员随后对人类和 AI 可交付成果进行排名,并将每个 AI 可交付成果分类为"更好"、"同样好"或"比不上"。
任务编写者还为其职业创建了详细的评分标准,为评分过程增加了一致性和透明度。我们还开发了一个"自动评分员",这是一个经过训练的 AI 系统,用于估计人类专家将如何判断给定的可交付成果。换句话说,我们不需要每次都进行完整的专家评审,自动评分员可以快速预测人们可能偏好哪个输出。我们通过 evals.openai.com 作为实验性研究服务发布了这个工具,但它还不如专家评分员可靠,因此我们不使用它来替代他们。
我们发现当今最好的前沿模型已经接近行业专家生成的工作质量。为了测试这一点,我们进行了盲评估,其中行业专家比较了来自几个领先模型的可交付成果——GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4——与人类制作的工作。在 GDPval 黄金集的 220 个任务中,我们记录了模型输出被评为优于("胜利")或与来自行业专家的可交付成果相当("平局")的情况,如下面的柱状图所示。Claude Opus 4.1 是该集合中表现最好的模型,特别在美学(如文档格式化、幻灯片布局)方面表现出色,而 GPT-5 特别在准确性(如发现特定领域知识)方面表现出色。我们也看到这些任务上随时间的明确进展。从 GPT-4o(2024 年春季发布)到 GPT-5(2025 年夏季发布),性能提高了一倍多,遵循清晰的线性趋势。
此外,我们发现前沿模型完成 GDPval 任务的速度和成本大约是行业专家的 100 倍。然而,这些数字反映的是纯模型推理时间和 API 计费率,因此不能捕捉在真实工作场所设置中使用我们的模型所需的人工监督、迭代和集成步骤。尽管如此,特别是在模型特别强大的任务子集上,我们预期在尝试使用人类之前先将任务分配给模型会节省时间和金钱。
专家评分员将领先模型的可交付成果与人类专家进行了比较。当今的前沿模型已经在接近行业专家生成的工作质量。Claude Opus 4.1 在将近一半的任务中产生的输出被评为与人类相当或更好。
从 GPT-4o 到 GPT-5,GDPval 任务上的性能在一年内提高了三倍多。
最后,我们增量训练了一个内部实验版本的 GPT-5,以评估我们是否可以改进 GDPval 上的性能。我们发现这个过程改进了性能,为进一步改进创造了途径。其他受控实验也支持这一点:增加模型大小、鼓励更多的推理步骤以及提供更丰富的任务上下文各自都导致了可测量的收益。
您可以在我们的论文中阅读完整结果。我们还发布了 GDPval 任务的黄金子集和公共评分服务,以便其他研究人员可以在此基础上继续开展工作。
随着 AI 变得更加能力强大,它可能会对就业市场造成变化。早期 GDPval 结果表明,模型已经可以比专家更快地处理一些重复的、明确定义的任务,成本更低。然而,大多数工作不仅仅是可以写下来的任务的集合。GDPval 突出了 AI 可以处理常规任务,使人们可以花更多时间在工作中具有创意性和判断力的部分。当 AI 以这种方式补充工作者时,它可以转化为显著的经济增长。我们的目标是通过民主化这些工具的获取、支持工作者度过变化,以及建立奖励广泛贡献的系统,让每个人都在 AI 的"上升电梯"上。
GDPval 是一个早期步骤。虽然它涵盖 44 个职业和数百个任务,但我们正在继续完善我们的方法,以扩大测试范围并使结果更有意义。当前版本的评估也是单次的,因此不能捕捉模型需要建立上下文或通过多个草稿改进的情况——例如,在收到客户反馈后修改法律摘要或在发现异常后迭代数据分析。此外,在现实世界中,任务并不总是用提示和参考文件清晰定义的;例如,律师可能需要应对歧义,与其户交谈,才能决定创建法律摘要是否是帮助他们的正确方法。我们计划扩展 GDPval,以包括更多职业、行业和任务类型,增加互动性,以及更多涉及应对歧义的任务,目标是更好地衡量不同知识工作的进展。
- **如果您是行业专家**有兴趣为 GDPval 做出贡献,请[在这里表示兴趣](https://openai.com/form/real-world-knowledge-work/)。
- **如果您是与 OpenAI 合作的客户**并且您想为 GDPval 的下一轮做出贡献,请[在这里表示兴趣](https://openai.com/form/gdpval-customer-contribution/)。
社区参与至关重要——我们很兴奋能与研究人员、实践者和与我们有着使 AGI 对工作中的人更有用的目标的组织一起构建 GDPval。
相似文章
arXiv cs.LG
本文主张生成式人工智能的评估应从静态基准转向衡量现实效用和人类成果。文章提出了 SCU-GenEval 框架及辅助工具,旨在解决基准表现与部署成功之间的脱节问题。
OpenAI Blog
OpenAI 发布经济分析报告,展示 ChatGPT 对工作者生产力的影响,并宣布与哈佛大学和美国企业研究所(AEI)的经济学家开展为期 12 个月的研究合作,以评估 AI 对就业和劳动力的影响,同时在华盛顿特区建立新的 OpenAI 工作坊。
OpenAI Blog
OpenAI 发布了一个面向业务领导者的框架,说明如何使用 AI 评估(evals)来衡量和改进组织环境中 AI 系统的性能,区分用于模型开发的前沿评估和为特定业务工作流定制的上下文评估。
OpenAI Blog
OpenAI推出FrontierScience,这是一个新的基准测试,用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%,在研究型任务中达到25%。该论文提供了早期证据,表明GPT-5能显著加速真实的科学工作流程,将工作周期从数周缩短至数小时,同时建立了度量标准,以追踪朝着AI加速科学研究的进展。
Google DeepMind Blog
Google DeepMind和Kaggle推出了Kaggle Game Arena,一个开源的AI基准测试平台,让大型语言模型在策略游戏中进行对抗,从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号,克服了传统基准测试的局限性。