评估如何推动企业AI的下一个篇章

OpenAI Blog 新闻

摘要

OpenAI 发布了一个面向业务领导者的框架,说明如何使用 AI 评估(evals)来衡量和改进组织环境中 AI 系统的性能,区分用于模型开发的前沿评估和为特定业务工作流定制的上下文评估。

了解评估如何帮助企业定义、衡量和改进 AI 性能——降低风险、提升生产力并驱动战略优势。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:49

# 评估如何推动企业AI的下一篇章 来源:https://openai.com/index/evals-drive-next-chapter-of-ai/ 全球超过[一百万家企业](https://openai.com/index/1-million-businesses-putting-ai-to-work/)正在利用AI来提高效率和创造价值。但一些组织未能获得预期的结果。是什么导致了这种差距? 在OpenAI,我们内部利用AI来实现雄心勃勃的目标。我们使用的关键工具之一是**评估(evals)**——用来衡量和改进AI系统是否满足期望的方法。 类似于产品需求文档,评估能将模糊的目标和抽象的想法具体化。战略性地使用评估可以使面向客户的产品或内部工具在规模化时更加可靠,减少高风险错误,防范风险,并为组织提供一条可衡量的高投资回报率路径。 在OpenAI,我们的模型就是我们的产品,因此我们的研究人员使用严格的[**前沿评估**](https://evals.openai.com/)来衡量模型在不同领域的表现。虽然前沿评估帮助我们更快地发布更好的模型,但它们无法揭示确保模型在特定业务环境中的特定工作流程上表现的所有细微差别。这就是为什么内部团队还创建了数十个**情境评估**,用来评估特定产品或内部工作流程中的表现。这也是为什么业务领导者应该学习如何创建针对其组织需求和运营环境的情境评估。 本文是为希望在组织中应用评估的业务领导者准备的入门指南。情境评估是为特定组织的工作流程或产品量身定制的,目前仍是一个活跃的开发领域,尚未出现明确的流程。因此,本文提供了一个广泛的框架,我们已在许多情况下验证其有效性。我们预期这个领域会不断演进,更多框架也会涌现,以应对特定的业务背景和目标。例如,对于尖端的AI消费产品的优秀评估可能需要不同的流程,与基于标准操作程序的内部自动化评估相比。我们相信下面提出的框架将在这两种情况下都发挥作用,并将成为您为组织需求量身定制评估时的有用指南。 ## 第一步:从小而精的团队开始 建立一个小而精的团队,能够用简洁的语言描述AI系统的目的,例如:"将合格的入站电子邮件转换为预约演示,同时保持品牌风格"。 这个团队应该由具有技术专长和领域专长的人员组成(在上述示例中,您需要销售专家加入)。他们应该能够阐述最重要的成果指标,概述端到端的工作流程,并确定AI系统将遇到的每个重要决策点。对于工作流程中的每一步,团队应定义成功的样子以及应避免的情况。这个过程将创建一个数十个示例的映射,从输入(如入站电子邮件)到系统应生成的输出。生成的**黄金集合**应该是您最有经验的专家对"优秀"的判断和品味的活跃、权威参考。 ## 第二步:进行错误分析 不要被冷启动问题吓倒,也不要试图一次解决所有问题。这个过程是迭代的、凌乱的。早期原型开发大有帮助。查看系统早期版本的50到100个输出将揭示您的系统何时以及如何失败。这种"错误分析"将产生一个不同错误(及其频率)的分类法,用来跟踪您系统的改进。 ## 第三步:跨职能协作 这个过程不仅仅是技术性的——它是跨职能的,以定义业务目标和所需流程为中心。不应该让技术团队单独判断什么最符合客户利益或产品、销售或人力资源等其他团队的需求。因此,领域专家、技术主管和其他关键利益相关者应该共同承担责任。 ## 第四步:进行衡量 下一步是衡量。衡量的目标是可靠地发现系统如何以及何时失败的具体示例。为此,创建一个专用测试环境,紧密镜像现实条件——而不仅仅是演示或提示操场。根据您的黄金集合和错误分析,在系统实际会面临的相同压力和边界情况下评估表现。 评分标准可以帮助具体化对系统输出的判断,但可能会过分强调表面项目而牺牲整体目标。此外,有些品质很难或不可能衡量。在某些情况下,传统的业务指标将很重要。在其他情况下,您需要发明新指标。始终让您的主题专家参与其中,并将流程与您的核心目标紧密对齐。 要实际测试系统,尽可能使用来自真实情况的示例,并包含或创建罕见但处理不当代价高昂的边界情况。 有些评估可以通过使用**LLM评分器**(一个像专家一样为输出打分的AI模型)来扩展;然而,保持人类参与仍然很重要。您的领域专家需要定期审计LLM评分器的准确性,还应直接审查系统行为的日志。 ## 第五步:持续测量与改进 评估可以帮助您决定系统何时准备好推出,但评估不会在推出时停止。您应该持续衡量系统从真实输入生成的真实输出的质量。与任何产品一样,来自最终用户(无论是外部还是内部)的信号特别重要,应该纳入您的评估中。 最后一步是建立持续改进的流程。解决评估发现的问题可以采取多种形式:改进提示词、调整数据访问权限、更新评估本身以更好地反映您的目标,等等。当您发现新类型的错误时,将它们添加到您的错误分析中并加以解决。每次迭代都建立在前一次的基础上:新的标准和对系统行为更清晰的期望有助于发现新的边界情况和微妙的、顽固的问题。 ## 建立数据飞轮 为了支持迭代,构建一个数据飞轮。记录输入、输出和结果;按计划对这些日志进行采样,并自动将模糊或昂贵的情况提交给专家审查。将这些专家判断添加到您的评估和错误分析中,然后用它们来更新提示词、工具或模型。通过这个循环,您将更清晰地定义您对系统的期望,使其更紧密地与这些期望相一致,并确定要跟踪的其他相关输出和结果。在规模上部署这个流程可以产生一个大型的、差异化的、特定情境的数据集,这很难复制——这是您的组织可以利用的宝贵资产,帮助您在市场上打造最好的产品或流程。 ## 维护与演进 虽然评估为改进AI系统创建了一种系统化方式,但新的失败模式可能会出现。在实践中,随着模型、数据和业务目标的演进,评估也必须持续维护、扩展和压力测试。 对于面向外部的部署,评估不能替代更传统的A/B测试和产品实验。它们是对传统实验的补充,可以帮助相互指导,并提供对您所做更改如何影响现实世界表现的可见性。 ## AI时代的自然延伸 每一次重大技术转变都会重塑运营卓越和竞争优势。OKR和KPI等框架帮助组织围绕"衡量重要的事物"在大数据分析时代定向自己。评估是AI时代测量的自然延伸。 与概率系统打交道需要新的测量方式和对权衡的更深入考虑。领导者必须决定什么时候精确性至关重要,什么时候可以更灵活,以及如何平衡速度和可靠性。 ## 建立竞争优势 评估很难实施的原因与构建优秀产品困难的原因相同;它们需要严谨、远见和品味。如果做好了,评估会成为独特的差异化因素。**在信息在全球自由流动、专业知识民主化的世界中,您的优势取决于您的系统在您的背景下的执行能力有多强。**强大的评估随着系统的改进而产生复合优势和组织智识。 ## 本质:理解业务背景 评估的本质是对业务背景和目标的深刻理解。如果您不能定义什么对您的用例来说是"优秀的",您就不太可能实现它。从这个意义上讲,评估突出了AI时代的一个关键教训:管理技能就是AI技能。明确的目标、直接的反馈、审慎的判断,以及对您的价值主张、战略和流程的清晰理解仍然重要,也许比以往任何时候都更重要。 随着更多最佳实践和框架的出现,我们将分享它们。同时,我们鼓励您尝试评估并发现什么流程最适合您的需求。要开始,确定要解决的问题和您的领域专家,召集您的小团队,如果您在我们的API上构建,探索我们的[平台文档](https://platform.openai.com/docs/guides/evals?api-mode=responses)。 不要期望"优秀"。明确定义它,衡量它,并朝着它改进。

相似文章

解密 AI Agent 的评测方法

Anthropic Engineering

Anthropic 发布了一份指南,介绍如何为 AI Agent 设计严谨的自动化评测方案,重点解决了多轮交互和状态修改带来的复杂性挑战。

@levie: 过去几个月,我们可能正在见证应用AI层在大规模场景下的模样。尽管一些初步的批评认为这只是LLM之上的一层薄薄封装,但事实证明,在企业中驱动自动化工作流远比想象中复杂得多。而任何存在复杂性的地方,随着时间推移,通常都会形成护城河并创造价值。

X AI KOLs Following

对企业中新兴应用AI层的分析,概述了关键组成部分:构建工作流特定功能、智能模型路由、通过FDE进行变更管理以及领域特定的市场策略。文章认为,尽管存在一些批评,这一层将创造可持续的护城河和价值。

构建AI代理时如何进行评估与可观测性?

Reddit r/AI_Agents

作者探讨了在生产环境中评估和监控AI代理所面临的挑战,包括离线评估与在线评估、LLM作为评判、链路追踪和成本追踪,并提到Langfuse、LangSmith等工具,但更关注底层流程。