推出 AgentKit、新的 Evals 和用于代理的 RFT

OpenAI Blog 2025/10/06 00:00 产品

摘要

OpenAI 推出了 AgentKit，这是一套用于构建、部署和优化代理的综合工具套件，包括可视化 Agent Builder、用于企业数据管理的 Connector Registry，以及扩展的评估功能，包括新数据集和自动提示优化功能。

今天，我们推出了新的工具来帮助开发者更快地从原型阶段发展到生产阶段：AgentKit、扩展的 evals 功能和用于代理的强化微调。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:49

# 推出 AgentKit 来源：https://openai.com/index/introducing-agentkit/ 今天我们推出 AgentKit，这是一套完整的工具集，供开发者和企业构建、部署和优化 Agent。到目前为止，构建 Agent 意味着要处理碎片化的工具——复杂的编排但没有版本控制、自定义连接器、手动评估流程、提示词调优，以及上线前数周的前端工作。有了 AgentKit，开发者现在可以使用可视化方式设计工作流，并使用以下新的构建块更快地嵌入 Agent UI： - **Agent Builder：** 用于创建和版本化多 Agent 工作流的可视化画布 - **Connector Registry：** 一个中心化的地方，供管理员管理数据和工具如何跨 OpenAI 产品连接 - **ChatKit：** 一个工具包，用于在你的产品中嵌入可自定义的基于聊天的 Agent 体验我们还通过数据集、追踪评分、自动提示词优化和第三方模型支持等新功能扩展了评估能力，以衡量和改进 Agent 性能。自从在 3 月发布 Responses API 和 Agents SDK (https://openai.com/index/new-tools-for-building-agents/) 以来，我们看到开发者和企业构建了端到端的 Agent 工作流，用于深度研究、客户支持等。Klarna 构建了一个支持 Agent (https://openai.com/index/klarna/)，处理了三分之二的工单，Clay 通过销售 Agent 实现了 10 倍增长 (https://openai.com/index/clay/)。AgentKit 基于 Responses API，帮助开发者更高效、更可靠地构建 Agent。随着 Agent 工作流变得越来越复杂，开发者需要更清晰地了解它们的工作原理。Agent Builder (https://platform.openai.com/docs/guides/agents/agent-builder) 提供了一个可视化画布，用于通过拖放节点组合逻辑、连接工具和配置自定义护栏。它支持预览运行、内联评估配置和完整的版本控制——非常适合快速迭代。一个客户服务自动化流的界面视图展示了一个可视化构建工具。画布显示连接的节点，标记为 Start、Jailbreak guardrail、Classification agent、If/else、Return agent、Retention agent、Information agent、Hallucination guardrail 和 End。左侧边栏列出了可用的节点类型，如 Agent、Note、File search、Guardrails、MCP 和 User approval。顶部控件包括 Evaluate、Code、Preview 和 Publish 选项。构建者可以从空白画布开始，也可以使用预构建的模板。在 Ramp，团队仅用几小时就从空白画布创建了一个采购 Agent： > Agent Builder 将曾经需要数月的复杂编排、自定义代码和手动优化转变为短短几小时的工作。可视化画布使产品、法律和工程团队保持一致，将迭代周期缩短了 70%，并在两个冲刺内而非两个季度内让 Agent 上线。 — Ramp 同样，领先的日本技术和互联网服务公司 LY Corporation 使用 Agent Builder 在不到两小时内构建了一个工作助手 Agent。 > Agent Builder 让我们能够以全新的方式编排 Agent，工程师和主题专家都可以在一个界面中协作。我们构建了第一个多 Agent 工作流并在不到两小时内运行了它，大大加快了创建和部署 Agent 的时间。 — LY Corporation 我们还推出了 Connector Registry，供企业在多个工作区和组织中管理数据。Connector Registry (https://platform.openai.com/docs/guides/agents/connector-registry) 将数据源整合到 ChatGPT 和 API 中的单个管理面板中。该注册表包括所有预构建的连接器，如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams，以及第三方 MCP。开发者还可以在 Agent Builder 中启用 Guardrails (https://openai.github.io/openai-guardrails-python/)——一个开源的、模块化的安全层，帮助保护 Agent 免受无意或恶意行为。Guardrails 可以掩蔽或标记 PII、检测越狱，并应用其他保护措施，使构建和部署可靠、安全的 Agent 更加容易。Guardrails 可以独立部署，也可以通过 Python (https://openai.github.io/openai-guardrails-python/) 和 JavaScript (https://openai.github.io/openai-guardrails-js/) 的 guardrails 库进行部署。为 Agent 部署聊天 UI 可能会出人意料地复杂——处理流式响应、管理线程、显示模型思考，以及设计吸引人的聊天体验。ChatKit (https://platform.openai.com/docs/guides/chatkit) 使嵌入感觉对产品原生的基于聊天的 Agent 变得简单。它可以嵌入到应用或网站中，并自定义以匹配你的主题或品牌。 ChatKit 已经支持了一系列用例，从内部知识助手和入职指南到客户支持和研究 Agent。HubSpot (https://www.hubspot.com/) 的客户支持 Agent 就是一个例子。构建可靠的、生产就绪的 Agent 需要严格的性能评估。去年，我们推出了 Evals (https://platform.openai.com/docs/guides/evals) 来帮助开发者测试提示词和衡量模型行为。我们现在增加了四个新功能，使构建评估变得更加容易： - **数据集** – 快速从零开始构建 Agent 评估，并通过自动评分器和人工注释随时间扩展。 - **追踪评分** – 运行 Agent 工作流的端到端评估，并自动评分以查找不足之处。 - **自动提示词优化** – 根据人工注释和评分器输出生成改进的提示词。 - **第三方模型支持** – 在 OpenAI Evals 平台中评估来自其他提供商的模型。我们已经看到使用 Evals 的客户获得了重大性能提升。强化微调 (https://platform.openai.com/docs/guides/reinforcement-fine-tuning) (RFT) 让开发者可以定制我们的推理模型。它在 OpenAI o4-mini 上通常可用，在 GPT-5 上处于私有测试阶段。我们正与数十位客户密切合作，在更广泛发布前改进 GPT-5 的 RFT。今天，我们在该 RFT 测试版中引入了两个新功能，旨在进一步提升 Agent 性能： - **自定义工具调用** – 训练模型在正确的时间调用正确的工具以实现更好的推理 - **自定义评分器** – 为你的用例中最重要的内容设置自定义评估标准从今天开始，ChatKit 和新的 Evals 功能对所有开发者通常可用。Agent Builder 处于测试版，Connector Registry 正在向某些拥有全局管理控制台 (https://help.openai.com/en/articles/12289294-coming-soon-global-admin-console) 的 API、ChatGPT Enterprise 和 Edu 客户开始测试版推出（全局所有者可以管理域、SSO、多个 API 组织）。全局管理控制台是启用 Connector Registry 的先决条件。所有这些工具都包含在标准 API 模型定价中。我们计划很快向 ChatGPT 添加独立的 Workflows API 和 Agent 部署选项。我们迫不及待地想看到你构建的东西。

相似文章

构建智能体的新工具

OpenAI Blog

OpenAI 推出了一系列用于构建智能体的新工具，包括 Responses API、内置工具（网络搜索、文件搜索、计算机使用）、Agents SDK 和可观测性功能，旨在简化智能体应用程序开发。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent，这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统，旨在解决标准编程助手在此任务中的局限性。此外，本文还提出了用于测试评估流程的基准 AgentEvalBench，并展示了在评估可靠性方面的显著提升。

OpenAI内部数据代理探秘

OpenAI Blog

# OpenAI内部数据代理探秘来源：[https://openai.com/index/inside-our-in-house-data-agent/](https://openai.com/index/inside-our-in-house-data-agent/) 数据驱动着系统学习、产品演进以及企业决策。但快速、准确且带有正确语境地获取答案，往往比想象中要困难。为了在OpenAI规模扩展时简化这一过程，我们构建了**专属的内部AI数据代理**，它能够在我们的平台上进行探索和推理。**我们的代理**

@akshay_pachaar: https://x.com/akshay_pachaar/status/2070860837448040832

X AI KOLs Timeline

Google的Agents CLI提供了一个统一的工具，用于搭建、评估和部署AI代理，解决了代理工程中工作流程碎片化的问题。文章演示了如何使用该CLI构建RAG代理，展示了其与编码代理和ADK模式的集成。

微调 API 功能改进和自定义模型项目扩展

OpenAI Blog

OpenAI 推出微调 API 的功能改进，包括基于轮次的检查点、用于模型评估的对比体验区、第三方集成和增强的仪表板功能。该公司还扩展了其自定义模型项目，为开发者提供更多对构建领域特定 AI 解决方案的控制和灵活性。

相似文章

构建智能体的新工具

自动化智能体评估的实证研究

OpenAI内部数据代理探秘

@akshay_pachaar: https://x.com/akshay_pachaar/status/2070860837448040832

微调 API 功能改进和自定义模型项目扩展

提交意见反馈