构建智能体的新工具
摘要
OpenAI 推出了一系列用于构建智能体的新工具,包括 Responses API、内置工具(网络搜索、文件搜索、计算机使用)、Agents SDK 和可观测性功能,旨在简化智能体应用程序开发。
暂无内容
查看缓存全文
缓存时间:
2026/04/20 14:53
# 构建代理的新工具
来源: https://openai.com/index/new-tools-for-building-agents/
今天,我们发布了首批构建块,将帮助开发者和企业构建有用且可靠的代理。我们将代理视为独立完成用户任务的系统。过去一年,我们推出了新的模型能力——例如高级推理、多模态交互和新的安全技术——为我们的模型提供了处理构建代理所需的复杂多步骤任务的基础。然而,客户反馈表示,将这些能力转化为生产就绪的代理可能具有挑战性,通常需要大量的提示词迭代和自定义编排逻辑,而且缺乏足够的可见性或内置支持。
为了解决这些挑战,我们推出了一套专门设计用来简化代理应用开发的新 API 和工具:
- 新的 [Responses API](https://platform.openai.com/docs/quickstart?api-mode=responses),结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力来构建代理
- 内置工具,包括 [网页搜索](https://platform.openai.com/docs/guides/tools-web-search)、[文件搜索](https://platform.openai.com/docs/guides/tools-file-search) 和 [计算机使用](https://platform.openai.com/docs/guides/tools-computer-use)
- 新的 [Agents SDK](https://platform.openai.com/docs/guides/agents),用于编排单代理和多代理工作流
- [集成的可观测性工具](https://platform.openai.com/docs/guides/agents#orchestration),用于追踪和检查代理工作流执行
这些新工具简化了核心代理逻辑、编排和交互,使开发者更容易开始构建代理。在接下来的几周和几个月内,我们计划发布更多工具和能力,进一步简化和加速在我们平台上构建代理应用。
## Responses API
Responses API 是我们用于利用 OpenAI 内置工具构建代理的新 API 原语。它结合了 Chat Completions 的简洁性和 Assistants API 的工具使用能力。随着模型能力的不断发展,我们认为 Responses API 将为构建代理应用的开发者提供更灵活的基础。通过单次 Responses API 调用,开发者将能够使用多个工具和模型轮次解决日益复杂的任务。
首先,Responses API 将支持网页搜索、文件搜索和计算机使用等新的内置工具。这些工具设计用于协同工作,将模型与现实世界相连,使其在完成任务时更加有用。它还带来了多项可用性改进,包括统一的基于项的设计、更简单的多态性、直观的流式事件,以及 SDK 帮助程序,如 `response.output_text`,可轻松访问模型的文本输出。
Responses API 的设计面向希望轻松将 OpenAI 模型和内置工具组合到应用中的开发者,而无需集成多个 API 或外部供应商的复杂性。该 API 还使在 OpenAI 上存储数据变得更容易,开发者可以使用追踪和评估等功能来评估代理性能。提醒一下,即使数据存储在 OpenAI 上,[我们默认不使用商业数据来训练模型](https://openai.com/enterprise-privacy/)。该 API 从今天开始向所有开发者开放,不单独收费——令牌和工具按[定价页面](https://platform.openai.com/docs/pricing)上指定的标准费率计费。查阅 Responses API [快速入门指南](https://platform.openai.com/docs/quickstart?api-mode=responses)了解更多信息。
### Responses API 与现有 API 的关系
- [Chat Completions API](https://platform.openai.com/docs/guides/text-generation):Chat Completions 仍然是我们应用最广泛的 API,我们完全致力于用新模型和能力支持它。不需要内置工具的开发者可以放心继续使用 Chat Completions。当新模型的能力不依赖于内置工具或多次模型调用时,我们会继续向 Chat Completions 发布新模型。但是,Responses API 是 Chat Completions 的[超集](https://platform.openai.com/docs/guides/responses-vs-chat-completions),具有相同的优异性能,因此对于新集成,我们建议从 Responses API 开始。
- [Assistants API](https://platform.openai.com/docs/assistants/overview):基于 Assistants API 测试期间的开发者反馈,我们将关键改进纳入了 Responses API,使其更灵活、更快、更易使用。我们正在努力实现 Assistants API 和 Responses API 之间的完全功能奇偶性,包括支持类似 Assistant 和类似 Thread 的对象,以及代码解释器工具。完成后,我们计划正式宣布弃用 Assistants API,目标弃用日期为 2026 年中期。弃用后,我们将提供明确的从 Assistants API 到 Responses API 的迁移指南,允许开发者保留所有数据并迁移应用。在正式宣布弃用之前,我们将继续向 Assistants API 交付新模型。Responses API 代表了在 OpenAI 上构建代理的未来方向。
## 网页搜索
开发者现在可以从网页中获得快速、最新的答案,并附有清晰相关的引用。在 Responses API 中,网页搜索在使用 gpt-4o 和 gpt-4o-mini 时作为工具可用,可以与其他工具或函数调用配对。
在早期测试中,我们看到开发者使用网页搜索构建各种用例,包括购物助手、研究代理和旅行预订代理——任何需要来自网络的及时信息的应用。
例如,[Hebbia](https://www.hebbia.com/) 利用网页搜索工具帮助资产管理公司、私募股权和信贷公司以及律师事务所从广泛的公开和私有数据集中快速提取可行的见解。通过将实时搜索功能集成到研究工作流中,Hebbia 提供更丰富、特定情境的市场情报,并不断提高分析的精度和相关性,超越了当前基准。
API 中的网页搜索由用于 ChatGPT 搜索的相同模型提供支持。在 SimpleQA(评估大语言模型回答简短事实问题的准确性的基准)上,GPT-4o 搜索预览和 GPT-4o mini 搜索预览分别得分 90% 和 88%。
##### SimpleQA 准确度(越高越好)
63%38%47%15%90%88%准确度
使用 API 中网页搜索生成的响应包括指向来源的链接,例如新闻文章和博客文章,让用户可以了解更多信息。通过这些清晰的内联引用,用户可以以新的方式与信息互动,同时内容所有者获得了接触更广泛受众的新机会。
任何网站或发布商都可以[选择出现](https://platform.openai.com/docs/bots)在 API 的网页搜索中。
网页搜索工具在 Responses API 中作为预览向所有开发者提供。我们还通过 `gpt-4o-search-preview` 和 `gpt-4o-mini-search-preview` 在 Chat Completions API 中向开发者直接提供我们的微调搜索模型。GPT-4o 搜索和 4o-mini 搜索的[定价](https://platform.openai.com/docs/pricing)分别从每千次查询 $30 和 $25 开始。在[游乐场](https://platform.openai.com/playground/chat?preset=17UUXulQ970dEE3jgRfyzSFQ)中尝试网页搜索,在我们的[文档](https://platform.openai.com/docs/guides/tools-web-search)中了解更多。
## 文件搜索
开发者现在可以轻松从大量文档中检索相关信息,使用改进的文件搜索工具。支持多种文件类型、查询优化、元数据过滤和自定义重排序,它可以提供快速、准确的搜索结果。而且同样,通过 Responses API,仅需几行代码即可集成。
文件搜索工具可用于各种实际用例,包括使客户支持代理轻松访问常见问题解答,帮助法律助手快速参考过往案例以供合格专业人员参考,以及协助编码代理查询技术文档。例如,[Navan](https://navan.com/) 在其 AI 驱动的旅行代理中使用文件搜索,快速为用户提供来自知识库文章(如公司旅行政策)的精确答案。通过内置的查询优化和重排序,他们能够建立强大的 RAG(检索增强生成)管道,无需额外的调整或配置。通过为每个用户组设置专用向量存储,Navan 能够根据个人账户设置和用户角色定制答案,为客户及其员工节省时间,同时帮助提供准确的个性化支持。
该工具在 Responses API 中向所有开发者提供。使用[定价](https://platform.openai.com/docs/pricing)为每千次查询 $2.50,文件存储为 $0.10/GB/天,首个 GB 免费。该工具继续在 Assistants API 中提供。最后,我们还为 Vector Store API 对象添加了新的搜索端点,用于直接查询数据供其他应用和 API 使用。在我们的[文档](https://platform.openai.com/docs/guides/tools-file-search)中了解更多,在[游乐场](https://platform.openai.com/playground/chat)中开始测试。
## 计算机使用
为了构建能够完成计算机任务的代理,开发者现在可以在 Responses API 中使用计算机使用工具,该工具由驱动 [Operator](https://openai.com/index/introducing-operator/) 的相同 [计算机使用代理 (CUA)](https://openai.com/index/computer-using-agent/) 模型提供支持。这个研究预览模型创造了新的技术最高水平,在 [OSWorld](https://os-world.github.io/) 上为全计算机使用任务实现 38.1% 的成功率,在 [WebArena](https://webarena.dev/) 上实现 58.1%,在 [WebVoyager](https://arxiv.org/abs/2401.13919) 上为基于网络的交互实现 87%。
内置计算机使用工具捕获模型生成的鼠标和键盘操作,使开发者能够通过直接在其环境中将这些操作转换为可执行命令来自动化计算机使用任务。
开发者可以使用计算机使用工具来自动化基于浏览器的工作流,例如对网络应用执行质量保证或跨旧版系统执行数据输入任务。例如,[Unify](https://www.unifygtm.com/) 是用于增长收入的行动系统,使用代理来识别意图、研究账户和与买家互动。使用 OpenAI 的计算机使用工具,Unify 的代理可以访问以前通过 API 无法访问的信息——例如使房产管理公司能够通过在线地图验证企业是否扩展了其房地产足迹。这项研究充当了自定义信号来触发个性化外展——使销售团队能够精准且大规模地与买家互动。
另一个例子是,[Luminai](https://www.luminai.com/) 集成了计算机使用工具来为缺乏 API 可用性和标准化数据的旧版系统的大型企业自动化复杂的操作工作流。在最近与一家主要社区服务组织的试点中,Luminai 在短短几天内就自动化了应用处理和用户注册流程——传统的机器人流程自动化 (RPA) 经过数月的努力仍未能实现的事情。
在去年在 Operator 中推出 CUA 之前,我们进行了广泛的安全测试和红队测试,解决了三个关键风险领域:滥用、模型错误和前沿风险。为了解决与通过 API 中的 CUA 将 Operator 的能力扩展到本地操作系统相关的风险,我们进行了额外的安全评估和红队测试。我们还为开发者添加了缓解措施,包括防止提示词注入的安全检查、敏感任务的确认提示、帮助开发者隔离其环境的工具,以及增强的潜在政策违规检测。虽然这些缓解措施有助于降低风险,但该模型仍然容易出现无意的错误,尤其是在非浏览器环境中。例如,CUA 在 OSWorld(一个旨在衡量 AI 代理在现实世界任务中性能的基准)上的性能目前为 38.1%,表明该模型对于自动化操作系统上的任务还不够可靠。在这些情况下,建议人工监督。有关我们 API 特定安全工作的更多详情,请参阅我们更新的[系统卡](https://openai.com/index/operator-system-card/)。
| 基准类型 | 基准 | OpenAI CUA | 以前的最高水平 |
|---------|------|-----------|------------|
| 计算机使用(通用界面) | OSWorld | 38.1% | [22.0%](https://www.anthropic.com/news/3-5-models-and-computer-use) |
| 网页浏览代理 | WebArena | 58.1% | [36.2%](https://huggingface.co/spaces/ServiceNow/browsergym-leaderboard) |
| | WebVoyager | 87.0% | [56.0%](https://www.trykura.com/benchmarks) |
[此处](https://cdn.openai.com/cua/CUA_eval_extra_information.pdf)描述了评估详情
## Agents SDK
除了构建代理的核心逻辑并给予他们访问工具的权限以使其有用外,开发者还需要编排代理工作流。我们新的开源 Agents SDK 简化了多代理工作流的编排,相比我们去年发布的实验性 SDK [Swarm](https://github.com/openai/swarm) 提供了显著改进,该 SDK 被开发者社区广泛采用,并被多个客户成功部署。
改进包括:
- **代理**:易于配置的大语言模型,具有清晰的指令和内置工具。
- **移交**:在代理之间智能转移控制。
- **防护栏**:用于输入和输出验证的可配置安全检查。
- **追踪和可观测性**:可视化代理执行追踪以调试和优化性能。
Agents SDK 适用于各种实际应用,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售开发。例如,[Coinbase](https://www.coinbase.com/) 使用 Agents SDK 快速原型设计和部署了 AgentKit,这是一个工具包,使 AI 代理能够与加密钱包和各种链上活动无缝交互。Coinbase 在短短几个小时内就将其开发者平台 SDK 中的自定义操作集成到了完全功能的代理中。AgentKit 的简化架构简化了添加新代理操作的过程,让开发者可以将更多精力放在有意义的集成上,而不是处理复杂的代理设置。
[Box](http://box.com/) 在短短几天内就能够快速创建代理,这些代理利用网页搜索和 Agents SDK 使企业能够在存储于 Box 内的非结构化数据和公网资源中搜索、查询和提取见解
相似文章
OpenAI Blog
OpenAI 推出了 AgentKit,这是一套用于构建、部署和优化代理的综合工具套件,包括可视化 Agent Builder、用于企业数据管理的 Connector Registry,以及扩展的评估功能,包括新数据集和自动提示优化功能。
OpenAI Blog
OpenAI 宣布对 Responses API 进行增强,新增计算机环境和 Shell 工具,使 AI 智能体能够在隔离、安全的容器工作空间中执行实际任务,例如运行服务、访问 API 和生成工件。
GitHub Trending (daily)
OpenAI 发布 openai-agents-python,这是一个轻量级框架,用于构建多智能体工作流,支持 OpenAI API 和 100+ 其他大语言模型。该 SDK 包含沙箱智能体、工具、护栏、人工介入循环、追踪和实时语音智能体等功能。
OpenAI Blog
OpenAI 宣布为 Responses API 推出新工具和功能,包括对远程 Model Context Protocol (MCP) 服务器、图像生成、Code Interpreter 和改进的文件搜索功能的支持。此次更新还使 o3 和 o4-mini 模型能够在其思维链中直接调用工具,同时推出了后台运行和加密推理项目等新的企业功能。
OpenAI Blog
OpenAI 推出了一个新系列,展示其如何在销售、支持、财务和产品团队中内部使用自己的 AI 模型和 API。该项目展示了真实的 AI 部署模式和工具,如 GTM Assistant、DocuGPT 和 Support Agent,旨在提高生产力和决策能力。