面向开发者推出GPT-5.1

OpenAI Blog 模型

摘要

OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。

GPT-5.1现已通过API提供,带来了更快的自适应推理、扩展的提示缓存、改进的编码性能,以及新的apply_patch和shell工具。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:53

# 面向开发者的 GPT-5.1 发布 来源:https://openai.com/index/gpt-5-1-for-developers/ 今天,我们通过 API 平台发布 GPT-5.1,这是 GPT-5 系列的新模型,它在智能与速度之间取得平衡,适用于广泛的智能体任务和编程任务。GPT-5.1 会根据任务的复杂程度动态调整思考时间,从而在更简单的日常任务上显著提升速度并提高 token 利用效率。该模型还提供了“无推理”模式,可在不需要深度思考的任务上更快响应,同时保持 GPT-5.1 的顶尖智能水平。 为了让 GPT-5.1 更加高效,我们发布了延长至 24 小时的提示缓存保留时间,从而能以更低成本为后续问题提供更快的响应。我们的[优先处理](https://platform.openai.com/docs/guides/priority-processing)客户在使用 GPT-5.1 时,也会体验到比 GPT-5 显著更快的性能。 在编程方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作,改进了 GPT-5.1 的编程风格、可引导性和代码质量。总体而言,GPT-5.1 在编程时感觉更加直观,并且在完成任务时能通过面向用户的更新进行更有效的沟通。 最后,我们为 GPT-5.1 引入了两个新工具:一个`apply_patch`工具,用于更可靠地编辑代码;一个 shell 工具,让模型能够运行 shell 命令。 GPT-5.1 是 GPT-5 系列的下一个进步,我们计划继续投资于更智能、能力更强的模型,帮助开发者构建可靠的智能体工作流。 为了让 GPT-5.1 更快,我们彻底改革了它的思考训练方式。对于简单任务,GPT-5.1 会花费更少的 token 进行思考,从而带来更敏捷的产品体验和更低的 token 开销。对于需要额外思考的困难任务,GPT-5.1 仍然保持持久性,探索各种选项并检查自身工作,以最大限度地提高可靠性。 **Balyasny Asset Management** 表示,GPT-5.1 “在我们的完整动态评估套件中表现优于 GPT-4.1 和 GPT-5,同时运行速度比 GPT-5 快 2-3 倍”。他们还提到,在大量使用工具的推理任务中,GPT-5.1 “在相似甚至更优的质量下,始终比主要竞争对手少用约一半的 token”。同样,AI 保险 BPO 公司 **Pace** 也测试了该模型,并表示他们的智能体“在 GPT-5.1 上运行速度提升 50%,同时在我们的评估中超过了 GPT-5 和其他领先模型的准确性”。 *与 GPT-5 相比,GPT-5.1 能更动态地调整思考时间。在 ChatGPT 任务的典型分布上,GPT-5.1 在处理较简单任务时速度更快,即使在较高的推理强度下也是如此。* 例如,当被问到“显示列出全局安装包的 npm 命令”时,GPT-5.1 在 2 秒内回答,而不是 10 秒。 开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用无推理模式的 GPT-5.1。这使得模型在延迟敏感的场景中表现得像非推理模型,同时保留了 GPT-5.1 的高智能性,并额外获得了高效的工具调用能力。相对于 GPT-5 的“最低”推理模式,无推理模式的 GPT-5.1 在并行工具调用(这本身就能提高端到端任务完成速度)、编程任务、指令遵循以及使用搜索工具方面表现更好,并且在我们 API 平台中支持[网络搜索](https://platform.openai.com/docs/guides/tools-web-search?api-mode=responses)。**Sierra** 分享说,GPT-5.1 在“无推理”模式下,其“实际评估中低延迟工具调用性能相比 GPT-5 最低推理模式提升了 20%”。 随着在 reasoning_effort 中引入 'none' 作为取值,开发者现在在速度、成本和智能之间的平衡上拥有了更大的灵活性和控制力。GPT-5.1 默认设置为 'none',这非常适合延迟敏感的工作负载。我们建议开发者在复杂度较高的任务中选择 'low' 或 'medium',在智能和可靠性比速度更重要时选择 'high'。 扩展缓存通过允许提示在缓存中保持活跃长达 24 小时(而非目前支持的几分钟)来提高推理效率。更长的保留窗口意味着更多的后续请求可以利用缓存的上下文——从而降低延迟、降低成本,并为多轮对话、编程会话或知识检索工作流等长时间运行的交互提供更流畅的性能。 提示缓存定价保持不变,缓存的输入 token 比非缓存的 token 便宜 90%,且无需额外支付缓存写入或存储费用。要在 GPT-5.1 上使用扩展缓存,请在 Responses 或 Chat Completions API 中添加参数 `“prompt_cache_retention='24h'”`。更多详情请参阅[提示缓存文档](https://platform.openai.com/docs/guides/prompt-caching)。 GPT-5.1 在 GPT-5 的编程能力基础上进行了改进,包括更可引导的编程风格、更少的过度思考、更好的代码质量、在工具调用序列期间更清晰的面向用户的更新消息(前言),以及更实用的前端设计——尤其是在低推理强度下。 在快速代码编辑等简单编程任务上,GPT-5.1 的更快速度使得来回迭代更加容易。GPT-5.1 在简单任务上的更快速度并不会降低它在困难任务上的表现。在 SWE-bench Verified 上,GPT-5.1 甚至比 GPT-5 工作更长时间,达到了 76.3%。 *在 [SWE-bench Verified](https://openai.com/index/introducing-swe-bench-verified/) 中,模型会获得一个代码仓库和问题描述,并必须生成一个补丁来解决问题。标签表示推理强度。准确率是在所有 500 个问题上取平均。所有模型都使用了带有基于 JSON 的 apply_patch 工具的测试环境。* 我们从几家编程公司那里获得了对 GPT-5.1 的早期反馈。以下是他们的印象: - **Augment Code** 称 GPT-5.1 “更加深思熟虑,浪费的动作更少,推理效率更高,任务聚焦更好”,并且他们看到“跨多文件项目中的变更更准确,拉取请求更平滑,迭代更快”。 - **Cline** 分享说,在他们的评估中,“GPT-5.1 在我们的差异编辑基准测试中达到了 SOTA,提升了 7%,展示了在复杂编程任务上的卓越可靠性”。 - **CodeRabbit** 称 GPT-5.1 是其“PR 审查的首选模型”。 - **Cognition** 表示 GPT-5.1 “在理解你的需求并配合你完成工作方面明显更好”。 - **Factory** 表示“GPT-5.1 提供了明显更快的响应,并根据任务调整其推理深度,减少了过度思考,改善了整体开发者体验”。 - **Warp** 正在将 GPT-5.1 设为新用户的默认模型,称其“在 GPT-5 系列引入的惊人智能提升基础上,提供了更具响应性的模型”。 > “GPT 5.1 不仅仅是另一个 LLM——它真正具有智能体特性,是我测试过的最自然的自主模型。它像你一样写作,像你一样编码,轻松遵循复杂指令,在前端任务中表现出色,并且能很好地融入你现有的代码库。你可以在 Responses API 中真正释放其全部潜力,我们很高兴能将其集成到我们的 IDE 中。” > > — Denis Shiryaev,JetBrains AI DevTools 生态系统负责人 我们为 GPT-5.1 引入了两个新工具,帮助开发者在 Responses API 中充分利用模型的能力:一个自由格式的 `apply_patch` **工具**,无需 JSON 转义即可使代码编辑更加可靠;以及一个 **shell** **工具**,允许模型编写命令并在本地机器上运行。 自由格式的 `apply_patch` 工具让 GPT-5.1 能够使用结构化差异在代码库中创建、更新和删除文件。模型不再仅仅建议编辑,而是发出补丁操作,由应用程序应用并报告结果,从而实现迭代式的多步代码编辑工作流。 要在 Responses API 中使用 `apply_patch` 工具,请将其包含在工具数组中,使用 `"tools": [{“type”: “apply_patch”}]`,并在输入中包含文件内容,或为模型提供与文件系统交互的工具。模型将生成 `apply_patch_call` 对象,用于创建、更新或删除包含差异的文件,您可以在自己的文件系统上应用这些差异。有关如何集成 apply_patch 工具的更多信息,请参阅我们的[开发者文档](https://platform.openai.com/docs/guides/tools-apply-patch)。 Shell 工具允许模型通过受控的命令行界面与本地计算机交互。模型提出 shell 命令;开发者集成执行这些命令并返回输出。这创建了一个简单的计划-执行循环,让模型能够检查系统、运行工具并收集数据,直到完成任务。 要在 Responses API 中使用 shell 工具,开发者可以将其包含在工具数组中,使用 `"tools": [{“type”: “shell”}]`。API 将生成 `"shell_call"` 对象,其中包含要执行的 shell 命令。开发者在本地环境中执行这些命令,并将执行结果通过下一个 API 请求中的 `"shell_call_output"` 对象传递回去。更多信息请参阅我们的[开发者文档](https://platform.openai.com/docs/guides/tools-shell)。 GPT-5.1 和 gpt-5.1-chat-latest 现在可供 API 所有付费层级的开发者使用。[定价和速率限制](https://platform.openai.com/docs/pricing)与 GPT-5 相同。我们还将在 API 中发布 `gpt-5.1-codex` 和 `gpt-5.1-codex-mini`。虽然 GPT-5.1 在大多数编程任务上表现出色,但 gpt-5.1-codex 模型针对 Codex 或类似 Codex 的测试环境中长时间运行的智能体编程任务进行了优化。 我们致力于逐步部署最强大、最可靠的模型,用于真实的智能体和编程工作——这些模型能够高效思考、快速迭代,处理复杂任务,同时让开发者保持工作流畅。凭借自适应推理、更强的编程性能、更清晰的面向用户更新以及像 `apply_patch` 和 `shell` 这样的新工具,GPT-5.1 旨在帮助您以更少的摩擦进行构建。我们将在这一领域继续大力投资:您可以在未来几周和几个月内期待能力更强的智能体和编程模型。 *\* 对于 Tau2-bench Telecom,我们给 GPT-5.1 提供了一个简短、通用的有用提示以提升其性能。*

相似文章

GPT-5.5 正式发布

OpenAI Blog

OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。

介绍 GPT-5

OpenAI Blog

OpenAI 推出 GPT-5,这是 AI 智能的重大飞跃,在代码编写、数学、写作、健康和视觉感知等方面展现了最先进的性能。这个统一系统包括一个高效的智能模型、一个深度推理模型(GPT-5 thinking)和一个实时路由器,用于最优响应选择。

为开发者推出 GPT-5

OpenAI Blog

OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。

推出 GPT-5.2

OpenAI Blog

OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。

介绍 GPT-5.4

OpenAI Blog

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。