为开发者推出 GPT-5

OpenAI Blog 模型

摘要

OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。

在我们的 API 平台推出 GPT-5——提供高性能推理、为开发者新增的控制选项,以及在真实编码任务上的同类最佳成果。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:47

# 为开发者推出 GPT-5 来源: https://openai.com/index/introducing-gpt-5-for-developers/ 今天,我们在 API 平台上发布 GPT-5——我们迄今为止在编码和智能体任务方面表现最好的模型。 GPT-5 在关键编码基准测试中处于最先进水平,在 SWE-bench Verified 上得分 74.9%,在 Aider polyglot 上得分 88%。我们训练 GPT-5 成为真正的编码协作者。它擅长生成高质量代码,处理修复错误、编辑代码以及回答关于复杂代码库问题等任务。该模型具有可操控性和协作性——它能以高精度遵循非常详细的指令,并能在工具调用前后提供其操作的前期解释。该模型在前端编码方面也表现出色,在内部测试中前端网站开发上的表现优于 OpenAI o3,胜率达 70%。 我们通过与初创公司和企业的早期测试者协作,在真实编码任务上训练了 GPT-5。**Cursor** 表示 GPT-5 是"他们使用过的最聪慧的模型","非常聪慧、易于引导,甚至具有他们在其他模型中未曾见过的个性"。**Windsurf** 分享称 GPT-5 在他们的评估中处于最先进水平,"工具调用错误率比其他前沿模型低一半"。**Vercel** 表示"它是最好的前端 AI 模型,在美学品味和代码质量上都达到顶级性能,将其置于独特的类别中"。 GPT-5 在长期运行的智能体任务方面也表现出色——在 τ2-bench telecom(96.7%)上取得最先进的成果,这是两个月前发布的工具调用基准测试。GPT-5 改进的工具智能使其能够可靠地链接数十个工具调用——既能按顺序也能并行——而不会失去方向,从而在端到端执行复杂的现实任务方面表现得更好。它还能更精确地遵循工具指令,更擅长处理工具错误,并在长上下文内容检索方面表现出色。**Manus** 表示 GPT-5"在他们的内部基准测试中实现了他们从单个模型看到的最佳性能"。**Notion** 表示"该模型的快速响应,尤其是在低推理模式下,使 GPT-5 成为当您需要一次性解决复杂任务时的理想模型"。**Inditex** 分享"真正使其与众不同的是其推理的深度:细致入微的、多层次的答案,反映了真正的主题专业知识"。 我们在 API 中引入了新功能,让开发者对模型响应有更多控制。GPT-5 支持新的 `verbosity` 参数(值:`low`、`medium`、`high`),帮助控制答案是简洁明了还是详细全面。GPT-5 的 `reasoning_effort` 参数现在可以取最小值,以更快地获得答案,而无需先进行广泛推理。我们还添加了一种新的工具类型——自定义工具——让 GPT-5 可以用纯文本而不是 JSON 调用工具。自定义工具支持由开发者提供的无上下文语法约束。 我们在 API 中以三种规格发布 GPT-5——`gpt-5`、`gpt-5-mini` 和 `gpt-5-nano`——让开发者更灵活地在性能、成本和延迟之间做出权衡。虽然 ChatGPT 中的 GPT-5 是推理、非推理和路由模型的系统,但 API 平台中的 GPT-5 是为 ChatGPT 中的最大性能提供支持的推理模型。值得注意的是,具有最小推理的 GPT-5 与 ChatGPT 中的非推理模型不同,更好地针对开发者进行了调优。ChatGPT 中使用的非推理模型在 API 中可作为 `gpt-5-chat-latest` 使用。 要了解 ChatGPT 中的 GPT-5 以及了解更多 ChatGPT 改进信息,请查看我们的研究博客 (https://openai.com/index/introducing-gpt-5/)。如需了解更多关于企业如何兴奋地使用 GPT-5 的信息,请查看我们的企业博客 (https://openai.com/index/gpt-5-new-era-of-work/)。 ## 编码方面的突破 GPT-5 是我们发布过的最强大的编码模型。它在编码基准测试和现实应用中的表现优于 o3,并已进行微调以在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等智能体编码产品中表现出色。GPT-5 给我们的 Alpha 测试者留下了深刻印象,在许多他们的私有内部评估中创造了新记录。 在以现实软件工程任务为基础的评估 SWE-bench Verified 上,GPT-5 得分 74.9%,高于 o3 的 69.1%。值得注意的是,GPT-5 以更高的效率和速度取得了高分:相比于高推理力度的 o3,GPT-5 的输出令牌减少了 22%,工具调用减少了 45%。 在 SWE-bench Verified (https://openai.com/index/introducing-swe-bench-verified/) 中,模型被赋予一个代码仓库和问题描述,必须生成补丁来解决问题。文本标签表示推理力度。我们的分数排除了 500 个问题中的 23 个,其解决方案在我们的基础设施上未能可靠通过。GPT-5 得到了强调彻底验证解决方案的简短提示;同样的提示对 o3 没有帮助。 在 Aider polyglot 代码编辑评估中,GPT-5 创造了 88% 的新纪录,相比 o3 的错误率降低了三分之一。 在 Aider polyglot (https://aider.chat/2024/12/21/polyglot.html#the-polyglot-benchmark)(差异)中,模型被赋予来自 Exercism 的编码练习,必须将其解决方案写成代码差异。推理模型以高推理力度运行。 我们还发现 GPT-5 擅长深入挖掘代码库,回答关于各个部分如何工作或相互操作的问题。在像 OpenAI 强化学习堆栈一样复杂的代码库中,我们发现 GPT-5 可以帮助我们推理并回答关于我们代码的问题,加速了我们的日常工作。 在为网络应用生成前端代码时,GPT-5 更具美学意识、更加雄心勃勃且更准确。在与 o3 的并排比较中,我们的测试者 70% 的时间更青睐 GPT-5。 以下是 GPT-5 通过单个提示可以做什么的一些有趣、精选示例: ## 更好的编码协作者 GPT-5 是更好的协作者,特别是在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等智能体编码产品中。在工作时,GPT-5 可以在工具调用之间输出计划、更新和总结。相比于我们过去的模型,GPT-5 在完成雄心勃勃的任务方面更积极主动,不会暂停等待你的同意或退缩于高复杂性。 以下是 GPT-5 在处理复杂任务时的样子示例(在本例中,为餐厅创建网站): 用户要求为餐厅建设网站后,GPT-5 分享快速计划、搭建应用、安装依赖、创建网站内容、运行构建以检查编译错误、总结其工作并建议潜在的后续步骤。此视频已加快约 3 倍以节省您的等待时间;创建网站的全部时长约为三分钟。 ## 智能体能力的新高度 超越智能体编码,GPT-5 在智能体任务上总体上表现更好。GPT-5 在指令遵循基准测试(Scale MultiChallenge 上 69.6%,由 o3-mini 评分)和工具调用(τ2-bench telecom 上 96.7%)上创造了新纪录。改进的工具智能让 GPT-5 能够更可靠地链接操作以完成现实任务。 GPT-5 比任何前任都更可靠地遵循指令,在 COLLIE、Scale MultiChallenge 和我们的内部指令遵循评估中得分很高。 在 COLLIE (https://arxiv.org/pdf/2307.08689) 中,模型必须编写满足各种约束的文本。在 Scale MultiChallenge (https://arxiv.org/abs/2501.17399) 中,模型在多轮对话中被挑战以正确使用来自先前消息的四种信息类型。我们的分数来自使用 o3-mini 作为评分器,这比 GPT-4o 更准确。在我们的内部 OpenAI API 指令遵循评估中,模型必须遵循从真实开发者反馈派生的困难指令。推理模型以高推理力度运行。 我们努力以对开发者重要的方式改进工具调用。GPT-5 更擅长遵循工具指令、处理工具错误,以及主动按顺序或并行方式进行许多工具调用。当指示时,GPT-5 也可以在工具调用前后输出前言消息,以在长时间智能体任务期间向用户更新进展。 两个月前,Sierra.ai 发布了 τ2-bench telecom,这是一个具有挑战性的工具使用基准测试,突出了当与可能由用户改变的环境状态交互时语言模型性能的显著下降。在他们的出版物 (https://arxiv.org/pdf/2506.07982) 中,没有模型得分超过 49%。GPT-5 得分 97%。 在 τ2-bench (https://arxiv.org/pdf/2506.07982) 中,模型必须使用工具来完成客户服务任务,其中可能有一个可以交流和对世界状态采取行动的用户。推理模型以高推理力度运行。 ## 长上下文能力 GPT-5 也展示了对长上下文性能的强劲改进。在 OpenAI-MRCR(长上下文信息检索的度量)上,GPT-5 的性能超过了 o3 和 GPT-4.1,且优势在较长输入长度处明显增长。 在 OpenAI-MRCR (https://huggingface.co/datasets/openai/mrcr)(多轮共指消解)中,多个相同的"针"用户请求被插入到长"干草堆"相似请求和响应中,模型被要求重现对第 i 个针的响应。平均匹配比衡量模型响应与正确答案之间的平均字符串匹配比。256k 最大输入令牌处的点表示 128k–256k 输入令牌的平均值,以此类推。这里,256k 表示 256 × 1,024 = 262,114 令牌。推理模型以高推理力度运行。 我们也在开源 BrowseComp Long Context (https://huggingface.co/datasets/openai/BrowseCompLongContext),这是一个用于评估长上下文问答的新基准测试。在此基准测试中,模型被赋予用户查询、长相关搜索结果列表,必须根据搜索结果回答问题。我们设计 BrowseComp Long Context 以现实、困难且有可靠正确的基准真实答案。在 128K–256K 令牌的输入上,GPT-5 89% 的时间给出正确答案。 在 API 中,所有 GPT-5 模型最多可接受 272,000 个输入令牌,最多可发出 128,000 个推理和输出令牌,总上下文长度为 400,000 个令牌。 ## 更加可信赖 GPT-5 比我们之前的模型更可信赖。在来自 LongFact 和 FactScore 基准测试的提示上,GPT-5 的事实错误比 o3 减少了约 80%。这使其更适合于在代码、数据和决策制定中正确性重要的智能体用例。 更高的分数更差。LongFact (https://arxiv.org/abs/2403.18802) 和 FactScore (https://arxiv.org/abs/2305.14251) 包含开放式事实寻求问题。我们使用带浏览功能的基于 LLM 的评分器来事实检查这些基准测试中提示的响应,并衡量事实不正确声明的比例。实现和评分细节可以在系统卡 (https://openai.com/index/gpt-5-system-card/) 中找到。推理模型使用高推理力度。未启用搜索。 总的来说,GPT-5 已被训练为更自我意识其自身局限,并能更好地处理意外的曲球。我们还训练 GPT-5 在健康问题上更加准确(在我们的研究博客中阅读更多) (https://openai.com/index/introducing-gpt-5/)。与所有语言模型一样,当风险很高时,我们建议您验证 GPT-5 的工作。 ## API 功能 ### 控制推理力度 开发者可以通过 API 中的 `reasoning_effort` 参数控制 GPT-5 的思考时间。除了以前的值——`low`、`medium`(默认)和 `high`——GPT-5 还支持 `minimal`,这可以最小化 GPT-5 的推理以快速返回答案。 较高的 `reasoning_effort` 值最大化质量,较低的值最大化速度。并非所有任务都从额外推理中受益相等,所以我们建议进行实验,看看哪种最适合你关心的用例。 例如,超过 `low` 的推理对相对简单的长上下文检索贡献不大,但对 CharXiv Reasoning(视觉推理基准测试)添加了相当多的百分点。 GPT-5 的推理力度在不同任务上产生不同效益。在 CharXiv Reasoning 中,GPT-5 获得了 Python 工具的访问权限。 ### 详细程度控制 为了帮助引导 GPT-5 默认答案长度,我们引入了新的 API 参数 `verbosity`,取值 `low`、`medium`(默认)和 `high`。如果明确指令与详细程度参数冲突,明确指令优先。例如,如果你要求 GPT-5"写一篇 5 段论文",该模型的响应应该总是 5 段落,不管详细程度级别如何(但是,段落本身可能更长或更短)。 ### 用户可见的步骤更新 如果指示,GPT-5 将在工具调用前后输出用户可见的前言消息。与隐藏的推理消息不同,这些可见消息允许 GPT-5 与用户交流计划和进度,帮助最终用户理解其方法和工具调用背后的意图。 ### 自定义工具 我们引入了一种新的工具类型——自定义工具——允许 GPT-5 用纯文本而不是 JSON 调用工具。为了约束 GPT-5 遵循自定义工具格式,开发者可以提供正则表达式,甚至更完整指定的无上下文语法 (https://platform.openai.com/docs/guides/function-calling#context-free-grammars)。 以前,我们针对开发者定义工具的接口要求它们使用 JSON 调用,这是网络 API 和开发者普遍使用的常见格式。但是,输出有效的 JSON 需要模型完美转义所有引号、反斜杠、换行符和其他控制字符。虽然我们的模型经过良好训练可以输出 JSON,但在数百行代码或 5 页报告等长输入上,错误的几率会增加。使用自定义工具,GPT-5 可以将工具输入写为纯文本,而无需转义所有需要转义的字符。 在 SWE-bench Verified 上使用自定义工具而不是 JSON 工具,GPT-5 得分大致相同。 ## 安全性与可靠性 GPT-5 在安全性上推进了边界,是一个更加强大、可靠和有帮助的模型。GPT-5 比我们之前的模型明显不太可能产生幻觉,更诚实地向用户交流其行动和能力,并在保持安全界限的同时提供最有帮助的答案。您可以在我们的研究博客中了解更多 (https://openai.com/index/introducing-gpt-5/)。 ## 定价与可用性 GPT-5 现已在 API 平台上以三种规格推出:`gpt-5`、`gpt-5-mini` 和 `gpt-5-nano`。它可在 Responses API 和 Chat Completions API 上使用,是 Codex CLI 中的默认模型。GPT-5 的定价为 $1.25/1M 输入令牌和 $10/1M 输出令牌,GPT-5 mini 的定价为 $0.25/1M 输入令牌和 $2/1M 输出令牌,GPT-5 nano 的定价为 $0.05/1M 输入令牌和 $0.40/1M 输出令牌。 这些模型支持 `reasoning_effort` 和 `verbosity` API 参数,以及自定义工具。它们还支持并行工具调用、内置工具(网络搜索、文件搜索、图像生成等)、核心 API 功能(流、结构化输出等)和成本节省功能,如提示缓存和批处理 API。 ChatGPT 中使用的 GPT-5 非推理版本在 API 中可作为 `gpt-5-chat-latest` 使用,定价同样为 $1.25/1M 输入令牌和 $10/1M 输出令牌。 GPT-5 也在 Microsoft 平台上推出,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry。 ##### 智能 \[1\] 与我们之前博客文章报告的数字存在轻微差异

相似文章

介绍 GPT-5.4

OpenAI Blog

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。

面向开发者推出GPT-5.1

OpenAI Blog

OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。

介绍 GPT-5

OpenAI Blog

OpenAI 推出 GPT-5,这是 AI 智能的重大飞跃,在代码编写、数学、写作、健康和视觉感知等方面展现了最先进的性能。这个统一系统包括一个高效的智能模型、一个深度推理模型(GPT-5 thinking)和一个实时路由器,用于最优响应选择。

推出 GPT-5.2

OpenAI Blog

OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。

GPT-5.5 正式发布

OpenAI Blog

OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。