介绍 GPT-5.4

OpenAI Blog 模型

摘要

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。

介绍 GPT-5.4,这是 OpenAI 最强大、最高效的专业工作前沿模型,具备顶尖的编码、计算机使用、工具搜索和百万级 token 上下文能力。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:52

# 介绍 GPT-5.4 来源:https://openai.com/index/introducing-gpt-5-4/ 今天,我们在 ChatGPT(作为 GPT-5.4 Thinking)、API 和 Codex 中发布 **GPT-5.4**。它是我们面向专业工作最强大、最高效的前沿模型。同时,我们还在 ChatGPT 和 API 中发布 **GPT-5.4 Pro**,面向希望在复杂任务上获得最佳性能的用户。 GPT-5.4 将我们在推理、编码和智能体工作流程方面的最新进展整合到一个单一的前沿模型中。它融入了 GPT-5.3-Codex (https://openai.com/index/introducing-gpt-5-3-codex/) 的行业领先编码能力,同时改进了模型在工具、软件环境以及涉及电子表格、演示文稿和文档的专业任务中的工作方式。其结果是,模型能够准确、有效且高效地完成复杂的实际工作——用更少的来回交互交付您所要求的内容。 在 ChatGPT 中,GPT-5.4 Thinking 现在可以预先提供其思考计划,因此您可以在其工作时 **中途调整方向**,并在无需额外交互轮次的情况下,最终输出更符合您需求的结果。GPT-5.4 Thinking 还改进了**深度网络研究**,特别是针对高度特定的查询,同时**更好地保持上下文**,用于需要更长思考的问题。这些改进共同意味着更高质量的答案,更快地送达,并始终与手头任务相关。 在 Codex 和 API 中,GPT-5.4 是我们发布的第一个具备原生、最先进的**计算机使用能力**的通用模型,使智能体能够操作计算机并跨应用程序执行复杂的工作流程。它支持高达 **100 万 Token 的上下文**,允许智能体在长周期内规划、执行和验证任务。GPT-5.4 还通过**工具搜索**改进了模型在大型工具和连接器生态系统中的工作方式,帮助智能体更高效地找到并使用正确的工具,同时不牺牲智能。最后,GPT-5.4 是我们**Token 效率最高的推理模型**,与 GPT-5.2 相比,解决问题使用的 Token 显著减少——从而降低 Token 用量并提升速度。 结合通用推理、编码和专业知识工作的进步,GPT-5.4 在 ChatGPT、API 和 Codex 上实现了更可靠的智能体、更快的开发者工作流程以及更高质量的输出。 *此前报告为 64.7%。GPT-5.3-Codex 通过新引入的 API 参数(保留原始图像分辨率)达到了 74.0%。* 在 GPT-5.2 的通用推理能力基础上,GPT-5.4 在对专业人士至关重要的实际任务上提供了更一致、更精炼的结果。 在 **GDPval** (https://openai.com/index/gdpval/) 上,该基准测试智能体在 44 个职业中生成明确知识工作的能力,GPT-5.4 达到了新的最先进水平,在 **83.0%** 的比较中匹配或超越行业专业人士,而 GPT-5.2 为 **70.9%**。 *在 GDPval 中,模型尝试完成涵盖美国 GDP 贡献前 9 大行业中 44 个职业的明确知识工作。任务要求生成实际的工作产品,例如销售演示文稿、会计电子表格、急诊科排班表、制造图表或短视频。GPT-5.4 的推理努力设置为 xhigh,GPT-5.2 设置为 heavy(在 ChatGPT 中略低)。* 我们特别关注改进 GPT-5.4 创建和编辑电子表格、演示文稿和文档的能力。在一个模拟初级投行分析师可能完成的电子表格建模任务的内部基准上,GPT-5.4 的平均得分为 **87.3%**,而 GPT-5.2 为 **68.4%**。在一组演示文稿评估提示中,人工评估员在 **68.0%** 的情况下更偏好 GPT-5.4 生成的演示文稿,优于 GPT-5.2,原因是其更强的美学效果、更大的视觉多样性以及更有效地使用图像生成。 为了提升 GPT-5.4 在实际工作中的表现,我们持续推动了减少幻觉和错误方面的进步。GPT-5.4 是我们迄今为止最符合事实的模型:在一组用户标记了事实错误的去标识化提示上,与 GPT-5.2 相比,GPT-5.4 的单个声明错误可能性降低 33%,完整响应包含任何错误的可能性降低 18%。 GPT-5.4 是我们第一个具备原生**计算机使用能力**的通用模型,标志着开发者和智能体领域的重大进步。它是目前为构建能够跨网站和软件系统完成实际任务的智能体的开发者提供的最佳模型。 我们设计了 GPT-5.4,使其在广泛的计算机使用工作负载中表现优异。它擅长通过 Playwright 等库编写代码来操作计算机,以及根据截图发出鼠标和键盘命令。其行为可通过开发者消息进行调整,意味着开发者可以针对特定用例调整行为。开发者甚至可以通过指定自定义确认策略来配置模型的安全行为,以适应不同级别的风险承受能力。 模型的性能和灵活性体现在跨不同设置测试计算机使用能力的基准上。在 **OSWorld-Verified** 上,该基准衡量模型通过截图和键盘/鼠标操作导航桌面环境的能力,GPT-5.4 达到了最先进的 **75.0%** 成功率,远超 GPT-5.2 的 **47.3%**,并超越了人类绩效的 **72.4%**。**¹** 在 **WebArena-Verified** 上,该基准测试浏览器使用,GPT-5.4 在使用 DOM 和截图驱动交互时达到了领先的 **67.3%** 成功率,而 GPT-5.2 为 **65.4%**。在 **Online-Mind2Web** 上,该基准同样测试浏览器使用,GPT-5.4 仅使用基于截图的观察达到了 **92.8%** 的成功率,优于 ChatGPT Atlas 的智能体模式(成功率为 **70.9%**)。 *工具让步是指助手让步以等待工具响应。如果同时调用 3 个工具,接着再同时调用 3 个工具,让步次数将为 2。工具让步是比工具调用更好的延迟指标,因为它们反映了并行化的好处。* GPT-5.4 改进的计算机使用能力建立在其改进的通用视觉感知能力之上。在 **MMMU-Pro** 上,该基准测试模型的视觉理解和推理,GPT-5.4 在不使用工具的情况下达到了 **81.2%** 的成功率,优于 GPT-5.2 的 **79.5%**。改进的视觉感知还转化为更好的文档解析能力。在 **OmniDocBench** 上,GPT-5.4(无推理努力)的平均误差(通过模型预测与真实值之间的归一化编辑距离衡量)为 **0.109**,优于 GPT-5.2 的 **0.140**。 *MMMUPro 将推理努力设置为 xhigh。OmniDocBench 将推理努力设置为 none,以反映低成本、低延迟性能。* 我们还改进了对高密度、高分辨率图像(原始保真度至关重要)的视觉理解。从 GPT-5.4 开始,我们引入了一个 `original` 图像输入细节级别(在新窗口中打开)(https://developers.openai.com/api/docs/guides/images-vision/#specify-image-input-detail-level),支持总像素最多 10.24M 或最大尺寸 6000 像素(以较低者为准)的全保真感知;`high` 图像输入细节级别现在支持总像素最多 2.56M 或最大尺寸 2048 像素。在与 API 用户的早期测试中,我们观察到使用 `original` 或 `high` 细节时,定位能力、图像理解和点击准确性方面有显著提升。 GPT-5.4 结合了 GPT-5.3-Codex 的编码优势以及领先的知识工作和计算机使用能力,这些在模型可以使用工具、迭代并在较少人工干预下推进工作的较长运行任务中最为重要。它在 SWE-Bench Pro 上匹配或超越了 GPT-5.3-Codex,同时跨推理努力实现了更低的延迟。 *我们通过观察模型的在线行为并在离线环境下模拟来估算延迟。延迟估算考虑了工具调用持续时间(代码执行时间)、采样 Token 和输入 Token。实际延迟可能有显著差异,并取决于我们模拟中未体现的许多因素。推理努力从 none 扫描到 xhigh。* 在 Codex 中启用 /fast 模式后,GPT-5.4 的 Token 生成速度可提升至 1.5 倍。这是相同的模型、相同的智能,只是更快。这意味着用户可以更流畅地进行编码任务、迭代和调试。开发者可以通过 API 使用优先处理(在新窗口中打开)(https://developers.openai.com/api/docs/guides/priority-processing) 以相同的快速速度访问 GPT-5.4。 在评估和内部测试中,我们发现 GPT-5.4 在处理复杂前端任务时表现出色,其美学效果和功能性均明显优于我们之前发布的任何模型。 为了展示模型计算机使用能力和编码能力的协同改进,我们还发布了一个实验性的 Codex 技能,名为“Playwright (Interactive)(在新窗口中打开)(https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive)”。这使得 Codex 能够对 Web 和 Electron 应用进行可视化调试;它甚至可以在构建应用的同时对其进行测试。 借助 GPT-5.4,我们显著改进了模型与外部工具协同工作的方式。智能体现在可以跨更大的工具生态系统运行,更可靠地选择正确的工具,并以更低的成本和延迟完成多步骤工作流程。 以前,当模型被赋予工具时,所有工具定义都预先包含在提示中。对于拥有大量工具的系统,这可能为每次请求增加数千甚至数万个 Token,从而增加成本、减慢响应,并用模型可能永远不会使用的信息挤占上下文。 通过工具搜索,GPT-5.4 转而接收一个轻量级的可用工具列表以及工具搜索能力。当模型需要使用工具时,它可以查找该工具的定义,并在那一刻将其附加到对话中。 这种方法显著减少了工具密集型工作流程所需的 Token 数量,并保持了缓存的可用性,使请求更快更便宜。它还使智能体能够可靠地与更大的工具生态系统合作。对于可能包含数万个 Token 工具定义的 MCP 服务器,效率提升尤为显著。 为了展示效率提升,我们使用来自 Scale 的 MCP Atlas(在新窗口中打开)(https://scale.com/leaderboard/mcp_atlas) 基准的 250 个任务进行了评估,启用了所有 36 个 MCP 服务器,并采用两种模式:(1) 直接在模型上下文中暴露每个 MCP 函数,(2) 将所有 MCP 服务器置于工具搜索之后。工具搜索配置将总 Token 用量减少了 47%,同时保持了相同的准确性。 *示例 Token 数量来自对 MCP-Atlas 公共数据集中 250 个任务的平均。* GPT-5.4 还改进了**工具调用**,使其在推理过程中决定何时以及如何使用工具时更加准确和高效,尤其是在 API 中。与 GPT-5.2 相比,它在 Toolathlon 基准(测试 AI 智能体使用现实世界工具和 API 完成多步骤任务的能力,例如:智能体需要阅读邮件、提取作业附件、上传、评分并在电子表格中记录结果)上以更少的轮次实现了更高的准确性。 *工具让步是指助手让步以等待工具响应。如果同时调用 3 个工具,接着再同时调用 3 个工具,让步次数将为 2。工具让步是比工具调用更好的延迟指标,因为它们反映了并行化的好处。* 对于偏好低推理努力(None)的延迟敏感用例,GPT-5.4 在其前辈基础上进一步改进。 *在 **τ2-bench**(在新窗口中打开)(https://arxiv.org/pdf/2506.07982) 中,模型必须使用工具完成客户服务任务,可能有一个模拟用户能够与世界状态进行通信并采取行动。推理努力设置为 None。* GPT-5.4 在智能体网络搜索方面表现更佳。在 BrowseComp 上,该基准衡量 AI 智能体持续浏览网络以查找难以定位信息的程度,GPT-5.4 比 GPT-5.2 提升了 17% 的绝对百分点,而 GPT-5.4 Pro 则以 89.3% 的成绩创造了新的最先进水平。 在实践中,这意味着 GPT-5.4 Thinking 在回答需要从网络上多个来源汇总信息的问题时更为强大。它可以更持久地进行多轮搜索,以识别最相关的来源(尤其是针对“大海捞针”式的问题),并将它们综合成一个清晰、推理充分的答案。 *在 BrowseComp 中,我们使用了一个搜索阻止列表,排除了包含基准答案的网站,以防止污染并确保性能测量的公平性。GPT-5.4 的测量日期晚于 GPT-5.2,因此分数反映了模型、搜索系统和互联网状态的变化。GPT-5.4 使用了一个更长的、更新的阻止列表进行测试。模型使用 ChatGPT 搜索工具,该工具可能与 API 搜索存在微小差异。* 类似于 Codex 在开始工作时概述其方法,ChatGPT 中的 GPT-5.4 Thinking 现在会为较长、较复杂的查询提供一个序言来概述其工作。您还可以在回答过程中添加指令或调整其方向。这使得引导模型朝着您期望的确切结果前进变得更加容易,无需重新开始或需要多个额外的交互轮次。此功能现已在 chatgpt.com(在新窗口中打开)(http://chatgpt.com/) 和 Android 应用上可用,即将在 iOS 应用上推出。 该模型还可以在困难任务上思考更长时间,同时保持对对话早期步骤的更强烈意识。这使得它能够处理更长的工作流程和更复杂的提示,同时保持答案在整个过程中连贯且相关。 *此视频已加速用于说明目的。* 在过去几个月里,我们在准备部署 GPT-5.4 的同时,持续改进了随 GPT-5.3-Codex 引入的安全保障措施。与 GPT-5.3-Codex 类似,我们根据准备框架将 GPT-5.4 视为高网络安全能力模型,并按照系统卡片(在新窗口中打开)(https://deploymentsafety.openai.com/gpt-5-4-thinking) 中记录的方式,部署了相应的保护措施。这些措施包括扩展的网络安全堆栈,包括监控系统、可信访问控制,以及针对零数据保留 (ZDR) 表面上的高风险请求的异步阻止,同时持续投资于更广泛的安全生态系统。 由于网络安全能力本质上是双用途的,我们采用预防性部署方法,同时持续校准我们的策略和分类器。对于 ZDR 表面上的某些客户,请求级阻止仍是我们网络风险缓解堆栈的一部分;由于分类器仍在改进,随着我们继续完善这些安全保障措施,可能会出现一些误报。这些更新旨在改善安全保障措施的实际运作,包括减少不必要的拒绝和过度谨慎的回应,同时保留对滥用行为的强有力保护。 我们继续进行了关于思维链 (CoT) 可监控性的安全研究,以更好地理解模型如何推理并帮助检测潜在的不当行为。作为这项工作的一部分,我们引入了一个新的开源评估,CoT 可控性 (https://openai.com/index/reasoning-models-chain-of-thought-controllability/),用于衡量模型是否能够有意地隐藏其推理过程。

相似文章

为开发者推出 GPT-5

OpenAI Blog

OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。

推出 GPT-5.2

OpenAI Blog

OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。

GPT-5 和工作的新时代

OpenAI Blog

OpenAI 宣布推出 GPT-5,这是他们最先进的模型,统一了 GPT-4o、o 系列推理、智能体和高级数学等功能,将立即向 Team 用户推出,并为开发者提供 API 访问。此次发布是一个重大里程碑,已有 7 亿周活跃 ChatGPT 用户和 500 万付费企业用户在使用 OpenAI 的技术。

面向开发者推出GPT-5.1

OpenAI Blog

OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。

GPT-5.5 正式发布

OpenAI Blog

OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。