GPT-5.5 正式发布
摘要
OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。
隆重推出 GPT-5.5,这是我们迄今为止最智能的模型——速度更快、能力更强,专为复杂任务而打造,支持跨工具进行编码、研究和数据分析等工作。
查看缓存全文
缓存时间:
2026/05/08 09:34
# GPT-5.5 正式发布
来源:https://openai.com/index/introducing-gpt-5-5/
*2026年4月24日更新:GPT-5.5 和 GPT-5.5 Pro 现已通过 API 开放。**系统卡*(https://openai.com/index/gpt-5-5-system-card/)*也已更新,介绍了新增的防护措施。*
我们正式发布 GPT-5.5——这是我们迄今为止最智能、最直观的模型,也是迈向全新计算机工作方式的重要一步。
GPT-5.5 能更快地理解你的意图,并能独立完成更多工作。它擅长编写和调试代码、在线研究、数据分析、创建文档和电子表格、操作软件,以及跨工具协作直至任务完成。你无需精心管理每一步,只需交给 GPT-5.5 一个复杂的多部分任务,就能信任它进行规划、使用工具、检查工作、应对模糊情况并持续推进。
这些提升在智能体编程、计算机使用、知识工作和早期科学研究领域尤为显著——这些领域的进展依赖于跨上下文推理和长期行动。GPT-5.5 在实现智能飞跃的同时,并未牺牲速度:更大、更强的模型通常服务更慢,但 GPT-5.5 在实际服务中实现了与 GPT-5.4 相当的每 token 延迟,同时展现出更高的智能水平。在完成相同 Codex 任务时,它使用的 token 数量也显著减少,使其更高效、更强大。
我们随 GPT-5.5 发布了迄今为止最完善的防护措施,旨在减少滥用风险,同时保留对有益工作的访问。我们在完整的安全和准备框架下对该模型进行了评估,与内部和外部红队合作,增加了针对高级网络安全和生物学能力的定向测试,并在发布前从近 200 位受信任的提前访问合作伙伴处收集了真实用例反馈。
今天,GPT-5.5 开始向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用户推出;GPT-5.5 Pro 则向 ChatGPT 中的 Pro、Business 和 Enterprise 用户推出。API 部署需要不同的防护措施,我们正与合作伙伴和客户密切合作,制定大规模服务所需的安全和安保要求。我们将很快把 GPT-5.5 和 GPT-5.5 Pro 带到 API。
## 模型能力
OpenAI 正在构建智能体 AI 的全球基础设施,让世界各地的个人和企业都能用 AI 完成工作。过去一年,我们见证了 AI 极大地加速软件工程。随着 GPT-5.5 在 Codex 和 ChatGPT 中的应用,同样的变革正开始扩展到科学研究和更广泛的计算机工作中。
在这些领域,GPT-5.5 不仅更智能;它在解决问题时也更高效,通常能用更少的 token 和更少的重试次数获得更高质量的输出。在 Artificial Analysis 的编程指数上,GPT-5.5 以竞争前沿编程模型一半的成本提供了最先进的智能水平。
GPT-5.5 是我们迄今为止最强的智能体编程模型。在 **Terminal-Bench 2.0**(测试需要规划、迭代和工具协调的复杂命令行工作流)上,它达到了 82.7% 的最先进准确率。在 **SWE-Bench Pro**(评估真实 GitHub 问题解决)上,它达到 58.6%,比之前的模型在单次运行中完成更多端到端任务。在 **Expert-SWE**(我们内部针对长周期编程任务的前沿评估,中位估计人类完成时间为 20 小时)上,GPT-5.5 同样超越 GPT-5.4。
在这三项评估中,GPT-5.5 在提升 GPT-5.4 分数的同时,使用了更少的 token。
该模型的编程优势在 Codex 中尤为明显,它可以承担从实现和重构到调试、测试和验证的各类工程工作。早期测试表明,GPT-5.5 在真实工程工作所需的行为方面表现更好,如在大型系统中保持上下文、推理模糊故障、用工具验证假设,以及将变更贯彻到周围代码库中。
渲染轨迹使用了 NASA/JPL Horizons 的 Orion、月球和太阳矢量数据,并应用了显示缩放以提高可读性。
**提示:**[附图片] 使用 WebGL 和 Vite,结合 Artemis II 任务的真实数据,将其实现为一个新应用。确保彻底测试应用,直到完全可用且与图片中的应用一致。密切关注行星和飞行路径的渲染。我希望能够与 3D 渲染交互。确保具有真实的轨道力学。
除了基准测试,早期测试者表示 GPT-5.5 在理解系统结构方面表现出更强的能力:找出失败原因、确定修复位置,以及预测代码库中受影响的其他部分。
Every 创始人兼 CEO Dan Shipper 将 GPT-5.5 描述为"我用过的第一个具有真正概念清晰度的编程模型"。
在发布应用后,他花了数天调试一个上线后问题,然后请了他最优秀的工程师之一来重写部分系统。为了测试 GPT-5.5,他有效地将时间倒回:模型能否查看损坏状态并产出工程师最终决定的重写方案?GPT-5.4 做不到。GPT-5.5 可以。
MagicPath 首席执行官 Pietro Schirano 也看到了类似的跃升,当 GPT-5.5 将包含数百个前端和重构变更的分支合并到同样已大幅变更的主分支时,在大约 20 分钟内一次性解决了工作。
测试该模型的高级工程师表示,GPT-5.5 在推理和自主性方面明显强于 GPT-5.4 和 Claude Opus 4.7,能提前发现问题并预测测试和审查需求,无需明确提示。在一个案例中,一位工程师要求它重新架构协作 markdown 编辑器中的评论系统,回来时看到一个近完成的 12 个 diff 的栈。其他人表示他们需要的实现修正 surprisingly 少,并且对 GPT-5.5 的计划比 GPT-5.4 更有信心。
一位提前获得该模型访问权限的 NVIDIA 工程师甚至说:"失去 GPT-5.5 的访问权限感觉就像被截肢了一样。"
> "GPT-5.5 明显比 GPT-5.4 更智能、更持久,编程性能更强,工具使用更可靠。它能在更长时间内保持任务不提前停止,这对于我们用户委托给 Cursor 的复杂、长时间运行工作最为重要。"
—— Michael Truell,Cursor 联合创始人兼 CEO
使 GPT-5.5 擅长编程的同样优势,也使其在日常计算机工作中表现出色。因为模型更善于理解意图,它能更自然地完成知识工作的完整循环:查找信息、理解重点、使用工具、检查输出,并将原始材料转化为有用成果。
在 Codex 中,GPT-5.5 在生成文档、电子表格和幻灯片演示方面优于 GPT-5.4。Alpha 测试者表示,它在运营研究、电子表格建模和将杂乱的业务输入转化为计划等工作上超越了过去的模型。当与 Codex 的计算机使用技能结合时,GPT-5.5 让我们更接近模型能真正与你一起使用计算机的感觉:看到屏幕上的内容、点击、输入、导航界面,并精确地跨工具操作。
OpenAI 的团队已经在真实工作流中运用这些优势。如今,公司超过 85% 的员工每周使用 Codex,涵盖软件工程、财务、通信、营销、数据科学和产品管理等部门。在通信部门,团队使用 Codex 中的 GPT-5.5 分析六个月的发言请求数据,构建评分和风险框架,并验证自动 Slack 代理,使低风险请求能自动处理,而高风险请求仍路由给人工审核。在财务部门,团队使用 Codex 审查了 24,771 份 K-1 税务表格,总计 71,637 页,使用排除个人信息的工作流,帮助团队比上一年提前两周完成任务。在市场推广团队,一名员工自动化了每周业务报告的生成,每周节省 5-10 小时。
在 ChatGPT 中,**GPT-5.5 Thinking** 为更难的问题提供更快的帮助,以更智能、更简洁的答案帮助你更高效地处理复杂工作。它擅长编码、研究、信息综合与分析以及文档密集型任务等专业工作,尤其是在使用插件时。
在 **GPT-5.5 Pro** 中,早期测试者看到 ChatGPT 能够承担的工作在难度和质量上都有显著提升,延迟改进使其对高要求任务更加实用。与 GPT-5.4 Pro 相比,测试者发现 GPT-5.5 Pro 的回答更加全面、结构良好、准确、相关且有用,在商业、法律、教育和数据科学领域表现尤为突出。
GPT-5.5 在多个反映这类工作的基准测试中达到最先进水平。在 GDPval(https://openai.com/index/gdpval/,测试智能体在 44 种职业中生成规范知识工作的能力)上,GPT-5.5 得分 84.9%。在 **OSWorld-Verified**(衡量模型能否独立操作真实计算机环境)上,达到 78.7%。在 **Tau2-bench Telecom**(测试复杂客户服务工作流)上,无需提示调优即达到 98.0%。GPT-5.5 在其他知识工作基准上也表现强劲:**FinanceAgent** 60.0%,**内部投资银行建模任务** 88.5%,**OfficeQA Pro** 54.1%。
Tau2-bench Telecom 在无需提示调优的情况下运行(GPT-4.1 作为用户模型)。GPT-5.5 比前代更好地理解任务意图,且 token 效率更高。
> "GPT-5.5 提供了执行密集型工作所需的持续性能。基于 NVIDIA GB200 NVL72 系统构建和服务,该模型使我们的团队能够从自然语言提示中交付端到端功能,将调试时间从数天缩短到数小时,并将复杂代码库中数周的实验转化为隔夜进展。这不仅仅是更快的编程——这是一种全新的工作方式,帮助人们以根本不同的速度运作。"
—— Justin Boitano,NVIDIA 企业 AI 副总裁
GPT-5.5 在科学研究工作流方面也显示出进步,这些工作流需要的不仅仅是回答难题。研究人员需要探索想法、收集证据、测试假设、解释结果并决定下一步尝试什么。GPT-5.5 比其他模型更善于在这整个循环中持续工作。
值得注意的是,GPT-5.5 在 **GeneBench**(在新窗口中打开)(https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/oai_genebench_benchmark.pdf) 上相比 GPT-5.4 有明显改进,这是一个专注于遗传学和定量生物学中多阶段科学数据分析的新评估。这些问题要求模型在最少监督指导下推理可能模糊或有错误的数据,解决隐藏混杂因素或质控失败等现实障碍,并正确实施和解释现代统计方法。考虑到这些任务通常对应科学专家数天的工作量,该模型的表现尤为突出。
同样,在 BixBench(在新窗口中打开)(https://arxiv.org/abs/2503.00096)——一个围绕真实生物信息学和数据分析设计的基准测试中,GPT-5.5 在有公开分数的模型中取得了领先表现。该模型的科学能力现已足够强大,能够作为真正的合作科学家,有意义地加速生物医学研究前沿的进展。
在另一个例子中,一个带有自定义 harness 的内部版 GPT-5.5 帮助发现了关于 Ramsey 数的一个新证明(在新窗口中打开)(https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf),Ramsey 数是组合数学中的核心对象之一。组合数学研究离散对象如何组合在一起:图、网络、集合和模式。Ramsey 数大致问的是,网络必须有多大才能保证某种秩序必然出现。该领域的结果稀少且通常技术上非常困难。在这里,GPT-5.5 发现了一个关于非对角 Ramsey 数长期渐近事实的证明,后来在 Lean 中得到验证。这一结果是 GPT-5.5 不仅贡献代码或解释,而且在核心研究领域贡献出令人惊讶且有用的数学论证的具体例证。
早期测试者使用 ChatGPT 中的 GPT-5.5 Pro 时,更像研究伙伴而非一次性问答引擎:多轮次批评手稿、压力测试技术论证、提出分析,并与代码、笔记和 PDF 上下文协同工作。共同点是 GPT-5.5 更善于帮助研究人员从问题推进到实验再到产出。
Jackson Laboratory for Genomic Medicine 的免疫学教授兼研究员 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一个包含 62 个样本和近 28,000 个基因的基因表达数据集,生成了一份详细的研究报告,不仅总结了发现,还提出了关键问题和见解——他表示这项工作通常需要他的团队数月时间。
波兰波兹南 Adam Mickiewicz 大学数学助理教授 Bartosz Naskręcki 使用 Codex 中的 GPT-5.5,在 11 分钟内从单一提示构建了一个代数几何应用,可视化二次曲面的交集并将所得曲线转换为 Weierstrass 模型。
他后来用更稳定的奇点可视化和可精确重用的系数扩展了该应用。对他来说,更大的转变是 Codex 现在可以帮助实现以前需要专用工具的自定义数学可视化和计算机代数工作流。这些例子共同展示了 GPT-5.5 如何将专家意图转化为可用的研究工具和分析。
""
图片来源:Bartosz Naskręcki(在新窗口中打开)(https://bnaskrecki.faculty.wmi.amu.edu.pl/quadr/)
**提示:**# 代数几何曲面交集
制作一个应用,绘制两个二次曲面,并将交集曲线涂成红色。使用计算 Riemann-Roch 定理将其转换为 Weierstrass 曲线。
## 主窗口
两个带有轻微透明阴影的着色曲面,沿红色代数曲线相交
鼠标双向旋转,完整的捏合缩放机制,触觉按压显示小菜单,滑块用于更改每个曲面的系数;通过 Z 缓冲区层级检测
## 右侧窗口
通过有效 Riemann-Roch 定理公式实时计算的短 Weierstrass 方程(在 Q 或二次域扩张上)
## 环境模式,所有控件隐藏,用户可以欣赏形状之美
## 规格
应用在浏览器中运行,轻量级实现,使用最新的全栈库,可移植,可部署
## 文档
Git 仓库、日志、计划(Markdown 文件)
> "在我们系统中使用 OpenAI 的新 GPT-5.5 模型,让它推理海量生化数据集以预测人类药物结果,然后看到它在我们最困难的药物发现评估上取得显著准确率提升,这令人难以置信地振奋。如果 OpenAI 继续这样推进,药物发现的基础将在年底前改变。"
—— Brandon White,Axiom Bio 联合创始人兼 CEO
## 下一代推理效率
以 GPT-5.4 的延迟服务 GPT-5.5 需要重新思考推理作为一个整
相似文章
OpenAI Blog
OpenAI 推出 GPT-5,这是 AI 智能的重大飞跃,在代码编写、数学、写作、健康和视觉感知等方面展现了最先进的性能。这个统一系统包括一个高效的智能模型、一个深度推理模型(GPT-5 thinking)和一个实时路由器,用于最优响应选择。
OpenAI Blog
OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。
OpenAI Blog
OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。
OpenAI Blog
# 介绍 GPT-5.4
Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/)
今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。
OpenAI Blog
OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。