推出 GPT-5.2
摘要
OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。
GPT-5.2 是我们最先进的日常专业工作前沿模型,具备最先进的推理能力、长上下文理解、代码生成和视觉能力。在 ChatGPT 和 OpenAI API 中使用它,可以驱动更快速、更可靠的智能体工作流。
查看缓存全文
缓存时间:
2026/04/20 14:50
# 介绍 GPT-5.2
来源:https://openai.com/index/introducing-gpt-5-2/
我们推出了 GPT-5.2,这是迄今为止专业知识工作最强大的模型系列。
ChatGPT Enterprise 用户平均每天节省 40-60 分钟,重度用户每周节省超过 10 小时。我们设计 GPT-5.2 是为了为用户释放更多经济价值;它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具和处理复杂多步骤项目方面都更出色。
GPT-5.2 在许多基准测试中创造了新的艺术水平,包括 GDPval,其中它在涵盖 44 个职业的规范明确的知识工作任务上超越了行业专业人士。
在 ChatGPT 中,GPT-5.2 Instant、Thinking 和 Pro 将从今天开始推出,首先面向付费计划。在 API 中,它们现在对所有开发者开放。
总体而言,GPT-5.2 在通用智能、长上下文理解、智能工具调用和视觉能力方面带来了显著改进——使其能够比任何先前的模型更好地端到端执行复杂的现实任务。
## GPT-5.2 Thinking:专业工作的最强模型
GPT-5.2 Thinking 是迄今为止最适合现实专业使用的模型。在 GDPval(衡量涵盖 44 个职业的规范明确的知识工作任务的评估)上,GPT-5.2 Thinking 创造了新的艺术水平,是我们第一个在人类专家水平或以上表现的模型。具体而言,根据专业人类评审员的判断,GPT-5.2 Thinking 在 GDPval 知识工作任务的 70.9% 的比较中击败或平手顶级行业专业人士。这些任务包括制作演示文稿、电子表格和其他工作成果。GPT-5.2 Thinking 为 GDPval 任务生成输出的速度是专业人士的 11 倍以上,成本不到 1%,这表明在配合人类监督的情况下,GPT-5.2 可以协助专业工作。速度和成本估计基于历史指标;ChatGPT 中的速度可能会有所不同。
*在 GDPval 中,模型尝试跨越对美国 GDP 贡献最大的前 9 个行业的 44 个职业的规范明确的知识工作。任务请求真实的工作产品,如销售演示文稿、会计电子表格、紧急护理计划表、制造图表或短视频。在 ChatGPT 中,GPT-5.2 Thinking 拥有 GPT-5 Thinking 没有的新工具。*
在审查一个特别优秀的输出时,一位 GDPval 评审员评论说:"这是一个令人兴奋且明显的输出质量飞跃……[它]看起来是由一家拥有员工的专业公司完成的,并具有令人惊讶的精心设计的布局和对两项可交付成果的建议,尽管其中一项我们仍然需要修正一些小错误。"
此外,在我们的内部基准测试中,进行初级投资银行分析师电子表格建模任务——例如为财富 500 强公司整理适当格式和引用的三表模型,或为收购建立杠杆收购模型——GPT-5.2 Thinking 的平均任务得分比 GPT-5.1 高 9.3%,从 59.1% 上升到 68.4%。
并排比较显示 GPT-5.2 Thinking 生成的电子表格和幻灯片具有改进的复杂性和格式:
要在 ChatGPT 中使用新的电子表格和演示文稿功能,您必须使用 Plus、Pro、Business 或 Enterprise 计划,并选择 **GPT-5.2 Thinking** 或 **Pro**。复杂的生成可能需要多分钟才能完成。
## 代码生成和软件工程
GPT-5.2 Thinking 在 SWE-Bench Pro 上创造了 55.6% 的新艺术水平,这是对现实软件工程的严格评估。与仅测试 Python 的 SWE-Bench Verified 不同,SWE-Bench Pro 测试四种语言,旨在提高污染阻力、挑战性、多样性和工业相关性。
在 SWE-Bench Verified 上(未绘制),GPT-5.2 Thinking 取得了我们新的 80% 高分。
对于日常专业使用,这转化为一个可以更可靠地调试生产代码、实现功能请求、重构大型代码库并以更少手动干预完成端到端修复的模型。
GPT-5.2 Thinking 在前端软件工程方面也优于 GPT-5.1 Thinking。早期测试者发现它在前端开发和复杂或非常规 UI 工作方面显著更强——特别是涉及 3D 元素的工作——使其成为整个技术栈工程师的强大日常助手。请参阅它可以从单个提示生成的一些示例:
早期测试者分享了他们对 GPT-5.2 编码能力的反馈:
GPT-5.2 Thinking 的幻觉少于 GPT-5.1 Thinking。在来自 ChatGPT 的一组匿名化查询上,有错误的响应少见 30%。对于专业人士来说,这意味着在使用该模型进行研究、写作、分析和决策支持时出错更少——使该模型对日常知识工作更加可靠。
*推理努力设置为最大可用级别,并启用了搜索工具。错误由其他模型检测,这些模型本身可能会犯错误。声明级错误率远低于响应级错误率,因为大多数响应包含许多声明。*
与所有模型一样,GPT-5.2 Thinking 并不完美。对于任何关键内容,请仔细检查其答案。
## 长上下文理解
GPT-5.2 Thinking 在长上下文推理中创造了新的艺术水平,在 OpenAI MRCRv2 上实现了领先性能——这是一项测试模型在长文档中整合信息能力的评估。对于需要数十万个令牌中相关信息的现实任务,如深度文档分析,GPT-5.2 Thinking 的准确性明显高于 GPT-5.1 Thinking。特别是,它是我们见到的第一个在 4-needle MRCR 变体上达到近 100% 准确性的模型(延伸到 256k 令牌)。
在实践中,这使专业人士能够使用 GPT-5.2 处理长文档——如报告、合同、研究论文、转录本和多文件项目——同时在数十万个令牌中保持连贯性和准确性。这使 GPT-5.2 特别适合深度分析、综合和复杂多源工作流。
*在 **OpenAI-MRCR v2**(多轮共指消解)中,多个相同的"针"用户请求被插入到相似请求和响应的长"干草堆"中,模型被要求重现对第 n 个针的响应。评估版本 2 修复了约 5% 具有不正确基础事实值的任务。平均匹配比率衡量模型响应与正确答案之间的平均字符串匹配比率。256k 最大输入令牌处的点代表 128k–256k 输入令牌上的平均值,依此类推。此处,256k 代表 256 * 1,024 = 262,144 令牌。推理努力设置为最大可用级别。*
对于受益于超越最大上下文窗口的思考的任务,GPT-5.2 Thinking 与我们新的 `/compact` 响应端点兼容,该端点扩展了模型的有效上下文窗口。这让 GPT-5.2 Thinking 可以处理更多工具密集、长期运行的工作流,否则会受到上下文长度的限制。在我们的 API 文档中阅读更多内容。
## 视觉能力
GPT-5.2 Thinking 是迄今为止最强大的视觉模型,在图表推理和软件界面理解上的错误率大约降低了一半。
对于日常专业使用,这意味着该模型可以更准确地解释仪表板、产品屏幕截图、技术图表和视觉报告——支持金融、运营、工程、设计和客户支持中的工作流,其中视觉信息至关重要。
*在 **ScreenSpot-Pro** 中,模型必须对来自各种专业设置的图形用户界面的高分辨率屏幕截图进行推理。启用了 Python 工具,推理努力设置为最大。没有 Python 工具,分数会低得多。我们建议在这样的视觉任务上启用 Python 工具。*
与以前的模型相比,GPT-5.2 Thinking 对图像内元素的位置有更强的把握,这在相对布局在解决问题中起关键作用的任务上很有帮助。在下面的示例中,我们要求模型识别图像输入中的组件(在本例中为主板)并返回带有近似边界框的标签。即使在低质量的图像上,GPT-5.2 也能识别主要区域并放置与每个组件实际位置有时相匹配的框,而 GPT-5.1 仅标记了几个部分,对其空间排列的理解要弱得多。两个模型都犯了明显的错误,但 GPT-5.2 显示了对图像的更好理解。
GPT-5.1 识别图像中组件的示例输出
GPT-5.2 识别图像中组件的示例输出
## 工具使用
GPT-5.2 Thinking 在 Tau2-Bench Telecom 上实现了 98.7% 的新艺术水平,展示了其在长期多轮任务中可靠地使用工具的能力。
对于延迟敏感的用例,GPT-5.2 Thinking 在推理努力='none' 时表现也好得多,大幅超越了 GPT-5.1 和 GPT-4.1。
*在 **τ2-Bench** 中,模型使用工具通过与模拟用户的多轮交互来完成客户支持任务。对于电信领域,我们在系统提示中包含了一条简短的通常有帮助的指令以提高性能。我们排除了航空公司子集,因为基础事实等级的质量较低。*
对于专业人士,这转化为更强大的端到端工作流——如解决客户支持案例、从多个系统提取数据、运行分析和生成最终输出,步骤之间的故障更少。
例如,当提出需要多步骤解决的复杂客户服务问题时,该模型可以更有效地协调跨多个代理的完整工作流。在下面的案例中,一位旅客报告了延误航班、错过连接、在纽约过夜和医疗座位需求。GPT-5.2 管理整个任务链——重新预订、特殊协助座位和赔偿——比 GPT-5.1 提供了更完整的结果。
GPT-5.1 中的工具调用输出示例
GPT-5.2 中的工具调用输出示例
## 加速科学和数学
我们对人工智能的希望之一是它将加速科学研究以造福所有人。为此,我们一直在与科学家合作并听取他们的意见,了解人工智能如何加快他们的工作,上个月我们分享了一些早期协作实验。
我们相信 GPT-5.2 Pro 和 GPT-5.2 Thinking 是协助和加速科学家的世界上最好的模型。在 GPQA Diamond(一项研究生级别的谷歌可验证问答基准)上,GPT-5.2 Pro 达到了 93.2%,GPT-5.2 Thinking 紧随其后,达到 92.4%。
*在 **GPQA Diamond** 中,模型回答关于物理、化学和生物学的选择题。未启用工具,推理努力设置为最大。*
在 FrontierMath(第 1-3 层)上(一项专家级数学评估),GPT-5.2 Thinking 创造了新的艺术水平,解决了 40.3% 的问题。
我们开始看到人工智能模型以切实的方式有意义地加速数学和科学的进展。例如,在最近与 GPT-5.2 Pro 的工作中,研究人员探索了统计学习理论中的一个开放问题。在一个狭窄、规范明确的设置中,该模型提出了随后由作者验证并与外部专家一起审查的证明,说明了前沿模型如何在密切的人类监督下协助数学研究。
## 推理和常识
在 ARC-AGI-1(Verified)上(一项旨在衡量通用推理能力的基准),GPT-5.2 Pro 是第一个越过 90% 阈值的模型,从去年 o3-preview 的 87% 提高,同时将达到该性能的成本降低了大约 390 倍。
在 ARC-AGI-2(Verified)上(它提高了难度并更好地隔离了流动推理),GPT-5.2 Thinking 在思维链模型中创造了新的艺术水平,得分为 52.9%。GPT-5.2 Pro 的表现更高,达到 54.2%,进一步扩展了模型的能力来推理通过新颖的、抽象的问题。
这些评估中的改进反映了 GPT-5.2 更强的多步骤推理、更高的定量准确性和在复杂技术任务上更可靠的问题解决。
以下是我们的早期测试者对 GPT-5.2 的看法:
## ChatGPT 中的体验改进
在 ChatGPT 中,用户应该会注意到 GPT-5.2 在日常使用中感觉更好——更有结构、更可靠,同时仍然很愉快对话。
**GPT-5.2 Instant** 是一个快速、强大的日常工作和学习工具,在信息查询问题、操作指南、技术写作和翻译方面有明显改进,基于 GPT-5.1 Instant 中引入的更温暖的对话语气。早期测试者特别注意到了表面上的关键信息的更清晰解释。
**GPT-5.2 Thinking** 针对更深度的工作设计,帮助用户处理更复杂的任务,具有更高的质量——特别是对于代码编写、总结长文档、回答上传文件的问题、逐步解决数学和逻辑问题,以及支持具有更清晰结构和更有用细节的计划和决策。
**GPT-5.2 Pro** 是我们对困难问题最聪明和最值得信赖的选择,其中高质量答案是值得等待的,早期测试显示主要错误较少,在编程等复杂领域中表现更强。
## 安全性和红线
GPT-5.2 基于我们在 GPT-5 中引入的安全完成研究,该研究教导模型在保持安全边界内的同时给出最有帮助的答案。
通过这个版本,我们继续开展工作以加强我们的模型在敏感对话中的反应,对表明自杀或自伤迹象、心理健康困扰或对模型的情感依赖的提示的反应有了有意义的改进。这些有针对性的干预措施导致 GPT-5.2 Instant 和 GPT-5.2 Thinking 与 GPT-5.1 和 GPT-5 Instant 和 Thinking 模型相比的不良反应更少。更多细节可以在系统卡中找到。
我们正处于推出年龄预测模型的早期阶段,以便我们可以自动为 18 岁以下的用户应用内容保护,以限制对敏感内容的访问。这建立在我们对已知 18 岁以下用户和家长控制的现有方法的基础上。
## 展望
GPT-5.2 是持续一系列改进中的一步,我们远未完成。虽然此版本在智能和生产力方面提供了有意义的收益,但我们知道有些领域人们希望获得更多。在 ChatGPT 中,我们正在处理过度拒绝等已知问题,同时继续在安全性和可靠性方面提高标准。这些变化很复杂,我们专注于把它们做对。
## 可用性
在 ChatGPT 中,我们将从今天开始推出 GPT-5.2(Instant、Thinking 和 Pro),首先面向付费计划(Plus、Pro、Go、Business、Enterprise)。我们逐步部署 GPT-5.2 以保持 ChatGPT 尽可能平稳和可靠;如果您最初没有看到它,请稍后再试。在 ChatGPT 中,G
相似文章
OpenAI Blog
OpenAI 推出 GPT-5,这是 AI 智能的重大飞跃,在代码编写、数学、写作、健康和视觉感知等方面展现了最先进的性能。这个统一系统包括一个高效的智能模型、一个深度推理模型(GPT-5 thinking)和一个实时路由器,用于最优响应选择。
OpenAI Blog
# 介绍 GPT-5.4
Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/)
今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。
OpenAI Blog
OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。
OpenAI Blog
OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。
OpenAI Blog
OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。