用GPT-5.2推进科学与数学
摘要
OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。
GPT-5.2是OpenAI迄今为止在数学和科学领域最强的模型,在GPQA Diamond和FrontierMath等基准测试中取得了新的最先进成果。本文展示了这些成果如何转化为实际研究进展,包括解决一个开放理论问题以及生成可靠的数学证明。
查看缓存全文
缓存时间:
2026/04/20 14:50
# 使用GPT-5.2推动科学与数学进步
来源:https://openai.com/index/gpt-5-2-for-science-and-math/
我们对强大AI的期望之一是,它将加速科学研究,惠及所有人,帮助研究人员探索更多想法、更快验证,并将发现转化为实际影响。
过去一年里,我们与数学、物理、生物学和计算机科学领域的科学家紧密合作,以了解AI能在哪些方面提供帮助——以及它目前仍有哪些不足。上个月,我们发表了一篇论文(https://openai.com/index/accelerating-science-gpt-5/),汇集了数学、物理、生物学、计算机科学、天文学和材料科学领域的早期案例研究,展示了GPT-5如何已开始为真实的科研工作做出贡献。随着GPT-5.2(https://openai.com/index/introducing-gpt-5-2/)的推出,我们开始看到这些成效变得更加一致和可靠。
GPT-5.2 Pro和GPT-5.2 Thinking是我们目前最强的科学和数学工作模型。
强大的数学推理能力是科学和技术工作可靠性的基础。它使模型能够遵循多步逻辑、保持量纲一致,并避免在真实分析(从模拟和统计到预测和建模)中可能累积的细微错误。在FrontierMath等基准测试上的进步,反映的不仅是狭隘的技能,而是更强的通用推理和抽象能力——这些能力可直接应用于科学工作流程,如编程、数据分析和实验设计。
这些能力也与通用智能的进展密切相关。一个能够可靠地进行抽象推理、在长链思维中保持一致性并跨领域泛化的系统,所展现的是AGI的基本特质——不是特定任务的技巧,而是广泛可迁移的推理能力,在科学、工程和现实决策中都非常重要。
我们相信,GPT-5.2 Pro和GPT-5.2 Thinking是世界上最好的辅助和加速科学家的模型。在**GPQA Diamond**(一项研究生级别的、防谷歌的问答基准)上,GPT-5.2 Pro达到93.2%,紧随其后的是GPT-5.2 Thinking,为92.4%。
在GPQA Diamond(在新窗口中打开)(https://arxiv.org/abs/2311.12022)中,模型回答关于物理、化学和生物学的多项选择题。未启用任何工具,推理努力度设置为最高。
在**FrontierMath(Tier 1–3)**(一项专家级数学评估)上,GPT-5.2 Thinking创下了新的最优成绩,解决了40.3%的问题。
这一结果表明了AI系统如何支持科学研究的一个有用方向,特别是在具有公理化理论基础的领域,如数学和理论计算机科学。在这样的场景中,前沿模型可以帮助探索证明、测试假设,并找到那些原本需要大量人力才能发现的联系。
与此同时,这些系统并非独立的研究者。专家判断、验证和领域理解仍然至关重要。即使是非常强大的模型也可能犯错或依赖未明说的假设。但它们可以生成详细、结构化的论证,值得人类仔细研究和完善。因此,利用AI取得可靠进展,取决于将验证、透明度和协作牢牢纳入工作流程的方法。
作为一项案例研究,这个结果展示了一种新兴的研究实践模式。像GPT-5.2这样的模型可以作为支持数学推理和加速早期探索的工具,而正确性、解释和背景的责任仍由人类研究者承担。只要谨慎使用,这类系统可能有助于简化理论工作的许多重要方面,而不会取代人类判断在科学探究中的核心地位。
相似文章
OpenAI Blog
OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。
OpenAI Blog
OpenAI 推出 GPT-5,这是 AI 智能的重大飞跃,在代码编写、数学、写作、健康和视觉感知等方面展现了最先进的性能。这个统一系统包括一个高效的智能模型、一个深度推理模型(GPT-5 thinking)和一个实时路由器,用于最优响应选择。
OpenAI Blog
OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。
OpenAI Blog
# 介绍 GPT-5.4
Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/)
今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。
OpenAI Blog
OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。