OpenAI o3 和 o4-mini 发布

OpenAI Blog 模型

摘要

OpenAI 发布了最新的推理模型 o3 和 o4-mini,可以自主访问和组合所有 ChatGPT 工具(网络搜索、代码执行、图像分析、图像生成)。o3 在编程、数学和科学基准测试中达到业界最先进水平,主要错误比 o1 少 20%,而 o4-mini 则提供成本和速度优化的高效推理能力。

我们迄今为止最聪慧、能力最强的模型,具有完整的工具访问权限
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:44

# 介绍 OpenAI o3 和 o4-mini 来源:https://openai.com/index/introducing-o3-and-o4-mini/ ***2025 年 6 月 10 日更新:*** **OpenAI o3-pro 现已向 ChatGPT 的 Pro 用户以及我们的 API 提供**。与 OpenAI o1-pro 类似,o3-pro 是我们最智能模型 OpenAI o3 的一个版本,旨在进行更长时间的思考并提供最可靠的响应。完整详情可在我们的**发布说明**(https://help.openai.com/en/articles/9624314-model-release-notes)中找到。 --- 今天,我们发布 OpenAI **o3** 和 **o4-mini**,这是我们 o 系列模型的最新成员,经过训练可以在做出响应前进行更长时间的思考。这些是我们迄今为止发布的最聪慧的模型,代表了 ChatGPT 对从好奇用户到高级研究人员各类用户的能力的飞跃提升。首次,我们的推理模型可以自主使用并组合 ChatGPT 中的每个工具——这包括网络搜索、使用 Python 分析上传的文件和其他数据、对视觉输入进行深入推理,甚至生成图像。最关键的是,这些模型经过训练可以推理何时以及如何使用工具来生成详细而周思熟虑的答案,通常在一分钟内以正确的输出格式完成,从而解决更复杂的问题。这使它们能够更有效地处理多方面的问题,是向更具代理性的 ChatGPT 迈进的一步,可以独立代表你执行任务。最先进推理与完整工具访问的结合力量在学术基准和现实任务中都带来了显著更强的性能,为智能和实用性都树立了新标准。 **OpenAI o3** 是我们最强大的推理模型,在**编码、数学、科学、视觉感知**等领域推进了前沿技术。它在包括 Codeforces、SWE-bench(无需构建自定义模型特定的脚手架)和 MMMU 等基准上创造了新的 SOTA。它非常适合需要多方面分析的复杂查询,以及答案可能不是立即显而易见的问题。它在分析图像、图表和图形等视觉任务上表现特别强劲。在外部专家的评估中,o3 在困难的现实世界任务上的重大错误比 OpenAI o1 少 20%——特别是在编程、商务/咨询和创意构思等领域表现卓越。早期测试人员强调了它作为思维伙伴的分析严谨性,并强调了其生成和批判性评估新假设的能力——特别是在生物学、数学和工程背景下。 **OpenAI o4-mini** 是一个较小的模型,针对快速、成本高效的推理进行了优化——它在其规模和成本方面实现了卓越的性能,特别是在**数学、编码和视觉任务**方面。它是 AIME 2024 和 2025 上最高性能的基准模型。虽然访问计算机在很大程度上降低了 AIME 考试的难度,但我们还发现值得注意的是,o4-mini 在获得 Python 解释器访问权限时在 AIME 2025 上达到 99.5% 的 pass@1(100% consensus@8)。虽然这些结果不应与无工具访问模型的性能进行比较,但它们是 o4-mini 如何有效利用可用工具的一个例子;o3 在 AIME 2025 上也显示出工具使用带来的类似改进(98.4% pass@1,100% consensus@8)。 在专家评估中,o4-mini 也在非 STEM 任务以及数据科学等领域的性能超过了其前身 o3-mini。由于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成为受益于推理的高容量、高吞吐量问题的强大选项。外部专家评估人员将**两个模型**都评为比其前身展示了改进的指令遵循和更有用、可验证的响应,这得益于改进的智能和网络资源的包含。与我们之前的推理模型相比,这两个模型也应该感觉更自然和更有对话感,特别是当它们参考记忆和过去的对话以使响应更个性化和相关时。 *所有 SWE-bench 评估运行使用已在我们内部基础设施上验证的固定子集 n=477 个验证任务。* *所有模型在高"推理努力"设置下进行评估——类似于 ChatGPT 中的"o4-mini-high"等变体。* 在 OpenAI o3 的开发过程中,我们观察到大规模强化学习展现了在 GPT 系列预训练中观察到的相同**"更多计算=更好性能"趋势**。通过重新追溯缩放路径——这次在强化学习中——我们在训练计算和推理时间思考中都推进了额外的一个数量级,但仍然看到了清晰的性能收益,验证了模型的性能随着允许其思考的时间增加而继续改进。在与 OpenAI o1 相同的延迟和成本下,o3 在 ChatGPT 中提供了更高的性能——我们已验证如果让它思考更长时间,其性能会持续上升。 我们还训练了两个模型**通过强化学习使用工具**——教它们不仅如何使用工具,还如何推理何时使用它们。它们基于所需结果部署工具的能力使它们在开放式情况中更加有能力——特别是涉及视觉推理和多步骤工作流的情况。这一改进既反映在学术基准中,也反映在早期测试人员报告的现实世界任务中。 ## 使用图像进行 ChatGPT 思考 首次,这些模型可以将图像直接集成到其思维链中。它们不仅仅看到图像——它们用图像思考。这解锁了一类新的问题解决,融合了视觉和文本推理,体现在它们跨多模态基准的最先进性能中。 人们可以上传白板的照片、教科书图表或手绘素描,模型可以解释它——即使图像模糊、反转或质量低。通过工具使用,模型可以即时操作图像——旋转、缩放或变换它们作为其推理过程的一部分。 这些模型在视觉感知任务上提供同类最佳的准确性,使其能够解决以前无法解决的问题。查看**视觉推理研究博客**(https://openai.com/index/thinking-with-images/)了解更多。 OpenAI o3 和 o4-mini 对 ChatGPT 中的工具具有完整访问权限,以及通过 API 中的函数调用对你自己的自定义工具的访问权限。这些模型经过训练可以推理如何解决问题,选择何时以及如何使用工具来快速生成以正确输出格式的详细和周思熟虑的答案——通常在一分钟内。 例如,用户可能会问:"加州今年夏季的能源使用情况与去年相比如何?"该模型可以搜索网络以获取公共实用程序数据,编写 Python 代码来建立预测,生成图表或图像,并解释预测背后的关键因素,将多个工具调用链接在一起。推理使模型能够根据遇到的信息做出反应和调整。例如,它们可以在搜索提供商的帮助下多次搜索网络,查看结果,如果需要更多信息可以尝试新搜索。 这种灵活、策略性的方法使模型能够处理需要访问超出模型内置知识的最新信息、扩展推理、综合和跨模态输出生成的任务。 *所有示例都使用 OpenAI o3 完成。* OpenAI o3 和 o4-mini 是我们迄今为止发布的最智能的模型,它们通常也比其前身 OpenAI o1 和 o3-mini 更高效。例如,在 2025 AIME 数学竞赛中,o3 的成本性能边界严格改进了 o1,类似地,o4-mini 的边界严格改进了 o3-mini。更一般地,我们预期对于大多数现实世界使用情况,o3 和 o4-mini 也将分别比 o1 和 o3-mini 更聪明且更便宜。 模型能力的每一项改进都需要相应的安全性改进。对于 OpenAI o3 和 o4-mini,我们完全重建了安全训练数据,在生物威胁(生物风险)、恶意软件生成和越狱等领域添加了新的拒绝提示。这个刷新的数据使 o3 和 o4-mini 在我们的内部拒绝基准上达到了强大性能(例如**指令层级**(https://openai.com/index/the-instruction-hierarchy/)、越狱)。除了在模型拒绝方面的强大性能外,我们还开发了系统级缓解措施来标记前沿风险领域中的危险提示。类似于我们之前在**图像生成**(https://openai.com/index/introducing-4o-image-generation/)中的工作,我们训练了一个推理 LLM 监视器,它从人类编写和可解释的安全规范中工作。当应用于生物风险时,该监视器成功标记了我们人类红队活动中约 99% 的对话。 我们使用迄今为止最严格的安全计划对两个模型进行了压力测试。根据我们更新的**准备框架**(https://openai.com/index/updating-our-preparedness-framework/),我们在框架涵盖的三个追踪能力领域中评估了 o3 和 o4-mini:生物和化学、网络安全和 AI 自我改进。基于这些评估的结果,我们已确定 o3 和 o4-mini 在所有三个类别中都保持低于框架的"高"阈值。我们已在配套的**系统卡**(https://openai.com/index/o3-o4-mini-system-card/)中发布了这些评估的详细结果。 我们还分享了一个新的实验:Codex CLI,一个可以从终端运行的轻量级编码代理。它直接在你的计算机上工作,旨在最大化 o3 和 o4-mini 等模型的推理能力,并将在未来支持额外的 API 模型如 **GPT-4.1**(https://openai.com/index/gpt-4-1/)。 你可以通过将屏幕截图或低保真度草图传递给模型,结合对代码的本地访问,从命令行获得多模态推理的好处。我们将其视为将我们的模型连接到用户及其计算机的最小接口。Codex CLI 在 **github.com/openai/codex**(https://github.com/openai/codex)上完全开源。 同时,我们正在启动一项 100 万美元的计划来支持使用 Codex CLI 和 OpenAI 模型的项目。我们将以 25,000 美元 USD 的增量形式评估和接受 API 积分形式的赠款申请。提案可以**在此提交**(https://openai.com/form/codex-open-source-fund/)。 ChatGPT Plus、Pro 和 Team 用户将从今天开始在模型选择器中看到 o3、o4-mini 和 o4-mini-high,替代 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用户将在一周内获得访问权限。免费用户可以通过在提交查询前在编辑器中选择"思考"来尝试 o4-mini。所有计划中的速率限制与之前的模型组集保持不变。 我们预期将在几周内发布具有完整工具支持的 OpenAI o3-pro。现在,Pro 用户仍可访问 o1-pro。 o3 和 o4-mini 也从今天开始通过 Chat Completions API 和 Responses API 向开发者提供(一些开发者需要**验证其组织**(https://help.openai.com/en/articles/10910291-api-organization-verification)以访问这些模型)。Responses API 支持推理摘要、在函数调用周围保留推理令牌以获得更好性能的能力,并将很快在模型的推理中支持内置工具如网络搜索、文件搜索和代码解释器。要开始使用,请**查看我们的文档**(https://platform.openai.com/docs/guides/reasoning?api-mode=responses)并关注更多更新。 今天的更新反映了我们模型前进的方向:我们正在融合 o 系列的专门推理能力与 GPT 系列的更多自然对话能力和工具使用。通过统一这些优势,我们的未来模型将支持无缝、自然的对话以及主动工具使用和高级问题解决。 --- ***2025 年 7 月 28 日更新:*** **SWE-Lancer 数据集和结果已于 2025 年 7 月 17 日更新,可在:** https://github.com/openai/preparedness 和我们的系统卡中获得。此更新解决了影响收益结果的多个问题,并消除了执行期间对互联网连接的要求,消除了模型性能的主要变异来源。 ***2025 年 4 月 16 日更新:*** **o3 在 Charxiv-r 和 Mathvista 上的结果已更新,以反映原始评估中不存在的系统提示更改。**

相似文章

OpenAI o3-mini

OpenAI Blog

OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。

OpenAI o1-mini

OpenAI Blog

OpenAI 发布了 o1-mini,一款成本高效的推理模型,在数学和编码等 STEM 任务上与 o1 性能相当,但价格便宜 80%。该模型针对推理密集型应用进行了优化,现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。

OpenAI o3 和 o4-mini 系统卡

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型的系统卡,这些模型具有先进的推理能力,结合了工具集成(网络浏览、Python、图像分析等),并根据 OpenAI 的 Preparedness Framework v2 在生物、网络安全和 AI 自我改进等领域进行了安全性评估。

OpenAI o1 发布

OpenAI Blog

OpenAI 发布了 o1,一系列新的推理导向型 AI 模型,在科学、编码和数学等复杂任务上表现优于前代模型。预览版模型在国际数学奥林匹克竞赛问题上的解决率达到 83%,而 GPT-4o 仅为 13%,在竞技编程中达到第 89 个百分位。

用图像思考

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。