OpenAI o3-mini
摘要
OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。
暂无内容
查看缓存全文
缓存时间:
2026/04/20 14:49
# OpenAI o3-mini
来源:https://openai.com/index/openai-o3-mini/
推动成本效益型推理的前沿发展。
我们今天发布了 OpenAI o3‐mini,这是我们推理系列中最新、最具成本效益的模型,现已在 ChatGPT 和 API 中推出。该模型在 2024 年 12 月预览 (https://openai.com/12-days/#day-12),是一款功能强大、速度快的模型,推进了小模型能力的边界,具有出色的 STEM 能力——特别是在科学、数学和编码方面——同时保持了 OpenAI o1‐mini 的低成本和低延迟特性。
OpenAI o3‐mini 是我们第一个支持广受欢迎的开发者功能的小型推理模型,包括函数调用 (https://platform.openai.com/docs/guides/function-calling)、结构化输出 (https://platform.openai.com/docs/guides/structured-outputs) 和开发者消息 (https://platform.openai.com/docs/guides/text-generation#building-prompts),使其开箱即用。与 OpenAI o1‐mini 和 OpenAI o1‐preview 一样,o3‐mini 将支持流式传输 (https://platform.openai.com/docs/api-reference/streaming)。此外,开发者可以在三个推理工作量选项 (https://platform.openai.com/docs/api-reference/chat/create)(低、中、高)之间选择,以针对其特定用例进行优化。这种灵活性使 o3‐mini 能够在处理复杂挑战时"思考更深入",或在延迟是关键考量时优先考虑速度。o3‐mini 不支持视觉能力,因此开发者应继续使用 OpenAI o1 来处理视觉推理任务。o3‐mini 从今天开始在聊天完成 API、助手 API 和批处理 API 中向 API 使用等级 3‐5 (https://platform.openai.com/docs/guides/rate-limits/usage-tiers#tier-3-rate-limits) 的精选开发者推出。
ChatGPT Plus、Team 和 Pro 用户可以从今天开始访问 OpenAI o3‐mini,企业版访问将在 2 月推出。o3‐mini 将替代模型选择器中的 OpenAI o1‐mini,提供更高的速率限制和更低的延迟,使其成为编码、STEM 和逻辑问题求解任务的理想选择。作为此次升级的一部分,我们将 Plus 和 Team 用户的速率限制从 o1‐mini 的每天 50 条消息提高到 o3‐mini 的每天 150 条消息,增加了三倍。此外,o3‐mini 现在可与搜索配合使用,以查找最新答案并获得相关网页来源的链接。这是我们在推理模型中集成搜索工作中的早期原型。
从今天开始,免费计划用户也可以通过在消息编写器中选择"推理"或重新生成响应来尝试 OpenAI o3‐mini。这是推理模型首次向 ChatGPT 免费用户提供。
虽然 OpenAI o1 仍然是我们更广泛的通用知识推理模型,但 OpenAI o3‐mini 为需要精度和速度的技术领域提供了一个专门的替代方案。在 ChatGPT 中,o3‐mini 使用中等推理工作量来提供速度和准确性之间的平衡权衡。所有付费用户也可以选择在模型选择器中选择`o3‐mini‐high`,以获得生成响应时间稍长但智能程度更高的版本。Pro 用户将对`o3‐mini`和`o3‐mini‐high`两个版本都拥有无限访问权限。
与 OpenAI o1 前身类似,OpenAI o3‐mini 已针对 STEM 推理进行了优化。具有中等推理工作量的 o3‐mini 与 o1 在数学、编码和科学方面的性能相当,同时提供更快的响应速度。专家测试人员的评估表明,o3‐mini 比 OpenAI o1‐mini 产生更准确、更清晰的答案,具有更强的推理能力。测试人员在 56% 的情况下更倾向于 o3‐mini 的响应而不是 o1‐mini,并在难度较大的实际问题上观察到主要错误减少了 39%。在中等推理工作量下,o3‐mini 与 o1 在一些最具挑战性的推理和智能评估上的性能相当,包括 AIME 和 GPQA。
***数学**:使用低推理工作量,OpenAI o3‐mini 与 OpenAI o1‐mini 的性能相当,而使用中等工作量时,o3‐mini 与 o1 的性能相当。同时,使用高推理工作量,o3‐mini 的性能优于 OpenAI o1‐mini 和 OpenAI o1,其中灰色阴影区域显示 64 个样本多数投票(共识)的性能。*
***博士级科学**:对于博士级生物学、化学和物理学问题,使用低推理工作量,OpenAI o3‐mini 的性能高于 OpenAI o1‐mini。使用高工作量时,o3‐mini 与 o1 的性能相当。*
***研究级数学**:OpenAI o3‐mini 在高推理工作量下在 FrontierMath 上的表现优于其前身。在 FrontierMath 上,当提示使用 Python 工具时,具有高推理工作量的 o3‐mini 在首次尝试中解决了 32% 以上的问题,包括 28% 以上具有挑战性的 (T3) 问题。这些数字是初步数据,上表显示的是不使用工具或计算器的性能。*
***竞赛编码**:在 Codeforces 竞争性编程中,OpenAI o3‐mini 随着推理工作量增加而逐步获得更高的 Elo 分数,所有都优于 o1‐mini。使用中等推理工作量时,它与 o1 的性能相当。*
***软件工程**:o3‐mini 是我们在 SWEbench‐verified 上性能最高的已发布模型。有关使用高推理工作量的 SWE‐bench Verified 结果的额外数据点,包括开源 Agentless 脚手架 (39%) 和代表最大能力提取的内部工具脚手架 (61%),请参见我们的**系统卡* (https://openai.com/index/o3-mini-system-card/) *作为真实信息源。所有 SWE‐bench 评估运行都使用已在我们内部基础设施上验证的固定的 n=477 个已验证任务子集。*
***LiveBench 编码**:OpenAI o3‐mini 甚至在中等推理工作量下也超过了 o1‐high,突出了其在编码任务中的效率。在高推理工作量下,o3‐mini 进一步扩大了领先优势,在关键指标上实现了显著更强的性能。*
***通用知识**:o3‐mini 在通用知识领域的知识评估中优于 o1‐mini。*
***人类偏好评估**:外部专家测试人员的评估也表明,OpenAI o3‐mini 比 OpenAI o1‐mini 产生更准确、更清晰的答案,具有更强的推理能力,特别是对于 STEM。测试人员在 56% 的情况下更倾向于 o3‐mini 的响应,并在难度较大的实际问题上观察到主要错误减少了 39%。*
凭借与 OpenAI o1 相当的智能能力,OpenAI o3‐mini 提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3‐mini 在使用中等推理工作量的额外数学和事实准确性评估中也展示了卓越的结果。在 A/B 测试中,o3‐mini 的响应速度比 o1‐mini 快 24%,平均响应时间为 7.7 秒,而 o1‐mini 为 10.16 秒。
***延迟**:o3‐mini 的平均首字节时间比 o1‐mini 快 2500 毫秒。*
我们用于教导 OpenAI o3‐mini 安全应对的关键技术之一是深思熟虑的对齐 (https://openai.com/index/deliberative-alignment/),我们对模型进行了培训,使其在回答用户提示之前能够对人工编写的安全规范进行推理。与 OpenAI o1 类似,我们发现 o3‐mini 在具有挑战性的安全和越狱评估中明显超越了 GPT‐4o。在部署前,我们使用与 o1 相同的准备、外部红队测试和安全评估方法仔细评估了 o3‐mini 的安全风险。我们感谢在早期访问中应用测试 o3‐mini 的安全测试人员。这些评估的详细信息,以及对潜在风险和我们缓解措施有效性的全面解释,可在 o3‐mini 系统卡 (https://openai.com/index/o3-mini-system-card/) 中找到。
OpenAI o3‐mini 的发布标志着 OpenAI 在推动成本效益型智能边界方面迈出的又一步。通过针对 STEM 领域优化推理,同时保持低成本,我们正在使高质量的 AI 更加易于获取。该模型延续了我们推动智能成本下降的记录——自推出 GPT‐4 以来,每个令牌的定价下降了 95%——同时保持了一流的推理能力。随着 AI 采用的扩展,我们致力于在前沿领先,构建在规模上平衡智能、效率和安全的模型。
相似文章
OpenAI Blog
OpenAI 发布了 o1-mini,一款成本高效的推理模型,在数学和编码等 STEM 任务上与 o1 性能相当,但价格便宜 80%。该模型针对推理密集型应用进行了优化,现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。
OpenAI Blog
OpenAI 发布了最新的推理模型 o3 和 o4-mini,可以自主访问和组合所有 ChatGPT 工具(网络搜索、代码执行、图像分析、图像生成)。o3 在编程、数学和科学基准测试中达到业界最先进水平,主要错误比 o1 少 20%,而 o4-mini 则提供成本和速度优化的高效推理能力。
OpenAI Blog
OpenAI 发布了 o3 和 o4-mini 模型的系统卡,这些模型具有先进的推理能力,结合了工具集成(网络浏览、Python、图像分析等),并根据 OpenAI 的 Preparedness Framework v2 在生物、网络安全和 AI 自我改进等领域进行了安全性评估。
OpenAI Blog
OpenAI 发布了 o3-mini 系统卡,记录了其通过强化学习训练的高级推理模型的安全评估和风险评估。该模型在某些基准测试中达到了最先进的安全性能,在 OpenAI 的《准备框架》下总体被列为中等风险。
OpenAI Blog
OpenAI 发布了 o1,一系列新的推理导向型 AI 模型,在科学、编码和数学等复杂任务上表现优于前代模型。预览版模型在国际数学奥林匹克竞赛问题上的解决率达到 83%,而 GPT-4o 仅为 13%,在竞技编程中达到第 89 个百分位。