OpenAI o1-mini
摘要
OpenAI 发布了 o1-mini,一款成本高效的推理模型,在数学和编码等 STEM 任务上与 o1 性能相当,但价格便宜 80%。该模型针对推理密集型应用进行了优化,现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。
推进成本高效推理
查看缓存全文
缓存时间:
2026/04/20 14:44
# OpenAI o1-mini
来源:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
OpenAI 推进成本高效的推理能力。
我们发布了 OpenAI o1-mini,一个成本高效的推理模型。o1-mini 在 STEM 领域表现出色,特别是在数学和编码方面——在 AIME 和 Codeforces 等评估基准上的表现与 OpenAI o1 (https://openai.com/index/introducing-openai-o1-preview/) 几乎相当。我们预期 o1-mini 将是一个更快、成本更低的模型,适合需要推理但不需要广泛世界知识的应用。
今天,我们向第 5 层 API 用户 (https://platform.openai.com/docs/guides/rate-limits/usage-tiers) 推出 o1-mini,价格比 OpenAI o1-preview 便宜 80%。ChatGPT Plus、Team、Enterprise 和 Edu 用户可以使用 o1-mini 作为 o1-preview 的替代方案,具有更高的速率限制和更低的延迟(见 Model Speed (https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed))。
诸如 o1 这样的大语言模型是在大量文本数据集上预训练的。虽然这些高容量模型具有广泛的世界知识,但在实际应用中可能成本高昂且速度缓慢。相比之下,o1-mini 是一个较小的模型,在预训练期间针对 STEM 推理进行了优化。在使用与 o1 相同的高计算强化学习 (RL) 管道进行训练后,o1-mini 在许多有用的推理任务上实现了可比的性能,同时成本显著降低。
在需要智能和推理的基准测试中,o1-mini 相比 o1-preview 和 o1 表现良好。然而,o1-mini 在需要非 STEM 事实知识的任务上表现较差(见 Limitations (https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#limitations-and-whats-next))。
##### 数学性能 vs 推理成本
**数学:** 在高中 AIME 数学竞赛中,o1-mini(70.0%)与 o1(74.4%)相当——同时成本显著更低——并且超过 o1-preview(44.6%)。o1-mini 的成绩(约 11/15 题)使其排名约为美国高中学生前 500 名。
**编码:** 在 Codeforces 竞技网站上,o1-mini 达到 1650 Elo,与 o1(1673)相当,高于 o1-preview(1258)。这个 Elo 评分使该模型处于 Codeforces 平台竞赛程序员的约 86 百分位。o1-mini 在 HumanEval 编码基准和高中级网络安全夺旗赛 (CTF) 上也表现良好。
##### Codeforces
##### HumanEval
##### 网络安全 CTF
20.0%43.0%28.7%准确率 (Pass@12)
**STEM:** 在一些需要推理的学术基准上,如 GPQA(科学)和 MATH-500,o1-mini 超过 GPT-4o。o1-mini 在 MMLU 等任务上的表现不如 GPT-4o,并且在 GPQA 上落后于 o1-preview,这是由于缺乏广泛的世界知识。
##### MMLU
###### 0-shot CoT
##### GPQA
###### Diamond,0-shot CoT
##### MATH-500
###### 0-shot CoT
**人工偏好评估:** 我们让人工评估者使用与我们的 o1-preview 与 GPT-4o 比较 (https://openai.com/index/learning-to-reason-with-llms/) 相同的方法,在各个领域的具有挑战性的开放式提示上比较 o1-mini 和 GPT-4o。与 o1-preview 类似,o1-mini 在推理密集型领域相比 GPT-4o 更受欢迎,但在语言密集型领域不如 GPT-4o 受欢迎。
##### 人工偏好评估 vs chatgpt-4o-latest
| 领域 | 相比 GPT-4o 的胜率 (%) |
作为一个具体例子,我们比较了 GPT-4o、o1-mini 和 o1-preview 对一个词语推理问题的回答。虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都回答正确了,并且 o1-mini 的速度快 3-5 倍。
o1-mini 使用与 o1-preview 相同的对齐和安全技术进行训练。在内部版本的 StrongREJECT 数据集上,该模型的越狱鲁棒性比 GPT-4o 高 59%。在部署前,我们使用与 o1-preview 相同的准备就绪方法、外部红队测试和安全评估来仔细评估 o1-mini 的安全风险。我们在随附的系统卡 (https://openai.com/index/openai-o1-system-card/) 中发布了这些评估的详细结果。
由于专门针对 STEM 推理能力,o1-mini 在非 STEM 主题(如日期、传记和琐事)上的事实知识与 GPT-4o mini 等小型 LLM 相当。我们将在未来版本中改进这些限制,并尝试将模型扩展到 STEM 之外的其他模态和专业领域。
相似文章
OpenAI Blog
OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。
OpenAI Blog
OpenAI 发布了最新的推理模型 o3 和 o4-mini,可以自主访问和组合所有 ChatGPT 工具(网络搜索、代码执行、图像分析、图像生成)。o3 在编程、数学和科学基准测试中达到业界最先进水平,主要错误比 o1 少 20%,而 o4-mini 则提供成本和速度优化的高效推理能力。
OpenAI Blog
OpenAI 发布了 o1,一系列新的推理导向型 AI 模型,在科学、编码和数学等复杂任务上表现优于前代模型。预览版模型在国际数学奥林匹克竞赛问题上的解决率达到 83%,而 GPT-4o 仅为 13%,在竞技编程中达到第 89 个百分位。
OpenAI Blog
OpenAI 发布了 o1 模型系列,该模型具备扩展推理能力,通过在回应前花费更多时间思考,来解决科学、编码和数学领域的复杂问题。
OpenAI Blog
OpenAI 发布了 o3 和 o4-mini 模型的系统卡,这些模型具有先进的推理能力,结合了工具集成(网络浏览、Python、图像分析等),并根据 OpenAI 的 Preparedness Framework v2 在生物、网络安全和 AI 自我改进等领域进行了安全性评估。