OpenAI o1-mini

OpenAI Blog 2024/09/12 10:01 模型

摘要

OpenAI 发布了 o1-mini，一款成本高效的推理模型，在数学和编码等 STEM 任务上与 o1 性能相当，但价格便宜 80%。该模型针对推理密集型应用进行了优化，现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。

推进成本高效推理

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:44

# OpenAI o1-mini 来源：https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/ OpenAI 推进成本高效的推理能力。我们发布了 OpenAI o1-mini，一个成本高效的推理模型。o1-mini 在 STEM 领域表现出色，特别是在数学和编码方面——在 AIME 和 Codeforces 等评估基准上的表现与 OpenAI o1 (https://openai.com/index/introducing-openai-o1-preview/) 几乎相当。我们预期 o1-mini 将是一个更快、成本更低的模型，适合需要推理但不需要广泛世界知识的应用。今天，我们向第 5 层 API 用户 (https://platform.openai.com/docs/guides/rate-limits/usage-tiers) 推出 o1-mini，价格比 OpenAI o1-preview 便宜 80%。ChatGPT Plus、Team、Enterprise 和 Edu 用户可以使用 o1-mini 作为 o1-preview 的替代方案，具有更高的速率限制和更低的延迟（见 Model Speed (https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed)）。诸如 o1 这样的大语言模型是在大量文本数据集上预训练的。虽然这些高容量模型具有广泛的世界知识，但在实际应用中可能成本高昂且速度缓慢。相比之下，o1-mini 是一个较小的模型，在预训练期间针对 STEM 推理进行了优化。在使用与 o1 相同的高计算强化学习 (RL) 管道进行训练后，o1-mini 在许多有用的推理任务上实现了可比的性能，同时成本显著降低。在需要智能和推理的基准测试中，o1-mini 相比 o1-preview 和 o1 表现良好。然而，o1-mini 在需要非 STEM 事实知识的任务上表现较差（见 Limitations (https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#limitations-and-whats-next)）。 ##### 数学性能 vs 推理成本 **数学：** 在高中 AIME 数学竞赛中，o1-mini（70.0%）与 o1（74.4%）相当——同时成本显著更低——并且超过 o1-preview（44.6%）。o1-mini 的成绩（约 11/15 题）使其排名约为美国高中学生前 500 名。 **编码：** 在 Codeforces 竞技网站上，o1-mini 达到 1650 Elo，与 o1（1673）相当，高于 o1-preview（1258）。这个 Elo 评分使该模型处于 Codeforces 平台竞赛程序员的约 86 百分位。o1-mini 在 HumanEval 编码基准和高中级网络安全夺旗赛 (CTF) 上也表现良好。 ##### Codeforces ##### HumanEval ##### 网络安全 CTF 20.0%43.0%28.7%准确率 (Pass@12) **STEM：** 在一些需要推理的学术基准上，如 GPQA（科学）和 MATH-500，o1-mini 超过 GPT-4o。o1-mini 在 MMLU 等任务上的表现不如 GPT-4o，并且在 GPQA 上落后于 o1-preview，这是由于缺乏广泛的世界知识。 ##### MMLU ###### 0-shot CoT ##### GPQA ###### Diamond，0-shot CoT ##### MATH-500 ###### 0-shot CoT **人工偏好评估：** 我们让人工评估者使用与我们的 o1-preview 与 GPT-4o 比较 (https://openai.com/index/learning-to-reason-with-llms/) 相同的方法，在各个领域的具有挑战性的开放式提示上比较 o1-mini 和 GPT-4o。与 o1-preview 类似，o1-mini 在推理密集型领域相比 GPT-4o 更受欢迎，但在语言密集型领域不如 GPT-4o 受欢迎。 ##### 人工偏好评估 vs chatgpt-4o-latest | 领域 | 相比 GPT-4o 的胜率 (%) | 作为一个具体例子，我们比较了 GPT-4o、o1-mini 和 o1-preview 对一个词语推理问题的回答。虽然 GPT-4o 没有正确回答，但 o1-mini 和 o1-preview 都回答正确了，并且 o1-mini 的速度快 3-5 倍。 o1-mini 使用与 o1-preview 相同的对齐和安全技术进行训练。在内部版本的 StrongREJECT 数据集上，该模型的越狱鲁棒性比 GPT-4o 高 59%。在部署前，我们使用与 o1-preview 相同的准备就绪方法、外部红队测试和安全评估来仔细评估 o1-mini 的安全风险。我们在随附的系统卡 (https://openai.com/index/openai-o1-system-card/) 中发布了这些评估的详细结果。由于专门针对 STEM 推理能力，o1-mini 在非 STEM 主题（如日期、传记和琐事）上的事实知识与 GPT-4o mini 等小型 LLM 相当。我们将在未来版本中改进这些限制，并尝试将模型扩展到 STEM 之外的其他模态和专业领域。

OpenAI o1-mini

相似文章

OpenAI o3-mini

OpenAI o3 和 o4-mini 发布

OpenAI o1 发布

经济学与 OpenAI o1 的推理能力

OpenAI o3 和 o4-mini 系统卡

提交意见反馈