OpenAI o1 和开发者新工具

OpenAI Blog 2024/12/17 00:00 模型

openai o1 api-release reasoning-model developer-tools structured-outputs function-calling

摘要

OpenAI 向 API 发布 o1 模型，具备生产就绪的功能，包括函数调用、结构化输出、视觉能力，以及比 o1-preview 低 60% 的延迟。其他开发者工具包括 Realtime API 改进、偏好微调，以及新的 Go 和 Java SDK。

推出 OpenAI o1、Realtime API 改进、新的微调方法等开发者工具。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:47

# OpenAI o1 和开发者新工具来源：https://openai.com/index/o1-and-new-tools-for-developers/ OpenAI推出 o1、Realtime API 改进、新的微调方法以及更多开发者工具。今天我们推出了更强大的模型、新的定制工具以及性能、灵活性和成本效益的升级，帮助开发者更好地利用 AI 进行开发。包括： - **API 中的 OpenAI o1**（https://platform.openai.com/docs/models#o1），支持函数调用、开发者消息、结构化输出和视觉能力。 - **Realtime API 更新**（https://platform.openai.com/docs/guides/realtime），包括简化的 WebRTC 集成、GPT-4o 音频价格降低 60%，以及 GPT-4o mini 音频价格降至之前的十分之一。 - **偏好微调**（https://platform.openai.com/docs/guides/fine-tuning#preference），一种新的模型定制技术，可以根据用户和开发者偏好更轻松地调整模型。 - **新的 Go 和 Java SDK**（https://platform.openai.com/docs/libraries），现已推出测试版。 **OpenAI o1**（https://openai.com/o1/）是我们的推理模型，专为处理复杂的多步任务并实现高级精度而设计，现已向 API 中使用量等级 5 的开发者推出（https://platform.openai.com/docs/guides/rate-limits/usage-tiers#usage-tiers）。o1 是 OpenAI o1-preview 的继任者（https://openai.com/index/introducing-openai-o1-preview/），开发者已经使用它来构建代理应用，简化客户支持、优化供应链决策以及预测复杂的财务趋势。 o1 已准备好投入生产，具有以下关键特性，可支持实际应用场景： - **函数调用**（https://platform.openai.com/docs/guides/function-calling）：无缝连接 o1 和外部数据及 API。 - **结构化输出**（https://platform.openai.com/docs/guides/structured-outputs）：生成严格遵守自定义 JSON Schema 的响应。 - **开发者消息**：为模型指定要遵循的说明或上下文，例如定义语气、风格和其他行为指导。 - **视觉能力**：对图像进行推理，以解锁科学、制造或编码等众多应用场景，其中视觉输入很重要。 - **更低的延迟**：对于给定的请求，o1 使用的推理令牌比 o1-preview 平均少 60%。 - 新的 `**reasoning_effort**` API 参数允许你控制模型在回答前的思考时长。我们今天发布的 o1 快照 `o1-2024-12-17` 是我们两周前在 ChatGPT 中发布的模型的新后训练版本。它根据反馈改进了模型行为的某些方面，同时保持了我们在 o1 系统卡中评估的前沿能力（https://openai.com/index/openai-o1-system-card/）。我们很快也会在 ChatGPT 中更新 o1 到此版本。下面分享的评估反映了此新快照的性能，确保开发者获得此版本的最新基准。 `o1-2024-12-17` 在多个基准测试中创造了新的最先进的结果，改进了成本效率和性能。 | 类别 | 评估 | o1-2024-12-17 | o1-preview | |------|------|---------------|-----------| | 通用 | GPQA diamond | 75.7 | 73.3 | | | MMLU (pass @1) | 91.8 | 90.8 | | 编码 | SWE-bench Verified | 48.9 | 41.3 | | | LiveBench (Coding) | 76.6 | 52.3 | | 数学 | MATH (pass @1) | 96.4 | 85.5 | | | AIME 2024 (pass @1) | 79.2 | 42.0 | | | MGSM (pass @1) | 89.3 | 90.8 | | 视觉 | MMMU (pass @1) | 77.3 | — | | | MathVista (pass @1) | 71.0 | — | | 事实性 | SimpleQA | 42.6 | 42.4 | | 代理 | TAU-bench (retail) | 73.5 | — | | | TAU-bench (airline) | 54.2 | — | ##### 不同指标的模型评估准确性此外，我们观察到 `o1-2024-12-17` 在函数调用和结构化输出测试中的表现明显优于 gpt-4o。 **Realtime API**（https://platform.openai.com/docs/guides/realtime）使开发者能够创建低延迟、自然流畅的对话体验。它非常适合语音助手、实时翻译工具、虚拟导师、交互式客户支持系统，甚至你自己的虚拟圣诞老人（https://x.com/jillian_khoo/status/1867275291510383049）。今天我们发布的更改解决了开发者最常见的一些请求：直接的 WebRTC 集成、降低的价格以及对响应的更多控制。我们为 Realtime API 引入了 **WebRTC**（https://webrtc.org/）支持。WebRTC 是一个开放标准，可以更轻松地在各个平台上构建和扩展实时语音产品——无论是基于浏览器的应用、移动客户端、物联网设备还是直接的服务器到服务器设置。我们的 WebRTC 集成设计用于在实际条件下实现平稳和响应式的交互，即使在网络质量不稳定的情况下也能如此。它处理音频编码、流传输、噪声抑制和拥塞控制。使用 WebRTC，你现在可以仅用几行 Javascript 代码来添加 Realtime 能力：我们发布了 `gpt-4o-realtime-preview-2024-12-17` 作为 Realtime API 测试版的一部分，具有改进的语音质量、更可靠的输入（特别是对于口述的数字）和降低的成本。由于我们的效率改进，我们将音频令牌价格降低 60%，至 $40/1M 输入令牌和 $80/1M 输出令牌。缓存的音频输入成本降低 87.5%，至 $2.50/1M 输入令牌。我们也将 GPT-4o mini 引入了 Realtime API 测试版，作为 `gpt-4o-mini-realtime-preview-2024-12-17`。GPT-4o mini 是我们最具成本效益的小型模型，为 Realtime API 提供与 GPT-4o 相同的丰富语音体验。GPT-4o mini 音频价格为 $10/1M 输入令牌和 $20/1M 输出令牌。文本令牌的价格为 $0.60/1M 输入令牌和 $2.40/1M 输出令牌。缓存的音频和文本均为 $0.30/1M 令牌。这些快照可在 Realtime API（https://platform.openai.com/docs/guides/realtime）和 Chat Completions API（https://platform.openai.com/docs/guides/text-generation）中作为 `gpt-4o-audio-preview-2024-12-17` 和 `gpt-4o-mini-audio-preview-2024-12-17` 获得。微调 API 现已支持**偏好微调**（https://platform.openai.com/docs/guides/fine-tuning#preference），可以轻松根据用户和开发者偏好来定制模型。此方法使用**直接偏好优化 (DPO)**（https://arxiv.org/abs/2305.18290）来比较模型响应对，教导模型区分首选和非首选输出。通过从成对比较而不是固定目标中学习，偏好微调对于语气、风格和创意很重要的主观任务特别有效。偏好微调和有监督微调之间有一些关键区别，如下所示。我们开始与值得信赖的合作伙伴测试偏好微调，迄今为止看到了令人鼓舞的结果。例如，**Rogo AI**（https://rogo.ai/）正在为财务分析师构建一个 AI 助手，可以将复杂查询分解为子查询。使用他们专家构建的基准 Rogo-Golden，他们发现虽然有监督微调在分布外查询扩展中面临挑战——例如对于"公司 X 增长有多快"这样的查询，缺少 ARR 等指标——但偏好微调解决了这些问题，将性能从基础模型的 75% 准确率提高到了 80% 以上。偏好微调将从今天开始对 `gpt-4o-2024-08-06` 推出，很快将对 `gpt-4o-mini-2024-07-18` 可用。它的价格与有监督微调相同，按训练的令牌计费，新模型的支持将在明年初推出。有关更多信息，请访问我们 API 文档中的微调指南（https://platform.openai.com/docs/guides/fine-tuning）。有关 Go SDK 的更多信息，请查看 GitHub 上的 README（https://github.com/openai/openai-go?tab=readme-ov-file#openai-go-api-library）。 Java 一直是企业软件开发的主流，因其类型系统和庞大的开源库生态而备受推崇。OpenAI Java SDK 提供了类型化的请求和响应对象，以及有用的实用工具来管理 API 请求。

OpenAI o1 和开发者新工具

相似文章

使用 OpenAI o1 进行编码

OpenAI o1 发布

OpenAI o1-mini

OpenAI API

用 OpenAI o1 回答量子物理问题

提交意见反馈