OpenAI o1 和开发者新工具
摘要
OpenAI 向 API 发布 o1 模型,具备生产就绪的功能,包括函数调用、结构化输出、视觉能力,以及比 o1-preview 低 60% 的延迟。其他开发者工具包括 Realtime API 改进、偏好微调,以及新的 Go 和 Java SDK。
推出 OpenAI o1、Realtime API 改进、新的微调方法等开发者工具。
查看缓存全文
缓存时间: 2026/04/20 14:47
# OpenAI o1 和开发者新工具
来源:https://openai.com/index/o1-and-new-tools-for-developers/
OpenAI推出 o1、Realtime API 改进、新的微调方法以及更多开发者工具。
今天我们推出了更强大的模型、新的定制工具以及性能、灵活性和成本效益的升级,帮助开发者更好地利用 AI 进行开发。包括:
- **API 中的 OpenAI o1**(https://platform.openai.com/docs/models#o1),支持函数调用、开发者消息、结构化输出和视觉能力。
- **Realtime API 更新**(https://platform.openai.com/docs/guides/realtime),包括简化的 WebRTC 集成、GPT-4o 音频价格降低 60%,以及 GPT-4o mini 音频价格降至之前的十分之一。
- **偏好微调**(https://platform.openai.com/docs/guides/fine-tuning#preference),一种新的模型定制技术,可以根据用户和开发者偏好更轻松地调整模型。
- **新的 Go 和 Java SDK**(https://platform.openai.com/docs/libraries),现已推出测试版。
**OpenAI o1**(https://openai.com/o1/)是我们的推理模型,专为处理复杂的多步任务并实现高级精度而设计,现已向 API 中使用量等级 5 的开发者推出(https://platform.openai.com/docs/guides/rate-limits/usage-tiers#usage-tiers)。o1 是 OpenAI o1-preview 的继任者(https://openai.com/index/introducing-openai-o1-preview/),开发者已经使用它来构建代理应用,简化客户支持、优化供应链决策以及预测复杂的财务趋势。
o1 已准备好投入生产,具有以下关键特性,可支持实际应用场景:
- **函数调用**(https://platform.openai.com/docs/guides/function-calling):无缝连接 o1 和外部数据及 API。
- **结构化输出**(https://platform.openai.com/docs/guides/structured-outputs):生成严格遵守自定义 JSON Schema 的响应。
- **开发者消息**:为模型指定要遵循的说明或上下文,例如定义语气、风格和其他行为指导。
- **视觉能力**:对图像进行推理,以解锁科学、制造或编码等众多应用场景,其中视觉输入很重要。
- **更低的延迟**:对于给定的请求,o1 使用的推理令牌比 o1-preview 平均少 60%。
- 新的 `**reasoning_effort**` API 参数允许你控制模型在回答前的思考时长。
我们今天发布的 o1 快照 `o1-2024-12-17` 是我们两周前在 ChatGPT 中发布的模型的新后训练版本。它根据反馈改进了模型行为的某些方面,同时保持了我们在 o1 系统卡中评估的前沿能力(https://openai.com/index/openai-o1-system-card/)。我们很快也会在 ChatGPT 中更新 o1 到此版本。下面分享的评估反映了此新快照的性能,确保开发者获得此版本的最新基准。
`o1-2024-12-17` 在多个基准测试中创造了新的最先进的结果,改进了成本效率和性能。
| 类别 | 评估 | o1-2024-12-17 | o1-preview |
|------|------|---------------|-----------|
| 通用 | GPQA diamond | 75.7 | 73.3 |
| | MMLU (pass @1) | 91.8 | 90.8 |
| 编码 | SWE-bench Verified | 48.9 | 41.3 |
| | LiveBench (Coding) | 76.6 | 52.3 |
| 数学 | MATH (pass @1) | 96.4 | 85.5 |
| | AIME 2024 (pass @1) | 79.2 | 42.0 |
| | MGSM (pass @1) | 89.3 | 90.8 |
| 视觉 | MMMU (pass @1) | 77.3 | — |
| | MathVista (pass @1) | 71.0 | — |
| 事实性 | SimpleQA | 42.6 | 42.4 |
| 代理 | TAU-bench (retail) | 73.5 | — |
| | TAU-bench (airline) | 54.2 | — |
##### 不同指标的模型评估准确性
此外,我们观察到 `o1-2024-12-17` 在函数调用和结构化输出测试中的表现明显优于 gpt-4o。
**Realtime API**(https://platform.openai.com/docs/guides/realtime)使开发者能够创建低延迟、自然流畅的对话体验。它非常适合语音助手、实时翻译工具、虚拟导师、交互式客户支持系统,甚至你自己的虚拟圣诞老人(https://x.com/jillian_khoo/status/1867275291510383049)。今天我们发布的更改解决了开发者最常见的一些请求:直接的 WebRTC 集成、降低的价格以及对响应的更多控制。
我们为 Realtime API 引入了 **WebRTC**(https://webrtc.org/)支持。WebRTC 是一个开放标准,可以更轻松地在各个平台上构建和扩展实时语音产品——无论是基于浏览器的应用、移动客户端、物联网设备还是直接的服务器到服务器设置。
我们的 WebRTC 集成设计用于在实际条件下实现平稳和响应式的交互,即使在网络质量不稳定的情况下也能如此。它处理音频编码、流传输、噪声抑制和拥塞控制。
使用 WebRTC,你现在可以仅用几行 Javascript 代码来添加 Realtime 能力:
我们发布了 `gpt-4o-realtime-preview-2024-12-17` 作为 Realtime API 测试版的一部分,具有改进的语音质量、更可靠的输入(特别是对于口述的数字)和降低的成本。由于我们的效率改进,我们将音频令牌价格降低 60%,至 $40/1M 输入令牌和 $80/1M 输出令牌。缓存的音频输入成本降低 87.5%,至 $2.50/1M 输入令牌。
我们也将 GPT-4o mini 引入了 Realtime API 测试版,作为 `gpt-4o-mini-realtime-preview-2024-12-17`。GPT-4o mini 是我们最具成本效益的小型模型,为 Realtime API 提供与 GPT-4o 相同的丰富语音体验。GPT-4o mini 音频价格为 $10/1M 输入令牌和 $20/1M 输出令牌。文本令牌的价格为 $0.60/1M 输入令牌和 $2.40/1M 输出令牌。缓存的音频和文本均为 $0.30/1M 令牌。
这些快照可在 Realtime API(https://platform.openai.com/docs/guides/realtime)和 Chat Completions API(https://platform.openai.com/docs/guides/text-generation)中作为 `gpt-4o-audio-preview-2024-12-17` 和 `gpt-4o-mini-audio-preview-2024-12-17` 获得。
微调 API 现已支持**偏好微调**(https://platform.openai.com/docs/guides/fine-tuning#preference),可以轻松根据用户和开发者偏好来定制模型。此方法使用**直接偏好优化 (DPO)**(https://arxiv.org/abs/2305.18290)来比较模型响应对,教导模型区分首选和非首选输出。通过从成对比较而不是固定目标中学习,偏好微调对于语气、风格和创意很重要的主观任务特别有效。
偏好微调和有监督微调之间有一些关键区别,如下所示。
我们开始与值得信赖的合作伙伴测试偏好微调,迄今为止看到了令人鼓舞的结果。例如,**Rogo AI**(https://rogo.ai/)正在为财务分析师构建一个 AI 助手,可以将复杂查询分解为子查询。使用他们专家构建的基准 Rogo-Golden,他们发现虽然有监督微调在分布外查询扩展中面临挑战——例如对于"公司 X 增长有多快"这样的查询,缺少 ARR 等指标——但偏好微调解决了这些问题,将性能从基础模型的 75% 准确率提高到了 80% 以上。
偏好微调将从今天开始对 `gpt-4o-2024-08-06` 推出,很快将对 `gpt-4o-mini-2024-07-18` 可用。它的价格与有监督微调相同,按训练的令牌计费,新模型的支持将在明年初推出。有关更多信息,请访问我们 API 文档中的微调指南(https://platform.openai.com/docs/guides/fine-tuning)。
有关 Go SDK 的更多信息,请查看 GitHub 上的 README(https://github.com/openai/openai-go?tab=readme-ov-file#openai-go-api-library)。
Java 一直是企业软件开发的主流,因其类型系统和庞大的开源库生态而备受推崇。OpenAI Java SDK 提供了类型化的请求和响应对象,以及有用的实用工具来管理 API 请求。
相似文章
使用 OpenAI o1 进行编码
OpenAI 发布了 o1 模型在编码任务中的功能和应用,强调了 AI 如何能够帮助开发者更持续、更规模化地构建应用。
OpenAI o1 发布
OpenAI 发布了 o1,一系列新的推理导向型 AI 模型,在科学、编码和数学等复杂任务上表现优于前代模型。预览版模型在国际数学奥林匹克竞赛问题上的解决率达到 83%,而 GPT-4o 仅为 13%,在竞技编程中达到第 89 个百分位。
OpenAI o1-mini
OpenAI 发布了 o1-mini,一款成本高效的推理模型,在数学和编码等 STEM 任务上与 o1 性能相当,但价格便宜 80%。该模型针对推理密集型应用进行了优化,现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。
OpenAI API
OpenAI 宣布发布 API,用于通过通用文本界面访问其 AI 模型。该 API 以私密测试版的形式推出,采用严格的安全措施,包括强制性的生产审查和内容限制,以防止有害用途。
用 OpenAI o1 回答量子物理问题
OpenAI 发布了 o1 新型 AI 模型系列,该模型能在响应前花费更多时间进行推理,在处理复杂量子物理问题以及解决科学、编码和数学中的难题方面展现出显著能力。