实时 API 介绍

OpenAI Blog 产品

摘要

OpenAI 推出实时 API,使开发者能够构建低延迟多模态语音对话体验,由 GPT-4o 驱动的自然语音交互。该 API 支持六种预设声音,简化开发流程,无需集成多个模型。

开发者现在可以将快速语音对话功能集成到他们的应用程序中
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 实时 API 介绍 来源:https://openai.com/index/introducing-the-realtime-api/ *2025 年 8 月 28 日更新:我们宣布了实时 API 的正式推出。**了解更多信息** (https://openai.com/index/introducing-gpt-realtime/)。* --- *2025 年 2 月 3 日更新:我们不再限制实时 API 的并发会话数量。请参考我们的**文档** (https://platform.openai.com/docs/guides/rate-limits?tier=free)以了解实时 API 的最新速率限制。* --- *2024 年 10 月 30 日更新:我们新增了五个表现力更强、音域更广的语音。现在还提供了文本和音频输入的缓存定价,价格为 $2.50/100 万个缓存文本输入令牌和 $20/100 万个缓存音频输入令牌。**了解更多信息** (https://platform.openai.com/docs/guides/realtime)。* --- *2024 年 10 月 17 日更新:音频输入和输出现已在聊天完成 API 中可用。**快速开始** (https://platform.openai.com/docs/guides/audio)。* --- 今天,我们推出实时 API 的公测版,让所有付费开发者都能在自己的应用中构建低延迟、多模态的体验。与 ChatGPT 的高级语音模式类似,实时 API 支持使用 API 已支持的**六个预设语音** (https://platform.openai.com/docs/guides/text-to-speech)进行自然的语音到语音对话。 我们还在**聊天完成 API** (https://platform.openai.com/docs/guides/chat-completions)中引入了音频输入和输出,以支持不需要实时 API 低延迟优势的用例。通过此更新,开发者可以将任何文本或音频输入传递给 **GPT-4o** (https://openai.com/index/hello-gpt-4o/),并让模型以文本、音频或两者的形式响应。 从语言应用和教育软件到客户支持体验,开发者已经在利用语音体验与用户互动。现在有了实时 API,以及即将推出的聊天完成 API 中的音频功能,开发者不再需要拼接多个模型来支撑这些体验。相反,你可以通过单一 API 调用构建自然的对话体验。

相似文章

推出 gpt-realtime 和实时 API 更新

OpenAI Blog

# 推出 gpt-realtime 和实时 API 更新,用于生产级语音智能体 来源:[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API,包含新功能,使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫,使语音智能体更

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。

OpenAI 如何实现大规模低延迟语音 AI 部署

OpenAI Blog

OpenAI 详细介绍了其重新架构的 WebRTC 技术栈,旨在为超过 9 亿用户提供大规模低延迟语音 AI 服务。文章阐述了全新的 split-relay 和 transceiver 架构如何优化媒体路由与连接建立,以支持 ChatGPT 语音等实时交互场景。