实时 API 介绍

OpenAI Blog 2024/10/01 10:05 产品

realtime-api voice multimodal low-latency openai api-release

摘要

OpenAI 推出实时 API，使开发者能够构建低延迟多模态语音对话体验，由 GPT-4o 驱动的自然语音交互。该 API 支持六种预设声音，简化开发流程，无需集成多个模型。

开发者现在可以将快速语音对话功能集成到他们的应用程序中

查看缓存全文

缓存时间: 2026/04/20 14:46

# 实时 API 介绍来源：https://openai.com/index/introducing-the-realtime-api/ *2025 年 8 月 28 日更新：我们宣布了实时 API 的正式推出。**了解更多信息** (https://openai.com/index/introducing-gpt-realtime/)。* --- *2025 年 2 月 3 日更新：我们不再限制实时 API 的并发会话数量。请参考我们的**文档** (https://platform.openai.com/docs/guides/rate-limits?tier=free)以了解实时 API 的最新速率限制。* --- *2024 年 10 月 30 日更新：我们新增了五个表现力更强、音域更广的语音。现在还提供了文本和音频输入的缓存定价，价格为 $2.50/100 万个缓存文本输入令牌和 $20/100 万个缓存音频输入令牌。**了解更多信息** (https://platform.openai.com/docs/guides/realtime)。* --- *2024 年 10 月 17 日更新：音频输入和输出现已在聊天完成 API 中可用。**快速开始** (https://platform.openai.com/docs/guides/audio)。* --- 今天，我们推出实时 API 的公测版，让所有付费开发者都能在自己的应用中构建低延迟、多模态的体验。与 ChatGPT 的高级语音模式类似，实时 API 支持使用 API 已支持的**六个预设语音** (https://platform.openai.com/docs/guides/text-to-speech)进行自然的语音到语音对话。我们还在**聊天完成 API** (https://platform.openai.com/docs/guides/chat-completions)中引入了音频输入和输出，以支持不需要实时 API 低延迟优势的用例。通过此更新，开发者可以将任何文本或音频输入传递给 **GPT-4o** (https://openai.com/index/hello-gpt-4o/)，并让模型以文本、音频或两者的形式响应。从语言应用和教育软件到客户支持体验，开发者已经在利用语音体验与用户互动。现在有了实时 API，以及即将推出的聊天完成 API 中的音频功能，开发者不再需要拼接多个模型来支撑这些体验。相反，你可以通过单一 API 调用构建自然的对话体验。

相似文章

推出 gpt-realtime 和实时 API 更新

OpenAI Blog

# 推出 gpt-realtime 和实时 API 更新，用于生产级语音智能体来源：[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API，包含新功能，使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫，使语音智能体更

实时 API 介绍

相似文章

推出 gpt-realtime 和实时 API 更新

API 推出全新模型，推动语音智能发展

@sama：人们真的开始使用语音与AI交互，尤其是当他们需要倾泻大量上下文时。GPT-Re…

@kwindla：OpenAI 今天发布了一款新的语音到语音模型：gpt-realtime-2 这是首个足够好的语音到语音模型……

OpenAI 如何实现大规模低延迟语音 AI 部署

提交意见反馈