推出 gpt-realtime 和实时 API 更新

OpenAI Blog 2025/08/28 10:00 模型

voice-ai speech-to-speech realtime-api openai production-ready voice-agents api-update

摘要

# 推出 gpt-realtime 和实时 API 更新，用于生产级语音智能体来源：[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API，包含新功能，使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫，使语音智能体更

我们发布了更先进的语音转语音模型和新的 API 功能，包括 MCP 服务器支持、图像输入和 SIP 电话呼叫支持。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:53

# 推出 gpt-realtime 和生产语音代理的 Realtime API 更新来源：https://openai.com/index/introducing-gpt-realtime/ 今天我们宣布 Realtime API 正式推出，并新增功能使开发者和企业能够构建可靠的、生产就绪的语音代理。该 API 现在支持远程 MCP 服务器、图像输入和通过会话初始化协议 (SIP) 的电话呼叫，使语音代理能通过访问额外的工具和上下文而具备更强大的功能。我们还发布了迄今最先进的语音转语音模型——`gpt-realtime`。新模型在遵循复杂指令、精确调用工具和生成更自然表达的语音方面都有改进。它更善于理解系统消息和开发者提示——无论是在支持电话中逐字阅读免责声明脚本、重复字母数字，还是在句子中间无缝切换语言。我们还发布了两个新声音 Cedar 和 Marin，从今天起仅在 Realtime API 中提供。自去年 10 月我们首次在公测中推出 Realtime API 以来，数千名开发者已使用该 API 并帮助改进我们今天发布的功能——针对可靠性、低延迟和高质量进行了优化，以成功在生产环境中部署语音代理。与将多个模型链接在一起的传统管道（涵盖语音转文本和文本转语音）不同，Realtime API 通过单个模型和 API 直接处理和生成音频。这减少了延迟，保留了语音中的细微差别，并产生更自然、更富表现力的响应。新的语音转语音模型——`gpt-realtime`——是我们最先进的生产就绪语音模型。我们与客户紧密合作训练该模型，使其擅长处理现实任务，如客户支持、个人助理和教育——将模型与开发者构建和部署语音代理的方式保持一致。该模型在音频质量、智能性、指令遵循和函数调用方面都有改进。自然流畅的对话对于在现实中部署语音代理至关重要。模型需要以人类的语调、情感和节奏说话，以创造愉快的体验并鼓励用户与其持续对话。我们训练 `gpt-realtime` 生成质量更高的语音，听起来更自然，并能遵循细致的指令，如"说话快速而专业"或"以法国口音同情地说话"。我们在 API 中发布了两个新声音 Marin 和 Cedar，在自然流畅的语音方面有最显著的改进。我们也更新了现有的八个声音以受益于这些改进。 `gpt-realtime` 展示了更高的智能性，能以更高的准确度理解原生音频。该模型可以捕捉非语言线索（如笑声）、在句子中间切换语言，以及适应语气（"干脆而专业"对比"友善和同情"）。根据内部评估，该模型在检测其他语言（包括西班牙语、中文、日语和法语）中的字母数字序列（如电话号码、VIN 等）时也表现得更准确。在测量推理能力的 Big Bench Audio 评估中，`gpt-realtime` 的准确率达到 82.8%——超过我们 2024 年 12 月的前一模型，其准确率为 65.6%。 Big Bench Audio (https://huggingface.co/datasets/ArtificialAnalysis/big_bench_audio) 是用于评估支持音频输入的语言模型推理能力的评估数据集。该数据集将来自 Big Bench Hard 的问题改编为音频领域——Big Bench Hard 因其对高级推理的严格测试而被选中。在构建语音转语音应用时，开发者给模型一组关于其行为方式的指令，包括如何说话、在特定情况下说什么，以及做或不做什么。我们专注于改进对这些指令的遵循，使得即使是微小的方向也能为模型提供更多信号。在测量指令遵循准确度的 MultiChallenge 音频基准上，`gpt-realtime` 的得分为 30.5%，相比我们 2024 年 12 月的前一模型（得分 20.6%）有了显著改进。 MultiChallenge (https://arxiv.org/abs/2501.17399) 评估 LLM 如何处理与人类的多轮对话。它专注于当前前沿模型难以应对的四类现实挑战。这些挑战要求模型同时结合指令遵循、上下文管理和情景推理。我们将测试问题的一个音频友好子集从文本转语音转换，以创建此评估的音频版本。要使用语音转语音模型构建一个有能力的语音代理，该模型需要能够在正确的时间调用正确的工具才能在生产中有用。我们在三个方面改进了函数调用：调用相关函数、在适当时间调用函数，以及使用适当的参数调用函数（从而提高准确度）。在测量函数调用性能的 ComplexFuncBench 音频评估中，`gpt-realtime` 的得分为 66.5%，而我们 2024 年 12 月的前一模型得分为 49.7%。我们还改进了异步函数调用 (http://platform.openai.com/docs/guides/realtime-function-calling)。长时间运行的函数调用将不再中断会话流程——模型在等待结果时可以继续流畅对话。这个功能在 `gpt-realtime` 中原生可用，所以开发者无需更新代码。 ComplexFuncBench (https://github.com/zai-org/ComplexFuncBench) 测量模型如何处理具有挑战性的函数调用任务。它评估各种场景中的性能，如多步调用、关于约束或隐含参数的推理、处理很长的输入。我们将原始文本提示转换为语音，为我们的模型构建这个评估。您可以通过将远程 MCP 服务器的 URL 传递到会话配置中，在 Realtime API 会话中启用 MCP 支持。连接后，API 会自动为您处理工具调用，因此无需手动接入集成。这个设置使得扩展您的代理的新功能变得容易——只需将会话指向不同的 MCP 服务器，这些工具立即变得可用。要了解有关使用 Realtime 配置 MCP 的更多信息，请查看本指南 (http://platform.openai.com/docs/guides/realtime-mcp)。由于 `gpt-realtime` 现在支持图像输入，您可以在 Realtime API 会话中添加图像、照片和屏幕截图以及音频或文本。现在该模型可以根据用户实际看到的内容进行对话，使用户能够提出"你看到什么？"或"读一下这个屏幕截图中的文本"这样的问题。系统不会将图像视为实时视频流，而是更像在对话中添加一张图片。您的应用可以决定与模型共享哪些图像以及何时共享。这样，您可以控制模型看到的内容和何时响应。我们为 Realtime API 添加了多个其他功能，使其更容易集成并对生产使用更加灵活。 - **会话初始化协议 (SIP) 支持：** 通过 Realtime API 中的直接支持，将您的应用连接到公共电话网络、PBX 系统、桌面电话和其他 SIP 端点。在文档中了解更多信息。(http://platform.openai.com/docs/guides/realtime-sip) - **可重用提示：** 您现在可以保存和重用提示——包括开发者消息、工具、变量和示例用户/助理消息——在 Realtime API 会话中，就像在 Responses API 中一样。在文档中了解更多。(http://platform.openai.com/docs/guides/realtime-models-prompting) Realtime API 融入了多层保障措施和缓解措施，以帮助防止滥用。您可以在测试版公告博客 (https://openai.com/index/introducing-the-realtime-api/) 中了解更多关于我们的安全方法和系统卡详情。我们对 Realtime API 会话采用主动分类器，意味着如果检测到某些对话违反了我们的有害内容指南，可以停止这些对话。开发者也可以使用 Agents SDK (https://openai.github.io/openai-agents-js/guides/guardrails/) 轻松添加他们自己的额外安全护栏。我们的使用政策 (https://openai.com/policies/usage-policies/) 禁止为了垃圾邮件、欺骗或其他有害目的而重新用途或分发我们服务的输出。开发者还必须向最终用户清楚地表明他们与 AI 互动，除非从背景来看已经很明显。Realtime API 使用预设声音来帮助防止恶意行为者冒充他人。正式推出的 Realtime API 和新的 `gpt-realtime` 模型从今天起对所有开发者可用。与 `gpt-4o-realtime-preview` 相比，我们将 `gpt-realtime` 的价格降低了 20%——音频输入令牌 $32 / 1M（缓存输入令牌 $0.40）和音频输出令牌 $64 / 1M（查看详细定价 (https://platform.openai.com/docs/pricing#audio-tokens)）。我们还添加了对对话上下文的细粒度控制，允许开发者设置智能令牌限制并一次截断多个轮次，大大降低了长会话的成本。

推出 gpt-realtime 和实时 API 更新

相似文章

实时 API 介绍

API 推出全新模型，推动语音智能发展

@kwindla：OpenAI 今天发布了一款新的语音到语音模型：gpt-realtime-2 这是首个足够好的语音到语音模型……

@sama：人们真的开始使用语音与AI交互，尤其是当他们需要倾泻大量上下文时。GPT-Re…

构建实时语音翻译应用（阅读时长：28 分钟）

提交意见反馈