推出 gpt-realtime 和实时 API 更新

OpenAI Blog 模型

摘要

# 推出 gpt-realtime 和实时 API 更新,用于生产级语音智能体 来源:[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API,包含新功能,使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫,使语音智能体更

我们发布了更先进的语音转语音模型和新的 API 功能,包括 MCP 服务器支持、图像输入和 SIP 电话呼叫支持。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:53

# 推出 gpt-realtime 和生产语音代理的 Realtime API 更新 来源:https://openai.com/index/introducing-gpt-realtime/ 今天我们宣布 Realtime API 正式推出,并新增功能使开发者和企业能够构建可靠的、生产就绪的语音代理。该 API 现在支持远程 MCP 服务器、图像输入和通过会话初始化协议 (SIP) 的电话呼叫,使语音代理能通过访问额外的工具和上下文而具备更强大的功能。 我们还发布了迄今最先进的语音转语音模型——`gpt-realtime`。新模型在遵循复杂指令、精确调用工具和生成更自然表达的语音方面都有改进。它更善于理解系统消息和开发者提示——无论是在支持电话中逐字阅读免责声明脚本、重复字母数字,还是在句子中间无缝切换语言。我们还发布了两个新声音 Cedar 和 Marin,从今天起仅在 Realtime API 中提供。 自去年 10 月我们首次在公测中推出 Realtime API 以来,数千名开发者已使用该 API 并帮助改进我们今天发布的功能——针对可靠性、低延迟和高质量进行了优化,以成功在生产环境中部署语音代理。与将多个模型链接在一起的传统管道(涵盖语音转文本和文本转语音)不同,Realtime API 通过单个模型和 API 直接处理和生成音频。这减少了延迟,保留了语音中的细微差别,并产生更自然、更富表现力的响应。 新的语音转语音模型——`gpt-realtime`——是我们最先进的生产就绪语音模型。我们与客户紧密合作训练该模型,使其擅长处理现实任务,如客户支持、个人助理和教育——将模型与开发者构建和部署语音代理的方式保持一致。该模型在音频质量、智能性、指令遵循和函数调用方面都有改进。 自然流畅的对话对于在现实中部署语音代理至关重要。模型需要以人类的语调、情感和节奏说话,以创造愉快的体验并鼓励用户与其持续对话。我们训练 `gpt-realtime` 生成质量更高的语音,听起来更自然,并能遵循细致的指令,如"说话快速而专业"或"以法国口音同情地说话"。 我们在 API 中发布了两个新声音 Marin 和 Cedar,在自然流畅的语音方面有最显著的改进。我们也更新了现有的八个声音以受益于这些改进。 `gpt-realtime` 展示了更高的智能性,能以更高的准确度理解原生音频。该模型可以捕捉非语言线索(如笑声)、在句子中间切换语言,以及适应语气("干脆而专业"对比"友善和同情")。根据内部评估,该模型在检测其他语言(包括西班牙语、中文、日语和法语)中的字母数字序列(如电话号码、VIN 等)时也表现得更准确。在测量推理能力的 Big Bench Audio 评估中,`gpt-realtime` 的准确率达到 82.8%——超过我们 2024 年 12 月的前一模型,其准确率为 65.6%。 Big Bench Audio (https://huggingface.co/datasets/ArtificialAnalysis/big_bench_audio) 是用于评估支持音频输入的语言模型推理能力的评估数据集。该数据集将来自 Big Bench Hard 的问题改编为音频领域——Big Bench Hard 因其对高级推理的严格测试而被选中。 在构建语音转语音应用时,开发者给模型一组关于其行为方式的指令,包括如何说话、在特定情况下说什么,以及做或不做什么。我们专注于改进对这些指令的遵循,使得即使是微小的方向也能为模型提供更多信号。在测量指令遵循准确度的 MultiChallenge 音频基准上,`gpt-realtime` 的得分为 30.5%,相比我们 2024 年 12 月的前一模型(得分 20.6%)有了显著改进。 MultiChallenge (https://arxiv.org/abs/2501.17399) 评估 LLM 如何处理与人类的多轮对话。它专注于当前前沿模型难以应对的四类现实挑战。这些挑战要求模型同时结合指令遵循、上下文管理和情景推理。我们将测试问题的一个音频友好子集从文本转语音转换,以创建此评估的音频版本。 要使用语音转语音模型构建一个有能力的语音代理,该模型需要能够在正确的时间调用正确的工具才能在生产中有用。我们在三个方面改进了函数调用:调用相关函数、在适当时间调用函数,以及使用适当的参数调用函数(从而提高准确度)。在测量函数调用性能的 ComplexFuncBench 音频评估中,`gpt-realtime` 的得分为 66.5%,而我们 2024 年 12 月的前一模型得分为 49.7%。 我们还改进了异步函数调用 (http://platform.openai.com/docs/guides/realtime-function-calling)。长时间运行的函数调用将不再中断会话流程——模型在等待结果时可以继续流畅对话。这个功能在 `gpt-realtime` 中原生可用,所以开发者无需更新代码。 ComplexFuncBench (https://github.com/zai-org/ComplexFuncBench) 测量模型如何处理具有挑战性的函数调用任务。它评估各种场景中的性能,如多步调用、关于约束或隐含参数的推理、处理很长的输入。我们将原始文本提示转换为语音,为我们的模型构建这个评估。 您可以通过将远程 MCP 服务器的 URL 传递到会话配置中,在 Realtime API 会话中启用 MCP 支持。连接后,API 会自动为您处理工具调用,因此无需手动接入集成。 这个设置使得扩展您的代理的新功能变得容易——只需将会话指向不同的 MCP 服务器,这些工具立即变得可用。要了解有关使用 Realtime 配置 MCP 的更多信息,请查看本指南 (http://platform.openai.com/docs/guides/realtime-mcp)。 由于 `gpt-realtime` 现在支持图像输入,您可以在 Realtime API 会话中添加图像、照片和屏幕截图以及音频或文本。现在该模型可以根据用户实际看到的内容进行对话,使用户能够提出"你看到什么?"或"读一下这个屏幕截图中的文本"这样的问题。 系统不会将图像视为实时视频流,而是更像在对话中添加一张图片。您的应用可以决定与模型共享哪些图像以及何时共享。这样,您可以控制模型看到的内容和何时响应。 我们为 Realtime API 添加了多个其他功能,使其更容易集成并对生产使用更加灵活。 - **会话初始化协议 (SIP) 支持:** 通过 Realtime API 中的直接支持,将您的应用连接到公共电话网络、PBX 系统、桌面电话和其他 SIP 端点。在文档中了解更多信息。(http://platform.openai.com/docs/guides/realtime-sip) - **可重用提示:** 您现在可以保存和重用提示——包括开发者消息、工具、变量和示例用户/助理消息——在 Realtime API 会话中,就像在 Responses API 中一样。在文档中了解更多。(http://platform.openai.com/docs/guides/realtime-models-prompting) Realtime API 融入了多层保障措施和缓解措施,以帮助防止滥用。您可以在测试版公告博客 (https://openai.com/index/introducing-the-realtime-api/) 中了解更多关于我们的安全方法和系统卡详情。我们对 Realtime API 会话采用主动分类器,意味着如果检测到某些对话违反了我们的有害内容指南,可以停止这些对话。开发者也可以使用 Agents SDK (https://openai.github.io/openai-agents-js/guides/guardrails/) 轻松添加他们自己的额外安全护栏。 我们的使用政策 (https://openai.com/policies/usage-policies/) 禁止为了垃圾邮件、欺骗或其他有害目的而重新用途或分发我们服务的输出。开发者还必须向最终用户清楚地表明他们与 AI 互动,除非从背景来看已经很明显。Realtime API 使用预设声音来帮助防止恶意行为者冒充他人。 正式推出的 Realtime API 和新的 `gpt-realtime` 模型从今天起对所有开发者可用。与 `gpt-4o-realtime-preview` 相比,我们将 `gpt-realtime` 的价格降低了 20%——音频输入令牌 $32 / 1M(缓存输入令牌 $0.40)和音频输出令牌 $64 / 1M(查看详细定价 (https://platform.openai.com/docs/pricing#audio-tokens))。我们还添加了对对话上下文的细粒度控制,允许开发者设置智能令牌限制并一次截断多个轮次,大大降低了长会话的成本。

相似文章

实时 API 介绍

OpenAI Blog

OpenAI 推出实时 API,使开发者能够构建低延迟多模态语音对话体验,由 GPT-4o 驱动的自然语音交互。该 API 支持六种预设声音,简化开发流程,无需集成多个模型。

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。