OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence 2026/05/08 12:50 模型

摘要

OpenAI推出了三个新的实时音频模型，支持连续、多任务的语音交互，优先考虑长上下文推理、实时翻译和无缝工具使用。

暂无内容

查看缓存全文

缓存时间: 2026/05/08 13:31

# OpenAI 新语音模型：不只是会回话 - Firethering 来源：https://firethering.com/openai-new-voice-models-realtime-api/ \- 广告 \- OpenAI 正在深入语音领域。该公司刚刚在其 API 中推出了三款新的实时音频模型。GPT-Realtime-2 用于对话推理，GPT-Realtime-Translate 用于实时多语言翻译，GPT-Realtime-Whisper 用于流式语音转录。 GPT-Realtime-2 现在可以处理更长的对话，更自然地从中断中恢复，在用户说话的同时使用工具，并根据任务的不同以不同的推理层级进行响应。OpenAI 表示，该模型专为客服、日程安排、旅行助手等工作流程设计，在这些场景中，AI 需要真正跟踪上下文，而不仅仅是快速回复。 OpenAI 不再将语音视为聊天机器人的附属功能。它开始将语音定位为接口本身。这意味着对话过程中的实时翻译。会议进行中的实时转录。AI 智能体可以检查你的日历、从应用程序中提取信息，或在对话持续进行的同时完成操作。 ## **目录** - 语音模型开始更像智能体 (https://firethering.com/openai-new-voice-models-realtime-api/#voice-models-are-starting-to-behave-more-like-agents) - 语音改变人们使用软件的方式 (https://firethering.com/openai-new-voice-models-realtime-api/#voice-changes-how-people-use-software) - GPT-Realtime-Translate 可能成为隐藏的亮点 (https://firethering.com/openai-new-voice-models-realtime-api/#gpt-realtime-translate-may-end-up-being-the-sleeper-feature) - 定价与可用性 (https://firethering.com/openai-new-voice-models-realtime-api/#pricing-and-availability) ## **语音模型开始更像智能体** OpenAI API 中的三款音频模型此次发布最有趣的部分不在于语音本身，而在于 OpenAI 持续将这些系统围绕行动和工作流程来构建，而非仅仅围绕对话。该公司重点介绍了以下例子：Zillow 构建语音智能体来搜索房屋并安排参观；Deutsche Telekom 测试多语言客服；Priceline 探索从开始到结束完全基于对话的旅行规划。这指向了当前 AI 领域的一个转变。语音助手过去主要用来回答问题。而这些新系统被设计成在任务执行过程中保持活跃——比如检查日历、更新预订、从应用程序中提取信息、实时翻译对话，或处理中断而不需要重启交互。这也是为什么 OpenAI 在此次发布中大力强调实时推理和工具使用。仅仅听起来自然的语音助手已经不够了。难点在于让系统在对话持续进行时仍然保持有用。 ## **语音改变人们使用软件的方式** 打字自然会带来停顿。人们发送一条提示，等待回复，然后继续。语音交互则不同。即使请求中途改变或同时发生多件事，对话也会持续进行。这给 AI 系统带来了一个更难的问题。模型必须持续倾听，决定何时回应，记住更长会话中的上下文，有时还要在不打断对话流的情况下使用工具。这很可能就是为什么 OpenAI 等公司突然在实时基础设施上大力投入的原因。 ##### **你可能喜欢：**开源 TTS 模型，能够克隆声音并且听起来像真人 (https://firethering.com/open-source-tts-voice-cloning/) ## **GPT-Realtime-Translate 可能成为隐藏的亮点** 推理升级会吸引大部分注意力，但实时翻译模型最终可能带来更大的商业影响。 OpenAI 表示，GPT-Realtime-Translate 可以处理超过 70 种输入语言，并翻译成 13 种输出语言，同时跟上实时对话的节奏。这为客服、会议、活动、旅行协助和销售电话打开了大门，人们不再需要流利地使用同一种语言也能顺畅沟通。与旧的翻译系统不同，OpenAI 显然在推动对话在翻译后台进行时自然持续。该公司还重点介绍了 BolnaAI 的测试结果，该模型处理印度地区语言（如印地语、泰米尔语和泰卢固语）时，与其他测试过的系统相比，单词错误率更低，回退失败次数更少。 Vimeo 也在试验该模型。该公司表示，正在使用 GPT-Realtime-Translate 在直播期间进行实时翻译，以便创作者在实时流媒体中触达全球观众。据 Vimeo 称，最大的改进之一是系统在处理多语言对话时不会中断中断交互流程。一旦实时多语言语音 AI 能够可靠地处理口音、中断和地区性语音模式，它将变得更加有用。 ##### **你可能喜欢：**SubQ 的 1200 万 Token 模型可能改变 AI 处理长上下文的方式——如果它是真的 (https://firethering.com/subq-12m-token-context-llm-subquadratic-attention/) ## **定价与可用性** 所有三款模型均可通过 OpenAI 的 Realtime API 获取。 GPT-Realtime-2 定价为每百万音频输入 Token 32 美元，每百万音频输出 Token 64 美元；GPT-Realtime-Translate 每分钟费用为 0.034 美元；GPT-Realtime-Whisper 每分钟费用为 0.017 美元。开发者也可以在将模型集成到应用和工作流程之前，通过 OpenAI 的 Playground 进行测试。

OpenAI的新语音模型不止于回话

相似文章

API 推出全新模型，推动语音智能发展

We’re introducing three audio models in the API

在API中引入下一代音频模型

实时 API 介绍

@kwindla：OpenAI 今天发布了一款新的语音到语音模型：gpt-realtime-2 这是首个足够好的语音到语音模型……

提交意见反馈