OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence 模型

摘要

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 13:31

# OpenAI 新语音模型:不只是会回话 - Firethering 来源:https://firethering.com/openai-new-voice-models-realtime-api/ \- 广告 \- OpenAI 正在深入语音领域。 该公司刚刚在其 API 中推出了三款新的实时音频模型。GPT-Realtime-2 用于对话推理,GPT-Realtime-Translate 用于实时多语言翻译,GPT-Realtime-Whisper 用于流式语音转录。 GPT-Realtime-2 现在可以处理更长的对话,更自然地从中断中恢复,在用户说话的同时使用工具,并根据任务的不同以不同的推理层级进行响应。OpenAI 表示,该模型专为客服、日程安排、旅行助手等工作流程设计,在这些场景中,AI 需要真正跟踪上下文,而不仅仅是快速回复。 OpenAI 不再将语音视为聊天机器人的附属功能。它开始将语音定位为接口本身。这意味着对话过程中的实时翻译。会议进行中的实时转录。AI 智能体可以检查你的日历、从应用程序中提取信息,或在对话持续进行的同时完成操作。 ## **目录** - 语音模型开始更像智能体 (https://firethering.com/openai-new-voice-models-realtime-api/#voice-models-are-starting-to-behave-more-like-agents) - 语音改变人们使用软件的方式 (https://firethering.com/openai-new-voice-models-realtime-api/#voice-changes-how-people-use-software) - GPT-Realtime-Translate 可能成为隐藏的亮点 (https://firethering.com/openai-new-voice-models-realtime-api/#gpt-realtime-translate-may-end-up-being-the-sleeper-feature) - 定价与可用性 (https://firethering.com/openai-new-voice-models-realtime-api/#pricing-and-availability) ## **语音模型开始更像智能体** OpenAI API 中的三款音频模型此次发布最有趣的部分不在于语音本身,而在于 OpenAI 持续将这些系统围绕行动和工作流程来构建,而非仅仅围绕对话。 该公司重点介绍了以下例子:Zillow 构建语音智能体来搜索房屋并安排参观;Deutsche Telekom 测试多语言客服;Priceline 探索从开始到结束完全基于对话的旅行规划。 这指向了当前 AI 领域的一个转变。语音助手过去主要用来回答问题。而这些新系统被设计成在任务执行过程中保持活跃——比如检查日历、更新预订、从应用程序中提取信息、实时翻译对话,或处理中断而不需要重启交互。 这也是为什么 OpenAI 在此次发布中大力强调实时推理和工具使用。仅仅听起来自然的语音助手已经不够了。难点在于让系统在对话持续进行时仍然保持有用。 ## **语音改变人们使用软件的方式** 打字自然会带来停顿。人们发送一条提示,等待回复,然后继续。 语音交互则不同。即使请求中途改变或同时发生多件事,对话也会持续进行。 这给 AI 系统带来了一个更难的问题。模型必须持续倾听,决定何时回应,记住更长会话中的上下文,有时还要在不打断对话流的情况下使用工具。 这很可能就是为什么 OpenAI 等公司突然在实时基础设施上大力投入的原因。 ##### **你可能喜欢:**开源 TTS 模型,能够克隆声音并且听起来像真人 (https://firethering.com/open-source-tts-voice-cloning/) ## **GPT-Realtime-Translate 可能成为隐藏的亮点** 推理升级会吸引大部分注意力,但实时翻译模型最终可能带来更大的商业影响。 OpenAI 表示,GPT-Realtime-Translate 可以处理超过 70 种输入语言,并翻译成 13 种输出语言,同时跟上实时对话的节奏。这为客服、会议、活动、旅行协助和销售电话打开了大门,人们不再需要流利地使用同一种语言也能顺畅沟通。 与旧的翻译系统不同,OpenAI 显然在推动对话在翻译后台进行时自然持续。 该公司还重点介绍了 BolnaAI 的测试结果,该模型处理印度地区语言(如印地语、泰米尔语和泰卢固语)时,与其他测试过的系统相比,单词错误率更低,回退失败次数更少。 Vimeo 也在试验该模型。该公司表示,正在使用 GPT-Realtime-Translate 在直播期间进行实时翻译,以便创作者在实时流媒体中触达全球观众。据 Vimeo 称,最大的改进之一是系统在处理多语言对话时不会中断中断交互流程。 一旦实时多语言语音 AI 能够可靠地处理口音、中断和地区性语音模式,它将变得更加有用。 ##### **你可能喜欢:**SubQ 的 1200 万 Token 模型可能改变 AI 处理长上下文的方式——如果它是真的 (https://firethering.com/subq-12m-token-context-llm-subquadratic-attention/) ## **定价与可用性** 所有三款模型均可通过 OpenAI 的 Realtime API 获取。 GPT-Realtime-2 定价为每百万音频输入 Token 32 美元,每百万音频输出 Token 64 美元;GPT-Realtime-Translate 每分钟费用为 0.034 美元;GPT-Realtime-Whisper 每分钟费用为 0.017 美元。 开发者也可以在将模型集成到应用和工作流程之前,通过 OpenAI 的 Playground 进行测试。

相似文章

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。

We’re introducing three audio models in the API

YouTube AI Channels

OpenAI 在 API 中推出了三个实时音频模型,包括支持70种语言的实时翻译模型 GPT Realtime Translate 和具备推理能力的语音智能体 GPT Realtime 2,使开发者能够构建更自然的语音交互界面。

在API中引入下一代音频模型

OpenAI Blog

OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。

实时 API 介绍

OpenAI Blog

OpenAI 推出实时 API,使开发者能够构建低延迟多模态语音对话体验,由 GPT-4o 驱动的自然语音交互。该 API 支持六种预设声音,简化开发流程,无需集成多个模型。