在API中引入下一代音频模型

OpenAI Blog 模型

摘要

OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。

开发者首次可以指示文本转语音模型以特定方式说话——例如,“像富有同理心的客服人员一样说话”——为语音代理解锁了全新层级的定制能力。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:54

# 在 API 中引入下一代音频模型 来源:https://openai.com/index/introducing-our-next-generation-audio-models/ 一套全新的音频模型,用于赋能语音智能体,现已面向全球开发者开放。 *更新于 2025 年 8 月 28 日:我们宣布了 Realtime API 的正式可用性。*点击此处了解更多* (https://openai.com/index/introducing-gpt-realtime/) *。 --- 过去几个月里,我们通过 Operator、Deep Research、Computer-Using Agent 以及带有内置工具的 Responses API 等产品,持续投入提升基于文本的智能体(即能够自主代表用户完成任务的系统)的智能水平、能力和实用性。然而,为了让智能体真正有用,人们需要能够与智能体进行更深入、更直观的互动——不仅是文本,还要能使用自然的口语进行有效沟通。 今天,我们在 API 中推出了全新的语音转文本和文本转语音音频模型——这使得开发者可以构建更强大、更可定制、更智能的语音智能体,从而提供真正的价值。我们最新的语音转文本模型树立了新的行业基准,在准确性和可靠性上优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速等具有挑战性的场景中。这些改进提升了转录的可靠性,使模型特别适用于客户呼叫中心、会议记录转录等用例。 此外,开发者首次能够指示文本转语音模型以特定的方式说话——例如,“像一位富有同情心的客服代表那样说话”——为语音智能体开启了前所未有的定制化水平。这使得一系列量身定制的应用成为可能,从更具同理心和动态的客服语音,到用于创意叙事体验的表现力丰富的旁白。 我们于 2022 年 (https://openai.com/index/whisper/) 推出了第一款音频模型,此后一直致力于提升这些模型的智能水平、准确性和可靠性。借助这些全新的音频模型,开发者可以在 API 内构建更准确、更稳健的语音转文本系统,以及更具表现力、更有特色的文本转语音声音。 我们推出了新的 `gpt-4o-transcribe` 和 `gpt-4o-mini-transcribe` 模型,与原始的 Whisper 模型相比,词错误率更低,语言识别能力和准确性更强。 `gpt-4o-transcribe` 在多个既定基准测试中,其词错误率(WER)表现优于现有的 Whisper 模型,这反映了我们语音转文本技术取得的重大进步。这些进步直接源于在强化学习方面的针对性创新,以及利用多样化、高质量音频数据集进行的大规模中间训练。 因此,这些新的语音转文本模型能够更好地捕捉语音中的细微差别,减少识别错误,并提高转录的可靠性,尤其是在涉及口音、嘈杂环境和不同语速等具有挑战性的场景中。这些模型现已在语音转文本 API (opens in a new window) (https://platform.openai.com/docs/guides/speech-to-text) 中提供。 *词错误率(WER)通过计算与参考转录文本相比被错误转录的单词百分比来衡量语音识别模型的准确性——WER 越低越好,意味着错误更少。我们最新的语音转文本模型在多项基准测试中实现了更低的 WER,包括 FLEURS(语音通用表示的少样本学习评估)——这是一个涵盖 100 多种语言的多语言语音基准测试,使用手动转录的音频样本。这些结果展示了更强的转录准确性和更鲁棒的语言覆盖能力。如图所示,我们的模型在所有语言评估中始终优于 Whisper v2 和 Whisper v3。* *在 FLEURS 上,我们的模型实现了更低的 WER 和强大的多语言性能。WER 越低越好,意味着错误更少。如图所示,我们的模型在大多数主要语言上匹配或优于其他领先模型。* 我们还推出了一个新的 `gpt-4o-mini-tts` 模型,具有更好的可引导性。开发者首次能够“指示”模型不仅说什么,而且*如何*说——从而为从客服到创意叙事等各类用例实现更定制化的体验。该模型现已在文本转语音 API (opens in a new window) (https://platform.openai.com/docs/guides/text-to-speech) 中提供。请注意,这些文本转语音模型仅限于人工预设的声音,我们会对其进行监控,以确保它们始终与合成预设保持一致。 我们的新音频模型基于 GPT-4o 和 GPT-4o-mini 架构,并在专门的以音频为中心的数据集上进行了大规模预训练,这对于优化模型性能至关重要。这种有针对性的方法能够更深入地洞察语音细微之处,并在音频相关任务中实现卓越的性能。 我们改进了蒸馏技术,实现了从我们最大的音频模型到更小、更高效模型的知识迁移。利用先进的自对弈方法,我们的蒸馏数据集有效捕捉了真实的对话动态,复现了真实的用户-助手交互。这有助于我们的小型模型提供出色的对话质量和响应能力。 对于我们的语音转文本模型,我们整合了以强化学习(RL)为主的范式,将转录准确性推向了最先进的水平。这种方法显著提高了精度并减少了幻觉,使我们语音转文本解决方案在复杂的语音识别场景中极具竞争力。 这些发展代表了音频建模领域的进步,将创新方法与实际增强相结合,提升了语音应用的性能。 这些新的音频模型现已面向所有开发者开放——更多关于使用音频构建的信息,请点击此处 (opens in a new window) (https://platform.openai.com/docs/guides/audio)。对于已经使用基于文本的模型构建对话体验的开发者来说,添加我们的语音转文本和文本转语音模型是构建语音智能体的最简单方法。我们发布了与 Agents SDK (opens in a new window) (https://openai.github.io/openai-agents-python/voice/quickstart/) 的集成,以简化这一开发过程。对于希望构建低延迟语音到语音体验的开发者,我们建议使用 Realtime API 中的语音转语音模型进行构建。 展望未来,我们计划继续投资提升音频模型的智能水平和准确性,并探索如何在符合我们安全标准的前提下,允许开发者带入自己的自定义声音,从而构建更加个性化的体验。此外,我们持续 (https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices/) 与政策制定者、研究人员、开发者和创意工作者就合成语音带来的挑战和机遇进行对话。我们非常期待看到开发者利用这些增强的音频能力构建出创新且富有创意的应用。我们还将在包括视频在内的其他模态上继续投入,以赋能开发者构建多模态的智能体体验。

相似文章

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。

We’re introducing three audio models in the API

YouTube AI Channels

OpenAI 在 API 中推出了三个实时音频模型,包括支持70种语言的实时翻译模型 GPT Realtime Translate 和具备推理能力的语音智能体 GPT Realtime 2,使开发者能够构建更自然的语音交互界面。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。

Hello GPT-4o

OpenAI Blog

OpenAI发布GPT-4o,一个功能全面的多模态模型,可实时处理音频、视觉、文本和视频,平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当,同时显著改进了多语言、音频和视觉功能,API成本降低50%。