OpenAI 准备在 ChatGPT 上推出双向语音模式(2 分钟阅读)

TLDR AI 模型

摘要

OpenAI 正在为 ChatGPT 推出新的双向语音模型(Bidi 1),该模型支持同时说话、听到和聆听,实时翻译,以及改进的对话上下文处理。升级已在部分用户的网页界面和应用程序中出现,预计很快会广泛发布。

OpenAI 已开始为 ChatGPT 推出双向语音模式。该公司的新音频生成模型 Bidi 1 让助手能够同时说话、听到和聆听。它能够保持整个对话的脉络,并在被打断时实时切换任务。该模型可以唱歌和 beatbox,但有一些严格的版权限制。OpenAI 尚未就该模型发布正式公告,但一些用户已经在其模型选择器中看到它。
查看原文
查看缓存全文

缓存时间: 2026/06/24 13:43

# OpenAI 准备为 ChatGPT 推出双向语音模式 来源:https://www.testingcatalog.com/openai-prepares-bidirectional-voice-mode-for-rollout-on-chatgpt/ Google 优选来源 (https://google.com/preferences/source?q=testingcatalog.com) OpenAI 似乎即将为 ChatGPT 的语音模式带来数月以来最大的一次升级——一款下一代音频模型已以 **Bidi 1** (https://www.testingcatalog.com/openai-prepares-major-chatgpt-voice-upgrade-with-gpt-bidi-1/) 的名字浮出水面,这个简称代表其双向设计,让助手能够同时说话、听见和聆听。相关引用已出现在 ChatGPT 网页界面中,预示着可能于本周发布,并且该功能已开始在应用内向部分用户推送。 > 🔥 重磅消息:OpenAI 即将推出的双向语音模型 "Bidi 1" 首次测试。本次升级将登陆 ChatGPT,并且可能很快也会出现在 Codex 中。 > Bidi 1 可以在你说话时插话,同时保持持续聆听。 > Bidi 1 可以在任务之间来回切换……https://t.co/BwWhCKx3G0?ref=testingcatalog.compic.twitter.com/Fawc74kBym (https://t.co/Fawc74kBym?ref=testingcatalog.com) > — 🚨 AI 新闻 | TestingCatalog (@testingcatalog) > 2026年6月23日 (https://x.com/testingcatalog/status/2069331697615749530?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 在我们早期的测试中,与当前高级语音模式的差距一目了然。Bidi 1 位于设置中的模型选择器内,与标准版和高级版并列,选择后语音气泡会变为黄色。当你停顿或放慢语速时,它会给出轻微自然的回应——一个“好的”或简短点头——而不会打断你。它还能即时切换任务:比如让它从一数到十,然后中途打断要求倒着数,它会立刻调整。 > OPENAI 🔥:即将推出的 Bidi 1 语音模型将支持实时翻译!这将解锁大量应用场景,待其登陆 API 后,可在其上构建丰富功能。 > pic.twitter.com/95sRnSzJfs (https://t.co/95sRnSzJfs?ref=testingcatalog.com) > — 🚨 AI 新闻 | TestingCatalog (@testingcatalog) > 2026年6月23日 (https://x.com/testingcatalog/status/2069351216648204757?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 更实用的是,它能够保持整段对话的连贯性,而不会丢失之前的上下文——这是当前语音栈长期存在的短板。同时,在较长的停顿期间,它也不会再突然插话。 ChatGPT 创造性的行为模式延续了首次高级语音发布时的特点,包括唱歌和 beatbox,不过版权处理更加严格:它直接拒绝演唱流行歌曲,但仍会尝试以所选艺人的风格创作原创作品。 此举可以看作是 **OpenAI** (https://www.testingcatalog.com/tag/chatgpt/) 在缩小其强大文本模型与较旧语音层之间的差距,将对话视为通向 ChatGPT 的核心路径。该公司尚未正式宣布。预计将在网页端和移动端逐步推出,采用选择加入方式,欧洲经济区可能需等待更长时间(尚未确认)。在此次发布之后的数周内,Codex 似乎也将获得独立的语音升级,而 API 访问权限可能更晚提供(时间表未确认)。

相似文章

ChatGPT 现在可以看、听和说话

OpenAI Blog

OpenAI 正向 ChatGPT Plus 和企业用户推出新的语音和图像功能,使用户能够进行语音对话并分享图像,实现由 GPT-3.5/GPT-4 和自定义文本转语音模型支持的多模态交互。

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。