OpenAI准备用GPT-Bidi-1对ChatGPT进行重大语音升级(2分钟阅读)

TLDR AI 模型

摘要

OpenAI正准备发布GPT-Bidi-1,这是一个面向ChatGPT的下一代语音模型,支持双向通信、打断和句中调整,旨在缩小语音与文本能力之间的差距。

GPT-Bidi-1是一个用于ChatGPT语音模式的双向音频模型,设计为能够同时听和说,吸收打断,并在句中调整。
查看原文
查看缓存全文

缓存时间: 2026/06/18 00:54

# OpenAI 正通过 GPT-Bidi-1 为 ChatGPT 准备重大语音升级 来源:https://www.testingcatalog.com/openai-prepares-major-chatgpt-voice-upgrade-with-gpt-bidi-1/ Google 优选来源 (https://google.com/preferences/source?q=testingcatalog.com) OpenAI 似乎即将为 ChatGPT 的语音模式带来数月来最大的一次升级,其正在准备一款暂定名为 GPT-Bidi-1 的下一代音频模型。这个名称指向了该公司自今年年初以来一直在构建的双向(即“BiDi”)架构——一种能够同时听和说、吸收打断,并在用户说出“嗯哼”时即时调整而非僵住不动的模型。目前该模型的迹象已遍及网页端和移动端,表明面向消费者的发布已近在咫尺,不过最终名称可能会在发布前有所调整。 > — M1 (@M1Astra) > 2026年6月16日 (https://x.com/M1Astra/status/2067017773528617041?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 更宽泛的意义不在于语音质量本身,而在于 OpenAI 让一个差距持续扩大。它的文本模型已飞速推进到 GPT-5.5 代,而语音却仍停留在较旧的音频栈上,导致语音对话比同一个助手在文字任务中的表现要慢半拍。对于一家赌定语音而非文字将成为人类接触 AI 主要方式的公司来说,弥合这一差距至关重要——这也是其计划中的音频优先硬件和基于语音的支持工具背后的赌注。GPT-Bidi-1 正是围绕这一点构建的,它不仅承诺更流畅的交互,还号称有推理能力的重大飞跃。 > 🚨 OpenAI 计划很快发布 GPT-Bidi-1 > 他们的下一代语音模型,用于更自然的对话 > [模型最终名称可能更改] > 感谢 @M1Astra (https://x.com/M1Astra?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 通过 DevMode > pic.twitter.com/brmD8bUgqb (https://t.co/brmD8bUgqb?ref_src=twsrc%5Etfw&ref=testingcatalog.com) > — Chetaslua (@chetaslua) > 2026年6月16日 (https://x.com/chetaslua/status/2066917089504526658?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 该功能的轮廓逐渐清晰。ChatGPT (https://www.testingcatalog.com/tag/chatgpt/) 用户很可能保留现有设置:在全新的“Bidi(最新)”模式和当前高级语音模式之间切换,而不是直接全面迁移。更具指示性的是智能级别的选择:高、中、即时——这与文本侧已有的层级相对应,让用户可以根据任务在速度与深度之间取舍。最近一个允许语音气泡拖到屏幕中央的改动,看起来正是同一重新设计的早期组成部分。 在发布时间上需保持谨慎。这一升级究竟是本周开始还是更晚仍不明朗,但基础工作显然已在铺垫之中。

相似文章

ChatGPT 现在可以看、听和说话

OpenAI Blog

OpenAI 正向 ChatGPT Plus 和企业用户推出新的语音和图像功能,使用户能够进行语音对话并分享图像,实现由 GPT-3.5/GPT-4 和自定义文本转语音模型支持的多模态交互。