OpenAI准备用GPT-Bidi-1对ChatGPT进行重大语音升级（2分钟阅读）

TLDR AI 2026/06/17 00:00 模型

openai chatgpt voice-mode audio-model gpt-bidi-1 ai-update natural-language

摘要

OpenAI正准备发布GPT-Bidi-1，这是一个面向ChatGPT的下一代语音模型，支持双向通信、打断和句中调整，旨在缩小语音与文本能力之间的差距。

GPT-Bidi-1是一个用于ChatGPT语音模式的双向音频模型，设计为能够同时听和说，吸收打断，并在句中调整。

查看原文

查看缓存全文

缓存时间: 2026/06/18 00:54

# OpenAI 正通过 GPT-Bidi-1 为 ChatGPT 准备重大语音升级来源：https://www.testingcatalog.com/openai-prepares-major-chatgpt-voice-upgrade-with-gpt-bidi-1/ Google 优选来源 (https://google.com/preferences/source?q=testingcatalog.com) OpenAI 似乎即将为 ChatGPT 的语音模式带来数月来最大的一次升级，其正在准备一款暂定名为 GPT-Bidi-1 的下一代音频模型。这个名称指向了该公司自今年年初以来一直在构建的双向（即“BiDi”）架构——一种能够同时听和说、吸收打断，并在用户说出“嗯哼”时即时调整而非僵住不动的模型。目前该模型的迹象已遍及网页端和移动端，表明面向消费者的发布已近在咫尺，不过最终名称可能会在发布前有所调整。 > — M1 (@M1Astra) > 2026年6月16日 (https://x.com/M1Astra/status/2067017773528617041?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 更宽泛的意义不在于语音质量本身，而在于 OpenAI 让一个差距持续扩大。它的文本模型已飞速推进到 GPT-5.5 代，而语音却仍停留在较旧的音频栈上，导致语音对话比同一个助手在文字任务中的表现要慢半拍。对于一家赌定语音而非文字将成为人类接触 AI 主要方式的公司来说，弥合这一差距至关重要——这也是其计划中的音频优先硬件和基于语音的支持工具背后的赌注。GPT-Bidi-1 正是围绕这一点构建的，它不仅承诺更流畅的交互，还号称有推理能力的重大飞跃。 > 🚨 OpenAI 计划很快发布 GPT-Bidi-1 > 他们的下一代语音模型，用于更自然的对话 > [模型最终名称可能更改] > 感谢 @M1Astra (https://x.com/M1Astra?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 通过 DevMode > pic.twitter.com/brmD8bUgqb (https://t.co/brmD8bUgqb?ref_src=twsrc%5Etfw&ref=testingcatalog.com) > — Chetaslua (@chetaslua) > 2026年6月16日 (https://x.com/chetaslua/status/2066917089504526658?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 该功能的轮廓逐渐清晰。ChatGPT (https://www.testingcatalog.com/tag/chatgpt/) 用户很可能保留现有设置：在全新的“Bidi（最新）”模式和当前高级语音模式之间切换，而不是直接全面迁移。更具指示性的是智能级别的选择：高、中、即时——这与文本侧已有的层级相对应，让用户可以根据任务在速度与深度之间取舍。最近一个允许语音气泡拖到屏幕中央的改动，看起来正是同一重新设计的早期组成部分。在发布时间上需保持谨慎。这一升级究竟是本周开始还是更晚仍不明朗，但基础工作显然已在铺垫之中。

OpenAI准备用GPT-Bidi-1对ChatGPT进行重大语音升级（2分钟阅读）

相似文章

OpenAI 准备在 ChatGPT 上推出双向语音模式（2 分钟阅读）

OpenAI计划发布GPT-Bidi-1，其下一代语音模型

据称是即将推出的GPT双向语音模型的一个示例

ChatGPT 现在可以看、听和说话

据报道，OpenAI 将对 ChatGPT 进行重大改版（2分钟阅读）

提交意见反馈