ChatGPT 语音模式是一个较弱的模型
摘要
ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上,知识截止日期为 2024 年 4 月,比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距,这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 08:28
# ChatGPT语音模式使用的是较弱的模型
来源:https://simonwillison.net/2026/Apr/10/voice-mode-is-weaker/
2026年4月10日
很多人可能没有意识到,OpenAI的语音模式实际上运行在更旧、更弱的模型上——给人的感觉是,能与我们对话的AI应该是最智能的AI,但事实并非如此。
如果你问ChatGPT语音模式的知识截止日期,它会告诉你2024年4月——这是一个GPT-4o时代的模型。
这个想法源于Andrej Karpathy在X平台发布的一条推文(https://twitter.com/karpathy/status/2042334451611693415),其中谈到了基于人们使用模型的接入点和领域所导致的AI能力认知差距正在扩大:
> [...] 事实上,OpenAI免费的、或许可以说有些被忽视(?)的"高级语音模式"会在你的Instagram Reels里搞砸最简单的问题,而*与此同时*,OpenAI最高等级、付费的Codex模型却可以花1小时连贯地重构整个代码库,或者发现并利用计算机系统中的漏洞。后者的确有效,并且取得了显著进展,这归功于两个特性:1. 这些领域提供了可验证的明确奖励函数,也就是说它们很容易通过强化学习训练进行优化(例如单元测试是否通过,这与写作不同,写作的评判要困难得多);2. 它们在B2B场景中更有价值,意味着团队的大部分精力都集中在改进它们上。
相似文章
ChatGPT 现在可以看、听和说话
OpenAI 正向 ChatGPT Plus 和企业用户推出新的语音和图像功能,使用户能够进行语音对话并分享图像,实现由 GPT-3.5/GPT-4 和自定义文本转语音模型支持的多模态交互。
推出 ChatGPT Pro
OpenAI 推出 ChatGPT Pro,这是一个月费 $200 的订阅计划,提供对包括 o1、o1-mini、GPT-4o 和高级语音等先进模型的无限制访问,以及用于计算密集型推理任务的 o1 pro 模式。
ChatGPT声音是如何选定的
OpenAI 解释了其为ChatGPT的语音模式功能挑选五种不同声音的过程,涉及专业配音演员、选角导演以及长达五个月的筛选流程。针对“Sky”声音引发的争议,公司澄清该声音并非模仿斯嘉丽·约翰逊,且在联系她之前就已选定。
OpenAI准备用GPT-Bidi-1对ChatGPT进行重大语音升级(2分钟阅读)
OpenAI正准备发布GPT-Bidi-1,这是一个面向ChatGPT的下一代语音模型,支持双向通信、打断和句中调整,旨在缩小语音与文本能力之间的差距。
ChatGPT 介绍
OpenAI 推出 ChatGPT,这是一个基于 GPT-3.5 的对话型 AI 模型,通过人类反馈强化学习(RLHF)进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求,在研究预览期间提供免费访问。