ChatGPT 语音模式是一个较弱的模型

Simon Willison's Blog 新闻

摘要

ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上,知识截止日期为 2024 年 4 月,比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距,这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

# ChatGPT语音模式使用的是较弱的模型 来源:https://simonwillison.net/2026/Apr/10/voice-mode-is-weaker/ 2026年4月10日 很多人可能没有意识到,OpenAI的语音模式实际上运行在更旧、更弱的模型上——给人的感觉是,能与我们对话的AI应该是最智能的AI,但事实并非如此。 如果你问ChatGPT语音模式的知识截止日期,它会告诉你2024年4月——这是一个GPT-4o时代的模型。 这个想法源于Andrej Karpathy在X平台发布的一条推文(https://twitter.com/karpathy/status/2042334451611693415),其中谈到了基于人们使用模型的接入点和领域所导致的AI能力认知差距正在扩大: > [...] 事实上,OpenAI免费的、或许可以说有些被忽视(?)的"高级语音模式"会在你的Instagram Reels里搞砸最简单的问题,而*与此同时*,OpenAI最高等级、付费的Codex模型却可以花1小时连贯地重构整个代码库,或者发现并利用计算机系统中的漏洞。后者的确有效,并且取得了显著进展,这归功于两个特性:1. 这些领域提供了可验证的明确奖励函数,也就是说它们很容易通过强化学习训练进行优化(例如单元测试是否通过,这与写作不同,写作的评判要困难得多);2. 它们在B2B场景中更有价值,意味着团队的大部分精力都集中在改进它们上。

相似文章

ChatGPT 现在可以看、听和说话

OpenAI Blog

OpenAI 正向 ChatGPT Plus 和企业用户推出新的语音和图像功能,使用户能够进行语音对话并分享图像,实现由 GPT-3.5/GPT-4 和自定义文本转语音模型支持的多模态交互。

推出 ChatGPT Pro

OpenAI Blog

OpenAI 推出 ChatGPT Pro,这是一个月费 $200 的订阅计划,提供对包括 o1、o1-mini、GPT-4o 和高级语音等先进模型的无限制访问,以及用于计算密集型推理任务的 o1 pro 模式。

ChatGPT声音是如何选定的

OpenAI Blog

OpenAI 解释了其为ChatGPT的语音模式功能挑选五种不同声音的过程,涉及专业配音演员、选角导演以及长达五个月的筛选流程。针对“Sky”声音引发的争议,公司澄清该声音并非模仿斯嘉丽·约翰逊,且在联系她之前就已选定。

ChatGPT 介绍

OpenAI Blog

OpenAI 推出 ChatGPT,这是一个基于 GPT-3.5 的对话型 AI 模型,通过人类反馈强化学习(RLHF)进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求,在研究预览期间提供免费访问。