ChatGPT声音是如何选定的

OpenAI Blog 新闻

摘要

OpenAI 解释了其为ChatGPT的语音模式功能挑选五种不同声音的过程,涉及专业配音演员、选角导演以及长达五个月的筛选流程。针对“Sky”声音引发的争议,公司澄清该声音并非模仿斯嘉丽·约翰逊,且在联系她之前就已选定。

ChatGPT声音是如何选定的 我们与行业顶尖的选角与导演专业人士合作,从超过400份投稿中筛选,最终选定了5种声音。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:47

# ChatGPT 语音配音的选拔过程 来源:https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/ OpenAI*2024年5月22日更新:我们想提供更多关于时间线的信息,因此补充了额外的里程碑和日期,包括Sam首次联系Johansson女士。* *我们的CEO Sam Altman于2024年5月20日声明:“Sky的语音并非Scarlett Johansson的声音,也从未有意模仿她。我们在联系Johansson女士之前就已选定了Sky的配音演员。出于对Johansson女士的尊重,我们已暂停在产品中使用Sky的语音。对于沟通不畅,我们向Johansson女士致歉。”* 语音模式(Voice Mode)是ChatGPT最受欢迎的功能之一。您听到的五种独特声音,都经过了长达五个月的严格筛选过程,涉及专业配音演员、经纪公司、选角导演和行业顾问。我们在此分享更多关于声音选拔的细节。 2023年9月,我们推出了语音功能(https://openai.com/index/chatgpt-can-now-see-hear-and-speak/),为用户提供另一种与ChatGPT交互的方式。自那以后,用户对该功能及每种声音的反馈让我们备受鼓舞。五种声音——Breeze、Cove、Ember、Juniper和Sky——均来自我们合作的配音演员。 我们支持创意社区,并与配音行业紧密合作,确保以正确的方式为ChatGPT选拔声音。每位演员获得高于市场最高水平的报酬,并且只要他们的声音被用于我们的产品,这一待遇将持续。 我们相信,AI语音不应故意模仿名人的独特声音——Sky的语音并非模仿Scarlett Johansson,而是属于另一位职业演员使用其自然的说话声音。为保护他们的隐私,我们无法公开配音演员的姓名。 2023年初,为了确定配音演员,我们荣幸地与独立、知名、屡获殊荣的选角导演和制片人合作。我们共同为ChatGPT的声音制定了一套标准,仔细考虑了每种声音的独特个性及其对全球用户的吸引力。 这些特征包括: - 来自多元背景或能说多种语言的演员 - 一种感觉永恒的声音 - 一种让人感到亲切、激发信任的声音 - 温暖、迷人、自信、富有魅力、音色丰富的声音 - 自然且易于聆听 *2023年5月10日*,选角机构与我们的选角导演发布了人才招募。不到一周,他们就收到了来自配音和影视演员的超过400份申请。试镜时,演员们获得了一份ChatGPT回答的脚本,并被要求录制样本。这些样本涵盖了从回答正念问题到规划旅行计划,甚至包括与用户聊日常的话题。 整个2023年5月,选角团队独立审查并手动筛选出14位演员的初步名单。他们在进一步优化后,向OpenAI提交了该项目的首选声音。 我们与每位演员讨论了人机语音交互的愿景、OpenAI的理念,以及技术的功能、局限、相关风险和我们已实施的安全措施。确保每位演员在参与项目前理解语音模式的范围和意图,对我们至关重要。 OpenAI内部团队从产品和研究角度评估了这些声音。经过慎重考虑,最终选定了Breeze、Cove、Ember、Juniper和Sky的声音。 2023年6月至7月,我们将演员们请到旧金山,进行录音并与OpenAI产品及研究团队面对面交流。 *2023年9月11日,Sam与Johansson女士及其团队通话,讨论她作为ChatGPT第六位配音演员的可能性(与包括Sky在内的其他五位声音一起)。一周后,她通过经纪人婉拒了这一机会。* 2023年9月25日(https://openai.com/index/chatgpt-can-now-see-hear-and-speak/),我们将这些声音引入了ChatGPT。 整个过程涉及与演员和选角团队的广泛协调,历时五个月。我们继续与这些演员合作,他们为GPT-4o的音频研究和新语音功能贡献了额外的工作。 *2024年5月10日,Sam联系了Johansson女士的团队,告知他们我们即将推出GPT-4o,并询问她是否愿意重新考虑作为ChatGPT未来的额外声音加入。* *2024年5月13日,我们推出了GPT-4o。* 我们计划在未来几周内向ChatGPT Plus用户提供GPT-4o新语音模式(在新窗口中打开)(https://youtu.be/1uM8jhcqDP0?si=NdHwU5nuIMn2MH-Z)的alpha版本。通过GPT-4o(https://openai.com/index/hello-gpt-4o/),用声音与ChatGPT互动变得更加自然。GPT-4o能平滑处理打断,有效管理群组对话,过滤背景噪音,并适应语调。 *自2024年5月15日起,我们一直与Johansson女士的团队沟通,讨论她对Sky的担忧。出于对她的尊重,我们已于2024年5月19日起暂停在产品中使用Sky。* 展望未来,您可以期待更多选择——我们计划在ChatGPT中引入更多语音,以更好地满足用户多样化的兴趣和偏好。

相似文章

ChatGPT 语音模式是一个较弱的模型

Simon Willison's Blog

ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上,知识截止日期为 2024 年 4 月,比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距,这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。

ChatGPT 现在可以看、听和说话

OpenAI Blog

OpenAI 正向 ChatGPT Plus 和企业用户推出新的语音和图像功能,使用户能够进行语音对话并分享图像,实现由 GPT-3.5/GPT-4 和自定义文本转语音模型支持的多模态交互。

ChatGPT 介绍

OpenAI Blog

OpenAI 推出 ChatGPT,这是一个基于 GPT-3.5 的对话型 AI 模型,通过人类反馈强化学习(RLHF)进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求,在研究预览期间提供免费访问。

深入探讨 Voice Engine 的工作原理和我们的安全研究

OpenAI Blog

OpenAI 详细介绍了 Voice Engine 的开发历史和安全方法,从 2022 年的内部测试到包括 ChatGPT 语音模式和 TTS API 在内的各种有限部署,强调了与专业配音演员的谨慎推出和与政策制定者的持续合作,以应对合成语音风险。

推出 ChatGPT Pro

OpenAI Blog

OpenAI 推出 ChatGPT Pro,这是一个月费 $200 的订阅计划,提供对包括 o1、o1-mini、GPT-4o 和高级语音等先进模型的无限制访问,以及用于计算密集型推理任务的 o1 pro 模式。