ChatGPT 现在可以看、听和说话
摘要
OpenAI 正向 ChatGPT Plus 和企业用户推出新的语音和图像功能,使用户能够进行语音对话并分享图像,实现由 GPT-3.5/GPT-4 和自定义文本转语音模型支持的多模态交互。
暂无内容
查看缓存全文
缓存时间:
2026/04/20 14:43
# ChatGPT 现在可以看、听和说了
来源:https://openai.com/index/chatgpt-can-now-see-hear-and-speak/
我们正在 ChatGPT 中推出新的语音和图像功能。通过允许你进行语音对话或向 ChatGPT 展示你在谈论的内容,这些功能提供了一种新的、更直观的界面类型。
语音和图像为你在日常生活中使用 ChatGPT 提供了更多方式。在旅行时拍下一个地标的照片,进行现场对话讨论它的有趣之处。在家时,拍下冰箱和食品柜的照片,来确定晚餐吃什么(并提出后续问题获得分步食谱)。吃完饭后,通过拍照、圈出问题,帮助你的孩子解决数学题,它会为你们两个提供提示。
我们将在接下来的两周内向 Plus 和 Enterprise 用户推出语音和图像功能。语音将在 iOS 和 Android 上推出(在你的设置中选择加入),图像将在所有平台上可用。
你现在可以使用语音与你的助手进行来回对话。在出门时与它交谈,为你的家人请求睡前故事,或解决餐桌上的争议。
使用语音与你的助手进行来回对话。
要开始使用语音,请在移动应用上前往"设置"→"新功能",并选择加入语音对话。然后,点击位于主屏幕右上角的耳机按钮,从五种不同的语音中选择你偏好的语音。
新的语音功能由一个新的文本转语音模型提供支持,该模型能够仅从文本和几秒钟的样本语音生成类似人类的音频。我们与专业配音演员合作创建了每个语音。我们还使用 Whisper(我们的开源语音识别系统)将你的语音转录成文本。
你现在可以向 ChatGPT 展示一张或多张图像。排查烧烤架为什么无法启动,探索冰箱内容以规划膳食,或分析与工作相关数据的复杂图表。为了专注于图像的特定部分,你可以使用我们移动应用中的绘图工具。
向 ChatGPT 展示一张或多张图像。
要开始,点击照片按钮来拍摄或选择图像。如果你使用 iOS 或 Android,请先点击加号按钮。你也可以讨论多张图像或使用我们的绘图工具来指导你的助手。
图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将它们的语言推理技能应用于广泛的图像,例如照片、屏幕截图和包含文本和图像的文档。
OpenAI 的目标是构建安全且有益的 AGI。我们相信逐步提供我们的工具,这使我们能够随着时间推移改进和完善风险缓解措施,同时也为所有人准备更强大的系统。这种策略对于涉及语音和视觉的高级模型来说尤为重要。
新的语音技术能够仅从几秒钟的真实语音创建逼真的合成语音,为许多创意和无障碍应用开辟了大门。然而,这些能力也带来了新的风险,例如恶意行为者模仿公众人物或进行欺诈的可能性。
这就是为什么我们使用这项技术来支持一个特定的用例——语音聊天。语音聊天是与我们直接合作的配音演员一起创建的。我们也以类似的方式与其他人合作。例如,Spotify 正在使用这项技术的强大功能来试点他们的 Voice Translation(https://newsroom.spotify.com/2023-09-25/ai-voice-translation-pilot-lex-fridman-dax-shepard-steven-bartlett)功能,帮助播客制作者通过用播客制作者自己的声音将播客翻译成其他语言来扩大他们讲述故事的范围。
基于视觉的模型也带来了新的挑战,从关于人物的幻觉到依赖模型在高风险领域对图像的解释。在更广泛的部署之前,我们与红队测试人员在极端主义和科学能力等领域测试了该模型的风险,并与多样化的 alpha 测试人员合作。我们的研究使我们能够就负责任使用的一些关键细节达成共识。
像其他 ChatGPT 功能一样,视觉是为了在你的日常生活中帮助你。当它能看到你看到的东西时,它的效果最好。
这种方法得到了我们与 Be My Eyes(一个为盲人和低视力人士提供的免费移动应用)的合作直接指导,以了解用途和局限性。用户告诉我们,他们发现与包含后台人物的图像进行一般对话很有价值,比如在你试图找出遥控器设置时,某人出现在电视上。
我们也采取了技术措施,以显著限制 ChatGPT 分析和直接陈述人物的能力,因为 ChatGPT 并不总是准确的,这些系统应该尊重个人的隐私。
真实世界的使用和反馈将帮助我们使这些保障措施更好,同时保持该工具的实用性。
用户可能依赖 ChatGPT 来处理专门主题,例如在研究等领域。我们对模型的局限性保持透明,并劝阻没有适当验证的更高风险用例。此外,该模型在转录英文文本方面很熟练,但在某些其他语言(特别是那些使用非拉丁字母的语言)上表现不佳。我们建议我们的非英文用户不要为此目的使用 ChatGPT。
你可以在图像输入的系统卡(https://openai.com/index/gpt-4v-system-card/)中了解更多关于我们的安全方法和我们与 Be My Eyes 的合作。
Plus 和 Enterprise 用户将在接下来的两周内体验语音和图像功能。我们很高兴之后不久就向其他用户组(包括开发人员)推出这些功能。
相似文章
OpenAI Blog
# ChatGPT 插件 来源:[https://openai.com/index/chatgpt-plugins/](https://openai.com/index/chatgpt-plugins/) 当今的语言模型虽然在多种任务中很有用,但仍然存在局限性。它们只能从训练数据中学习信息,这些信息可能已经过时,并且在不同应用中是一刀切的方式。此外,语言模型开箱即用只能输出文本。这些文本可能包含有用的指令,但要实际执行这些
OpenAI Blog
# 推出 GPT-4o 及更多工具供 ChatGPT 免费用户使用 来源: [https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/](https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/) OpenAI 我们推出了最新的旗舰模型,并在 ChatGPT 中为更多功能提供免费访问。根据我们的使命,我们致力于推进人工智能技术的发展,并确保它对所有人都是可访问和有益的。今天我们推出最新的模型 GPT-4o,并将开始推出
OpenAI Blog
OpenAI 发布 GPT-5.1 Instant 和 GPT-5.1 Thinking,这是 GPT-5 系列的升级版本,具有更好的对话能力、更强的指令遵循、自适应推理和增强的语气控制。这些模型正在向 ChatGPT 用户推出,首先面向付费用户,API 将在本周晚些时候提供。
Simon Willison's Blog
ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上,知识截止日期为 2024 年 4 月,比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距,这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。
YouTube AI Channels
OpenAI 发布 ChatGPT Images 2.0,可一键生成完整视频帧,助力叙事创作。