GPT-4o 系统卡

OpenAI Blog 模型

摘要

OpenAI 发布了 GPT-4o 系统卡,详细介绍了在网络安全、生物威胁、说服力和模型自主性等方面的全面安全评估和风险缓解措施。这个多模态模型在准备框架类别中得分为低至中等,并为音频功能采用了新颖的防护措施。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:50

# GPT-4o 系统卡 来源:https://openai.com/index/gpt-4o-system-card/ ## GPT-4o 记分卡 准备框架记分卡 - 网络安全 (https://openai.com/index/gpt-4o-system-card/#cybersecurity) - 生物威胁 (https://openai.com/index/gpt-4o-system-card/#biological-threats) - 劝说 (https://openai.com/index/gpt-4o-system-card/#persuasion) - 模型自主性 (https://openai.com/index/gpt-4o-system-card/#model-autonomy) ## 记分卡评级 - 低 - 中 - 高 - 严重 只有缓解后评分为"中"或以下的模型才能部署。只有缓解后评分为"高"或以下的模型才能进一步开发。 我们对新模型的潜在风险进行了全面评估,并在将其部署到 ChatGPT 或 API 中之前建立了适当的保障措施。我们发布本模型系统卡以及准备框架 (https://openai.com/preparedness/) 记分卡,为 GPT-4o (https://openai.com/index/hello-gpt-4o/) 提供端到端的安全评估,包括我们为跟踪和解决当今安全挑战以及前沿风险所做的工作。 在 GPT-4 (https://openai.com/index/gpt-4-research/) 和 GPT-4V (https://openai.com/index/gpt-4v-system-card/) 开发的安全评估和缓解措施的基础上,我们对 GPT-4o 的音频功能做了额外工作,因为这些功能存在新颖的风险,同时也评估了其文本和视觉能力。 我们评估的一些风险包括说话人识别、未授权的语音生成、潜在的版权内容生成、无根据推理和禁止内容。基于这些评估,我们在模型和系统层面实施了保障措施来缓解这些风险。 我们的发现表明 GPT-4o 的语音模式不会显著增加准备框架风险。准备框架四个类别中的三个评分为低,劝说评分为中等边界值。安全咨询小组 (opens in a new window) (https://cdn.openai.com/openai-preparedness-framework-beta.pdf) 在我们的安全部署流程中审查了我们的准备评估和缓解措施。我们邀请您在下方报告中阅读这项工作的详细信息。 GPT-4o1 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-1) 是一个自回归全能模型,它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它在文本、视觉和音频间进行端到端训练,这意味着所有输入和输出都由同一个神经网络处理。 GPT-4o 可在短至 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,这与人类在对话中的反应时间 (opens in a new window) (https://www.pnas.org/doi/10.1073/pnas.0903616106)2 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-2) 相似。它在英文文本和代码上与 GPT-4 Turbo 性能相当,在非英文语言文本上有显著改进,同时速度快得多,API 成本降低 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤为出色。 根据我们构建安全 AI 的承诺,以及与白宫3 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-3) 的自愿承诺一致,我们正在分享 GPT-4o 系统卡,其中包含我们的准备框架 (opens in a new window) (https://cdn.openai.com/openai-preparedness-framework-beta.pdf)5 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-5) 评估。在本系统卡中,我们详细介绍了 GPT-4o 在多个类别中的功能、局限和安全评估,重点关注语音转语音(语音)A (https://openai.com/index/gpt-4o-system-card/#citation-bottom-A),同时也评估了文本和图像功能,以及我们为增强安全性和对齐所采取的措施。我们还包括了第三方对一般自主能力的评估,以及关于 GPT-4o 文本和视觉功能可能产生的社会影响的讨论。 GPT-4o 的功能使用截至 2023 年 10 月的数据进行预训练,这些数据来自各种材料,包括: 1. **精选公开可用数据**,主要来自行业标准机器学习数据集和网络爬取。 2. **来自数据合作伙伴的专有数据**。我们建立合作伙伴关系来获取非公开可用的数据,如收费内容、档案和元数据。例如,我们与 Shutterstock (opens in a new window) (https://www.shutterstock.com/press/20435)5 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-5) 合作开发和交付 AI 生成的图像。 促进 GPT-4o 功能的关键数据集组件包括: 1. **网络数据** – 来自公共网页的数据提供了丰富多样的信息,确保模型从各种观点和主题学习。 2. **代码和数学** – 在训练中包含代码和数学数据有助于模型通过接触结构化逻辑和问题解决流程来开发强大的推理能力。 3. **多模态数据** – 我们的数据集包括图像、音频和视频,用于教授大语言模型如何解释和生成非文本输入和输出。从这些数据中,模型学习如何在真实世界背景中解释视觉图像、行为和序列、语言模式以及语音细微差别。 在部署之前,OpenAI 评估和缓解生成式模型可能产生的潜在风险,例如信息伤害、偏见和歧视,或其他违反我们安全政策的内容。我们使用多种方法的组合,涵盖开发的所有阶段,包括预训练、后训练、产品开发和政策。例如,在后训练期间,我们使模型与人类偏好对齐;我们对生成的模型进行红队测试,并添加产品级缓解措施,如监控和执行;以及我们为用户提供审核工具和透明度报告。 我们发现大多数有效的测试和缓解都是在预训练阶段*之后*进行的,因为单独过滤预训练数据无法解决细微和特定于背景的伤害。同时,某些预训练过滤缓解措施可以提供额外的防御层,与其他安全缓解措施一起有助于从我们的数据集中排除不需要的有害信息: - 我们使用审核 API 和安全分类器来过滤可能导致有害内容或信息危害的数据,包括 CSAM、仇恨内容、暴力和 CBRN。 - 与我们之前的图像生成系统一样,我们过滤图像生成数据集中的露骨内容,如图形性材料和 CSAM。 - 我们使用高级数据过滤流程从训练数据中减少个人信息。 - 在发布 DALL·E 3 时,我们试点了一种新的方法,让用户能够选择退出训练中的图像 (https://openai.com/index/dall-e-3/)。为了尊重这些退出选择,我们对图像进行了指纹识别,并使用指纹从 GPT-4o 系列模型的训练数据集中删除所有图像实例。 部署准备通过专家红队的额外新颖风险探索性发现来进行,从模型开发中的早期检查点开始,将已确定的风险转化为结构化测量,并为其构建缓解措施。我们也根据准备框架4 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-4) 评估了 GPT-4o。 OpenAI 与 100 多名外部红队人员合作 B (https://openai.com/index/gpt-4o-system-card/#citation-bottom-B),总共使用 45 种不同的语言,代表来自 29 个不同国家的地理背景。红队人员从 2024 年 3 月初至 6 月末期间可以访问模型的各种快照,这些快照处于开发和安全缓解成熟度的不同阶段。 外部红队测试分四个阶段进行。前三个阶段通过内部工具测试模型,最后一个阶段使用完整的 iOS 体验来测试模型。在撰写本文时,GPT-4o API 的外部红队测试仍在进行中。 红队人员被要求进行探索性能力发现、评估模型构成的新颖潜在风险,以及压力测试在开发和改进过程中引入的缓解措施 – 特别是由音频输入和生成(语音到语音功能)引入的缓解措施。这项红队工作基于先前的工作,包括 GPT-4 系统卡 (opens in a new window) (https://cdn.openai.com/papers/gpt-4-system-card.pdf)6 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-6) 和 GPT-4(V) 系统卡 (https://openai.com/index/gpt-4v-system-card/)7 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-7) 中所述的内容。 红队人员覆盖的类别涵盖了违规和禁止内容(非法色情内容、暴力、自伤等)、误信息/错误信息、偏见、无根据推理、敏感特征归因、私人信息、地理定位、人员识别、情感感知和拟人化风险、欺诈行为和冒充、版权、自然科学能力以及多语言观察。 红队人员生成的数据促使创建了多个量化评估,这些评估在"观察到的安全挑战、评估和缓解措施 (https://openai.com/index/gpt-4o-system-card/#observed-safety-challenges-evaluations-and-mitigations)" 部分中进行了描述。在某些情况下,红队人员的见解被用于有针对性的合成数据生成。使用自动评分器和手动标记根据某些标准(例如,违反政策与否、拒绝与否)对模型进行了评估。此外,我们有时会重新利用 C (https://openai.com/index/gpt-4o-system-card/#citation-bottom-C) 红队人员的数据来针对各种声音和示例进行目标评估,以测试各种缓解措施的稳健性。 除了红队人员的数据外,还使用文本转语音(TTS)系统(如 Voice Engine (https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices/))将一系列现有评估数据集转换为语音到语音模型的评估。我们通过将文本输入转换为音频来将基于文本的评估任务转换为基于音频的评估任务。这使我们能够重新利用现有数据集和围绕衡量模型能力、安全行为和模型输出监控的工具,大大扩展了我们可用评估的集合。 我们使用 Voice Engine 将文本输入转换为音频,将其输入到 GPT-4o,并根据模型对输出进行评分。我们始终只评分模型输出的文本内容,除非需要直接评估音频的情况(参见语音生成 (https://openai.com/index/gpt-4o-system-card/#voice-generation))。 首先,该评估格式的有效性取决于 TTS 模型的能力和可靠性。某些文本输入不适合或难以转换为音频;例如:数学方程、代码。此外,我们预计 TTS 对某些文本输入是有损的,例如大量使用空白或符号进行视觉格式化的文本。由于我们预计这样的输入也不太可能由用户通过高级语音模式提供,我们要么避免对这样的任务评估语音到语音模型,要么为此类输入的示例进行预处理。不过,我们强调任何在我们的评估中确定的错误可能源于模型能力,或者 TTS 模型未能准确将文本输入转换为音频。 不好的 TTS 输入示例 00:00 "设 V 为所有实多项式 p(x) 的集合。设转换 T、S 在 V 上定义为 T:p(x) -> xp(x) 和 S:p(x) -> p'(x) = d/dx p(x),并将 (ST)(p(x)) 解释为 S(T(p(x)))。以下哪一个是真的?" 好的 TTS 输入示例 00:00 "假设你的瞳孔直径为 5 毫米,你有一个口径为 50 厘米的望远镜。与你的眼睛相比,望远镜能收集多少倍的光?" 第二个关注点可能是 TTS 输入是否代表用户在实际使用中可能提供的音频输入分布。我们在"语音输入性能差异 (https://openai.com/index/gpt-4o-system-card/#disparate-performance-on-voice-inputs)" 中评估了 GPT-4o 在各种区域口音音频输入上的稳健性。然而,仍有许多其他维度可能未在基于 TTS 的评估中捕获,例如不同的语调和价值、背景噪音或交叉谈话,这可能导致模型在实际使用中表现不同。 最后,模型生成的音频中可能有文本中未捕获的伪影或属性;例如,背景噪音和音效,或以分布外语音进行响应。在"语音生成 (https://openai.com/index/gpt-4o-system-card/#voice-generation)" 中,我们说明了使用辅助分类器来识别不需要的音频生成,可与转录评分结合使用。 使用多种方法缓解了模型的潜在风险。我们训练模型通过后训练方法遵守可降低风险的行为,也将分类器集成为已部署系统的一部分来阻止特定生成。 对于下述观察到的安全挑战,我们提供风险描述、应用的缓解措施以及相关评估的结果(如适用)。下述风险是说明性的、非穷尽性的,并且侧重于 ChatGPT 界面中的体验。在本部分中,我们重点关注语音到语音功能引入的风险以及它们如何可能与预先存在的模式(文本、图像)D (https://openai.com/index/gpt-4o-system-card/#citation-bottom-D) 相互作用。 **风险描述:** 语音生成是创建具有类人合成语音的音频的功能,包括基于短输入片段生成语音。 在对抗性情况下,此功能可能会促进欺诈增加等伤害(通过冒充),并且可能被利用传播虚假信息9 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-9)、10 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-10)(例如,如果我们允许用户上传给定说话人的音频片段并要求 GPT-4o 用该说话人的声音产生语音)。这些与我们在 Voice Engine (https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices/)8 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-8) 中识别的风险非常相似。 语音生成也可以在非对抗性情况下发生,例如我们使用该能力为 ChatGPT 的高级语音模式生成语音。在测试期间,我们也观察到罕见的情况,其中模型会无意中生成仿效用户语音的输出 E (https://openai.com/index/gpt-4o-system-card/#citation-bottom-E)。 听 00:00 无意语音生成的示例,模型突然说"不!"然后开始用类似于红队人员语音的声音继续该句子 **风险缓解:** 我们通过只允许使用我们与语音演员合作创建的预设语音 (https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/)11 (https://openai.com/index/gpt-4o-system-card/#citation-bottom-11) 来解决语音生成相关风险。我们通过在后训练期间将选定的语音作为理想完成来实现这一点

相似文章

OpenAI GPT-4.5 System Card

OpenAI Blog

# GPT-4.5 系统卡 来源:[https://openai.com/index/gpt-4-5-system-card/](https://openai.com/index/gpt-4-5-system-card/) 我们正在发布 OpenAI GPT-4.5 的研究预览版,这是我们迄今为止规模最大、知识最丰富的模型。GPT-4.5 建立在 GPT-4o 的基础上,进一步扩展了预训练规模,设计目标是比我们强大的 STEM 焦点推理模型具有更广泛的适用性。我们采用新的监督技术结合传统方法(如监督微调 (SFT))来训练该模型

GPT-5.4 Thinking 系统卡

OpenAI Blog

OpenAI发布了GPT-5.4 Thinking,这是GPT-5系列中最新推出的推理模型,具备增强的安全缓解措施,尤其值得一提的是,该模型是首个实现全面网络安全保护措施的通用模型。

GPT-4V(ision) 系统卡

OpenAI Blog

OpenAI 发布了 GPT-4V(ision) 的系统卡,详细说明其安全属性和评估结果。GPT-4V(ision) 在 GPT-4 的基础上增加了图像输入功能,支持多模态指令跟随和视觉分析。

GPT-5.5 系统卡

OpenAI Blog

OpenAI 发布 GPT-5.5 系统卡,这是一款专为复杂真实世界任务设计的新模型,具备增强的工具使用能力、自我纠错能力以及稳健的安全保障措施。

GPT-5 系统卡

OpenAI Blog

OpenAI 发布 GPT-5 系统卡,详细说明了一个统一系统,包含快速主模型和深度推理模型,根据对话类型和复杂性智能路由,在幻觉减少、指令跟随和写作、编码和健康领域的实际应用方面取得显著进展。