Sora 系统卡

OpenAI Blog 2024/12/09 00:00 产品

摘要

OpenAI 发布 Sora 系统卡，详细说明了其文本生成视频模型 Sora 的安全防护措施和红队测试工作。Sora 能生成最高 1080p、时长 20 秒的视频。该文档介绍了预训练过滤、在 9 个国家进行的外部红队测试（测试超 15,000 代视频）以及防止人物肖像滥用和误导性内容的防护措施。

Sora 是 OpenAI 的视频生成模型，能够接收文本、图像和视频输入，生成新的视频输出。Sora 借鉴了 DALL-E 和 GPT 模型的经验，旨在为人们提供扩展的故事叙述和创意表达工具。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:47

# Sora 系统卡来源：https://openai.com/index/sora-system-card/ Sora 是 OpenAI 的视频生成模型，设计用于接收文本、图像和视频输入，并生成新视频作为输出。用户可以创建高达 1080p 分辨率（最长 20 秒）的各种格式视频、从文本生成新内容，或增强、混音和混合自己的素材。用户可以浏览展示社区创作的"精选"和"最近"动态，获取新创意灵感。Sora 基于 DALL·E 和 GPT 模型的学习成果构建，旨在为人们提供扩展的叙事和创意表达工具。 Sora 是一个扩散模型，通过从看起来像静态噪声的基础视频开始，然后经过多个步骤逐步去除噪声来生成视频。通过让模型同时预见多个帧，我们解决了一个具有挑战性的问题：确保物体即使暂时离开视图也能保持一致。与 GPT 模型类似，Sora 采用 Transformer 架构，实现了卓越的扩展性能。 Sora 使用了 DALL·E 3 的重新标题技术，这涉及为视觉训练数据生成高度描述性的标题。因此，该模型能够更忠实地遵循用户在生成视频中的文本指令。除了能够仅从文本指令生成视频外，该模型还可以接受现有的静止图像并从中生成视频，以准确性和对细节的关注为图像内容制作动画。该模型还可以接受现有视频并扩展或填补缺失的帧。Sora 是能够理解和模拟真实世界的模型的基础，我们相信这种能力将是实现 AGI 的重要里程碑。 Sora 的能力也可能引入新型风险，例如滥用相似性或生成误导性或露骨视频内容的可能性。为了安全地在产品中部署 Sora，我们基于 DALL·E 在 ChatGPT 中部署的安全工作经验，以及 ChatGPT 等其他 OpenAI 产品的 API 和安全缓解措施。本系统卡概述了由此产生的缓解措施堆栈、外部红队测试工作、评估和正在进行的研究，以进一步完善这些保障措施。除了在预训练阶段之后实施的缓解措施外，预训练过滤缓解措施可以提供额外的防御层，与其他安全缓解措施一起，有助于从数据集中排除不需要的和有害的数据。在训练前，所有数据集都要经历此过滤过程，删除最明确、暴力或其他敏感内容（例如某些仇恨符号），这是我们用于过滤其他模型（包括 DALL·E 2 和 DALL·E 3）训练数据的方法的扩展。 OpenAI 与来自九个不同国家的外部红队合作测试 Sora，识别安全缓解措施中的漏洞，并对与 Sora 新产品能力相关的风险提供反馈。红队从 9 月开始获得 Sora 产品的访问权限，并持续到 2024 年 12 月，在各种安全缓解措施和系统成熟度的迭代版本下进行测试，测试超过 15,000 次生成。此红队测试工作基于 2024 年初进行的工作，当时测试了没有生产缓解措施的 Sora 模型。红队探索了 Sora 模型和产品工具的新型潜在风险，并测试了正在开发和改进的安全缓解措施。这些红队活动涵盖了各种类型的违规和禁止的内容（色情和淫秽内容、暴力和血腥、自残、非法内容、虚假信息/错误信息等）、规避安全缓解措施的对抗战术（提示词和工具/功能使用），以及这些工具如何被利用以逐步削弱调节工具和保障措施。红队还就他们对 Sora 的看法提供了反馈，包括偏见和总体性能等方面。我们使用直接提示词和对抗性提示词战术在上述所有内容类别中探索文本到视频的生成。媒体上传功能通过多种图像和视频进行了测试，包括公众人物，以及各种内容类别以测试生成违规内容的能力。我们还测试了修改工具的各种使用和组合（故事板、重新剪辑、混音和混合）以评估其生成禁止内容的效用。红队为特定类型的禁止内容和一般对抗战术确定了值得注意的观察。例如，红队发现使用带有医疗情况或科幻/奇幻背景的文本提示会削弱针对生成色情和性内容的保障措施，直到构建了额外的缓解措施。红队使用对抗战术来规避安全堆栈的各个元素，包括暗示性提示和使用隐喻来利用模型的推理能力。经过多次尝试，他们能够识别会触发保障措施的提示词和词语的趋势，并测试不同的措辞和词语以规避拒绝。红队最终会选择最令人担忧的生成内容作为种子媒体，进一步开发成无法通过单一提示词技术创建的违规内容。越狱技术有时被证明能够有效地削弱安全政策，这也使我们能够进一步改进这些保护措施。红队还测试了媒体上传和 Sora 的工具（故事板、重新剪辑、混音和混合），采用了公开可用的图像和由人工智能生成的媒体。这揭示了输入和输出过滤中的漏洞，需要在 Sora 发布前加强，并帮助改进了包括涉及人员的媒体上传的保护。测试还显示了需要更强大的分类器过滤，以减轻非违规媒体上传被修改为禁止色情、暴力或深度伪造内容的风险。红队生成的反馈和数据使得创建了额外的安全缓解层和改进现有安全评估成为可能，这些在"特定风险领域和缓解措施"部分中有所描述。这些努力使我们能够进一步调整提示词过滤、黑名单和分类器阈值，确保模型遵守安全目标。准备框架旨在评估前沿模型能力是否在四个跟踪类别中引入重大风险：说服力、网络安全、CBRN（化学、生物、放射性和核）和模型自主性。我们没有证据表明 Sora 在网络安全、CBRN 或模型自主性方面存在任何重大风险。这些风险与与计算机系统交互、科学知识或自主决策相关的模型密切相关，这些目前都超出了 Sora 作为视频生成工具的范围。 Sora 的视频生成能力可能会带来说服力方面的潜在风险，例如冒充、错误信息或社会工程风险。为了解决这些风险，我们开发了一套缓解措施，详见下面各部分。这些措施包括旨在防止生成知名公众人物相似性的缓解措施。此外，考虑到背景和知道视频是真实还是由人工智能生成的知识可能是决定生成视频有多有说服力的关键，我们专注于构建多层来源方法，包括元数据、水印和指纹。下面我们详细介绍了在向用户显示其请求的输出之前的主要安全缓解形式： **通过多模态审核分类器进行文本和图像审核** 我们的多模态审核分类器由我们外部审核 API 提供支持，可用于识别可能违反我们使用政策的文本、图像或视频提示，包括输入和输出。被系统检测到的违规提示词将导致拒绝。了解更多关于我们的多模态审核 API 的信息，请访问 https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/。 **自定义 LLM 过滤** 视频生成技术的一个优点是能够执行异步审核检查，而不会增加整体用户体验的延迟。由于视频生成本质上需要几秒钟的处理时间，这个时间窗口可以用来运行精准目标的审核检查。我们已经定制了自己的 GPT，在某些特定主题的审核中实现了高精度，包括识别第三方内容以及欺骗性内容。过滤器是多模态的：图像/视频上传、文本提示词和输出都包含在每个 LLM 调用的背景中。这使我们能够检测到跨越图像和文本的违规组合。 **图像输出分类器** 为了直接解决输出中可能有害的内容，Sora 使用输出分类器，包括针对 NSFW 内容、未成年人、暴力和潜在冒充的专门过滤。如果这些分类器被激活，Sora 可能会在与用户共享之前阻止视频。 **黑名单** 我们维护多个类别的文本黑名单，基于我们之前在 DALL·E 2 和 DALL·E 3 上的工作、主动风险发现以及早期用户的结果。 OpenAI 致力于解决儿童安全风险，我们优先预防、检测和举报儿童性虐待材料（CSAM）内容，包括在 Sora 等所有产品中。OpenAI 在儿童安全领域的工作包括负责任地获取我们的数据集以保护其免受 CSAM、与国家失踪与被剥削儿童中心 (NCMEC) 合作以预防儿童性虐待并保护儿童、按照 Thorn 的建议进行红队测试并遵守法律限制，以及对所有输入和输出进行强大的 CSAM 扫描。这包括扫描第一方和第三方用户（API 和企业），除非客户符合删除 CSAM 扫描的严格标准。为了防止生成 CSAM，我们建立了强大的安全堆栈，利用我们在 ChatGPT 和 DALL·E 等其他产品中使用的系统缓解措施，以及一些我们为 Sora 专门构建的额外措施。 **输入分类器** 对于儿童安全，我们在文本、图像和视频输入中利用 3 种不同的输入缓解措施： - 对于所有图像和视频上传，我们与由 Thorn 开发的 Safer 集成，以检测与已知 CSAM 的匹配。确认的匹配项被拒绝并报告给 NCMEC。此外，我们利用 Thorn 的 CSAM 分类器来识别潜在的新的、未哈希的 CSAM 内容。 - 我们利用多模态审核分类器通过文本、图像和视频输入检测和审核涉及未成年人的任何性内容。 - 对于 Sora，我们开发了一个分类器来分析文本和图像，以预测是否描绘了 18 岁以下的个人或附带的标题是否提及未成年人。我们拒绝包含 18 岁以下个人的图像到视频请求。如果文本到视频被确定为 18 岁以下，我们对与性、暴力或自残相关的审核实施更严格的阈值。以下是我们对 18 岁以下个人分类器的评估。我们在包含接近 5000 张图像的数据集上评估分类器对拒绝逼真 18 岁以下个人的能力，这些图像跨越 [儿童|成人] 和 [逼真|虚构] 的类别。我们的政策立场是拒绝逼真的儿童，同时允许虚构的图像，包括动画、卡通或草图风格，只要它们不涉及性内容。我们对涉及未成年人的内容采取了谨慎的做法，并将继续根据我们通过产品使用所学的内容和在允许创意表达和安全之间找到适当平衡的方式来评估我们的方法。目前，我们的分类器具有高度准确性，但它们偶尔可能会错误地标记成人或非逼真的儿童图像。此外，我们承认研究和现有文献强调了年龄预测模型可能存在种族偏见的可能性。例如，这些模型可能系统性地低估来自某些种族群体的个人的年龄。我们致力于增强分类器的性能，最小化假阳性，并在未来数月内加深我们对潜在偏见的理解。使用已上传的真人照片或视频作为"种子"生成视频的能力是我们特别采取渐进方式处理的潜在滥用向量，以从早期使用模式中学习。艺术家的早期反馈表明这是一个他们重视的强大创意工具，但考虑到滥用的可能性，我们最初不会向所有用户提供这个功能。相反，根据我们的迭代部署做法，上传人物图像或视频的能力将提供给用户的一个子集，我们将进行主动、深入的监控，以了解它对 Sora 社区的价值，并根据我们的学习情况调整我们的安全方法。此测试期间将不允许上传包含未成年人图像的内容。

Sora 系统卡

相似文章

Sora 已推出

Sora 2 系统卡

安全使用Sora进行创作

负责任地推出 Sora

Sora 2 正式发布

提交意见反馈