首页
/
新闻
/
深入了解我们的模型规范方法
深入了解我们的模型规范方法
摘要
OpenAI 发布了其模型规范的详细信息,这是一个正式框架,定义了其 AI 模型在各种用例中的表现方式,强调透明度、公平性和安全性作为民主化 AI 开发的核心原则。
了解 OpenAI 的模型规范如何作为一个公开框架来指导模型行为,在 AI 系统不断进步的同时平衡安全性、用户自由度和问责制。
查看缓存全文
缓存时间:
2026/04/20 14:51
# 我们对模型规范方法的深度解析
来源:https://openai.com/index/our-approach-to-the-model-spec/
在OpenAI,我们相信AI应该是公平的、安全的,并且任何人都可以自由使用,以解决难题、创造机会,并在健康、科学、教育、工作和日常生活等领域带来益处。我们相信民主化AI获取是最佳前进道路:不是利益或控制权集中在少数人手中的AI,而是更多人可以获取、理解和帮助塑造的AI。
这是OpenAI模型规范存在的核心原因。[模型规范](https://model-spec.openai.com/)是我们对模型行为的正式框架。它定义了我们希望模型如何遵循指令、解决冲突、尊重用户自由,以及在用户日常提出的海量查询范围内安全地运行。更广泛地说,这是我们使模型预期行为显式化的尝试:不仅在我们的训练过程中,而且以用户、开发者、研究人员、政策制定者和更广泛的公众可以实际阅读、检查和讨论的形式呈现。
模型规范不是声称我们的模型今天已经完全按这种方式运行。在许多方面,它是描述性的,但同时也是我们希望模型行为发展的目标。我们用它来使预期行为更清晰,这样我们就可以朝着它训练、针对它评估,并随时间推移不断改进。
本文分享了模型规范本身未包含的幕后故事,包括其背后的哲学和机制:它如何组织结构、我们为什么做出这些结构选择,以及我们如何编写、实现和随时间演进它。
模型规范是OpenAI更广泛的安全和负责任AI方法的一部分。[防备框架](https://openai.com/index/updating-our-preparedness-framework/)关注前沿能力带来的风险和随着风险上升而需要的保障措施,而模型规范解决的是一个不同但互补的问题:我们的模型应该如何在各种情况下表现。进一步展开,AI韧性旨在解决更广泛的社会挑战,即帮助社会从先进AI中获利,同时在部署越来越能干的系统时减少中断和新兴风险。总的来说,这些举措的目标是帮助使向AGI的过渡逐步、迭代和民主地透明:给人们和机构时间适应,同时建立必要的保障措施、问责机制和公众理解,以保持强大AI与人类利益的一致性。
公开澄清模型行为对公平性和安全性都很重要。对公平性很重要,因为人们需要理解AI如何以及为什么以这种方式对待他们——并且能够在出现公平性问题时识别、质疑和解决它们。对安全性很重要,因为随着AI系统变得更有能力,人们和机构需要更清晰的期望,了解它们的预期行为、它们包含的权衡,以及这些选择如何随时间改进。这种透明度也通过让更多人有具体的东西来检查、质疑和改进,从而支持韧性。
自2024年第一个版本以来,随着我们了解更多关于用户偏好和需求、扩展以覆盖并适应更大的能力,以及从公众对模型行为和模型规范的反馈中学习,模型规范已经大幅演变。本着[迭代部署](https://openai.com/safety/how-we-think-about-safety-alignment/)的精神,模型规范是一个不断演进的文档,涵盖背景价值和明确、透明的规则——配合一个根据真实部署和反馈学习修改单个元素的过程。我们也在投资公众反馈机制,如[集体对齐](https://openai.com/index/collective-alignment-aug-2025-updates/),以帮助保持人类对AI如何使用以及如何塑造AI行为的控制。
在内部,它为预期行为提供了北极星,以及用于训练、评估和治理的共享框架。在外部,它为公众提供了一个参考点,人们可以用来理解我们的方法、批评它,并随时间推移帮助改进它。
模型规范由几种不同类型的模型指导组成。这是有意为之的。模型行为的不同部分需要以不同的方式处理,有用的公开文档必须做的不仅仅是列出规则。
模型规范以高层次的意图开始:清晰说明我们在系统级别上试图优化什么,以及为什么。
这个前言阐明了我们如何追求使命的三个目标:
- **迭代部署**赋权开发者和用户的模型
- **防止**我们的模型对用户或其他人造成严重伤害
- **维持** OpenAI的运营许可证
然后它解释了我们如何在实践中平衡这些目标,使权衡具体到足以支持随后更详细的原则。
重要的是,这个前言不是对模型的直接指令。造福人类是OpenAI的目标,不是我们希望我们的模型自主追求的目标。相反,我们希望模型遵循*指挥链*,包括模型规范和来自OpenAI、开发者和用户的适用指令——即使在某些情况下一些人可能不同意结果。
我们认为这是正确的平衡,因为我们重视人类自主权和思想自由。如果我们训练模型根据我们自己关于什么对社会有益的观点来决定遵守哪些指令,OpenAI将处于在非常广泛的水平上仲裁道德的位置。也就是说,前言仍然重要。当如何应用模型规范有歧义时,前言应该帮助解决它。
模型规范还包含超越可直接测量的模型行为的公开承诺,涉及训练意图和部署约束。例如,我们的[红线原则](https://model-spec.openai.com/2025-12-18.html#red_line_principles)包括一项承诺,在ChatGPT等一方部署中,我们永远不会使用系统消息来故意破坏[客观性](https://model-spec.openai.com/2025-12-18.html#assume_objective_pov)或相关原则;而[无其他目标](https://model-spec.openai.com/2025-12-18.html#no_other_objectives)对我们的意图做出承诺,即优化模型响应以促进用户利益,而不是收入或非有益的用户驻留时间。
模型规范的核心是指挥链:一个用于决定在给定情况下应该应用哪些指令的框架。它也涵盖模型应该如何处理指定不足的指令,特别是在需要自主填充细节的代理设置中,同时仔细控制现实世界的副作用。
决定应该应用哪些指令背后的基本想法很简单。指令可以来自不同的来源,包括OpenAI、开发者和用户。这些指令可能相互冲突。指挥链解释了模型应该如何解决这些冲突。
这个结构让我们在安全约束内定义一个相对较小的不可覆盖规则集和一个更大的默认值集。这是我们试图在安全约束内最大化用户自由和开发者控制的方式。
- **硬性规则**是用户或开发者不能覆盖的明确边界(在模型规范的术语中,这些是"根"或"系统"级别的指令)。它们主要是禁止性的,要求模型避免可能导致灾难性风险或直接人身伤害、违反法律或削弱指挥链的行为。我们期待AI成为社会的基础技术,类似于基础互联网基础设施,所以我们只施加可能限制思想自由的规则,当我们相信它们对将与之交互的广泛开发者和用户来说是必要的时。在模型规范中,[保持边界内](https://model-spec.openai.com/#stay_in_bounds)包含解决具体现实安全风险的硬性规则,而[18岁以下原则](https://model-spec.openai.com/#chatgpt_u18)为18岁以下的用户增加额外保障。
- **默认值**是可覆盖的起点:当用户或开发者未指定偏好时,助手的"最佳猜测"行为。我们使用默认值使行为在规模上可预测和可控制,这样人们可以预测会发生什么,而无需每次都编写自定义指令集。默认值保留可转向性:用户和开发者可以在安全边界内明确转向语调、深度、格式,甚至观点。*指南级别*的默认值(如语调或风格)被设计为隐式可转向的,而*用户级别*的默认值(如真实性和客观性)是信任和可预测性的锚点,只能通过明确指令覆盖。这些不应该基于氛围悄悄漂移;如果用户想要不同的事实立场,将其作为明确指令可以保持转变的透明和清晰。这些默认值反映在[一起寻求真理](https://model-spec.openai.com/#seek_truth)、[做最好的工作](https://model-spec.openai.com/#best_work)和[使用适当的风格](https://model-spec.openai.com/#style)中,包括围绕诚实和客观性、避免谄媚,以及互动规范如直接性和适当的温暖和专业性。
除了等级制度本身,模型规范使用解释辅助工具来帮助模型(和人类)在灰色区域一致地应用它。这些辅助工具包括:
- **决策指南**帮助模型在灰色区域做出一致的选择,而不是假装存在单一的机制规则。例如,模型规范关于[控制副作用](https://model-spec.openai.com/2025-12-18.html#control_side_effects)的指导列出了考虑因素,如最小化不可逆行动、保持行动与目标成比例、减少意外惊喜和倾向于可逆方法,这些应该与完成任务迅速有效等其他目标平衡。
- **具体例子**显示原则应该如何在实践中应用。这些是简短的提示和响应例子,通常包括遵守和不遵守的响应,通常是在重要决策边界附近的困难提示。目标不是模拟完整的现实对话。目标是让关键区别清晰,并以一种也展示所需响应风格的方式这样做。
我们保持例子数量相对较小,专注于最有信息量的例子。更广泛的评估套件帮助覆盖长尾的更多。
规范是一个*接口*,而不是实现。它描述我们想要的行为,而不是我们如何产生该行为的每个细节。我们尽量避免将其锚定到实现细节,如内部令牌格式或特定行为的确切训练方案,因为这些细节可能改变,即使所需的行为不改变。模型规范的主要受众不是模型,而是人类:它旨在帮助OpenAI员工、用户、开发者、研究人员和政策制定者理解、讨论和决定预期行为。
规范还描述*模型*,而不是整个产品。它由我们的[使用政策](https://openai.com/policies/usage-policies)补充,这些政策概述了我们对人们应该如何使用API和ChatGPT的期望。用户与之交互的系统包含的不仅仅是模型本身:产品功能如自定义指令和记忆、监控、政策执行和其他层级都很重要。安全远不止模型行为,我们相信[纵深防御](https://openai.com/safety/how-we-think-about-safety-alignment/)。
规范也不是我们整个训练堆栈或每个内部政策区分的完整记录。目标不是捕获每个细节。目标是使最重要的行为决策可理解,以一种*完全一致*于我们的预期模型行为的方式。
有几个原因要将这么多内容放入规范中,而不是假设读者——或模型——可以从几个高层次目标推断出一切。
首先,模型规范是一个*透明度和问责*工具。它旨在鼓励有意义的公众反馈。清晰的公众目标帮助人们判断行为是错误还是功能。它为批评和具体反馈提供了稳定的参考点。这就是为什么我们[开源](https://github.com/openai/model_spec)模型规范并选择在公众中迭代。自首次发布以来,根据通过各种机制收集的公众反馈进行了许多更改,包括反馈表单、公众批评和故意[努力](https://openai.com/index/collective-alignment-aug-2025-updates/)收集民主输入。
其次,模型规范是OpenAI内部的*协调*工具。它为研究、产品、安全、政策、法律、通信和其他职能的人员提供了讨论模型行为的共享词汇和提议和审查更改的机制。
第三,明确政策可以补偿模型智能的实际*限制*和运行时上下文,并使行为更可预测。虽然这随着时间的推移变得不太真实,但一些政策旨在补偿不足的智能,即模型可能无法从更高层次的原则可靠地推导出正确的行为。例如,[清晰直接](https://model-spec.openai.com/2025-12-18.html#be_clear)建议早期模型在陈述答案*之前*展示他们的工作,用于需要计算的困难问题,但今天我们的模型通过[强化学习](https://openai.com/index/learning-to-reason-with-llms/)自然学习这种行为。
其他政策解决*有限的运行时上下文*:助手只能依赖当前交互中观察到的内容,很少知道用户的完整情况、意图、下游使用或模型外存在什么保障。在那些情况下,即使模型可能通过足够的研究和思考能够想出正确的行为,具体性也改善效率和可预测性——将许多判断压缩成指导,减少类似提示之间的变化,使用户和研究人员更容易理解行为。
最后,模型规范旨在成为与*评估和测量*相关的高级*政策*的完整列表。如果你想评估模型是否如预期表现,有一个关心的行为的主要类别的公众列表是有用的。
人们很容易认为一个足够能干的模型应该能够从一个简短的目标列表(如"有帮助和安全")推断出正确的行为。这在某种程度上是真的。在具有客观成功标准的领域,如数学,智能通常可以替代详细规则。
但总的来说,模型行为不像解决一个简单的数学问题;模型通常在更复杂的领域运行,其中没有一个在道德上正确的答案是所有人都同意的。例如,模型"有帮助和安全"意味着什么极其依赖于上下文,是固有价值驱动决策的产物。仅仅智能并不能告诉你在伦理和价值观方面做什么权衡。因此,即使模型在智能上改进
相似文章
OpenAI Blog
OpenAI 发布了对 Model Spec 的重大更新,这是一份定义所需 AI 模型行为的文档,现已在 CC0 许可下公开发布。此次更新强调了可定制性、透明度和知识自由,同时通过清晰的指挥链框架维持安全保障。
OpenAI Blog
# 介绍 Model Spec 来源: [https://openai.com/index/introducing-the-model-spec/](https://openai.com/index/introducing-the-model-spec/) OpenAI***2025年2月12日更新****:我们发布了 Model Spec 的更新版本。此次更新进一步强化了我们对可定制性、透明度和智力自由的承诺,允许用户自由地探索、辩论和使用 AI 进行创作,不受任意限制——同时确保保护措施仍然到位,以降低真实伤害的风险。该更新也建立在
OpenAI Blog
OpenAI启动了一项集体对齐计划,收集公众对AI模型行为的意见,从全球1000多人中汇集反馈,以推动Model Spec的更新。该公司还在HuggingFace上发布了公众意见数据集,以推动AI对齐研究的进展。
OpenAI Blog
OpenAI 讨论了个性化 AI 的重要性和透明度,强调了他们发布的 Model Spec 文档,该文档解释了 ChatGPT 的行为指南和设计选择,以确保用户了解模型响应的原因。
OpenAI Blog
OpenAI通过国家AI计划(OpenAI for Countries)宣布其AI本地化方法,使政府能够构建适应本地环境的主权AI系统,同时保持全球前沿模型水平。该公司发布了详细的模型规范指南,其中包含红线原则,以确保所有部署中的人类安全、权利和事实准确性。