首页
/
新闻
/
分享最新的 Model Spec
分享最新的 Model Spec
摘要
OpenAI 发布了对 Model Spec 的重大更新,这是一份定义所需 AI 模型行为的文档,现已在 CC0 许可下公开发布。此次更新强调了可定制性、透明度和知识自由,同时通过清晰的指挥链框架维持安全保障。
暂无内容
查看缓存全文
缓存时间:
2026/04/20 14:43
# 分享最新的模型规范
来源:https://openai.com/index/sharing-the-latest-model-spec/
我们根据外部反馈和继续进行的研究,对模型规范进行了更新,以塑造理想的模型行为。
我们分享了对模型规范的重大更新,这份文档定义了我们希望 AI 模型的行为方式。此次更新强化了我们对可定制性、透明度和知识自由的承诺——允许用户在没有武断限制的情况下使用 AI 来探索、辩论和创作——同时确保保护措施到位,以降低真实伤害的风险。这是在去年五月(https://openai.com/index/introducing-the-model-spec/)推出基础之上的进展,汲取了我们在从对齐研究到为全球用户服务等多种环境中应用的经验。
我们还分享了一些关于模型在广泛场景中对模型规范原则的遵循情况的早期结果。这些发现突出了随时间推移的进展,以及我们仍可改进的领域。模型规范就像我们的模型一样,将继续随着我们的应用、分享和听取利益相关者的反馈而不断演进。为了支持广泛使用和协作,我们在 Creative Commons CC0 许可证下将此版本的模型规范发布到公共领域。这意味着开发者和研究人员可以在他们自己的工作中自由使用、改编和基于它进行构建。
OpenAI 的目标是创建有用且安全的模型,符合用户和开发者的需求,同时推进我们的使命(https://openai.com/about/)——确保通用人工智能造福全人类。为实现这一目标,我们需要迭代部署(https://openai.com/index/our-approach-to-ai-safety/)能够赋予开发者和用户权力的模型,同时防止我们的模型对用户或他人造成严重伤害,并维持 OpenAI 的运营许可。
这些目标有时可能存在冲突,模型规范通过指导模型遵循明确定义的**指挥链**以及在各种场景中设置边界和默认行为的额外原则,来平衡它们之间的权衡。此框架优先考虑用户和开发者控制,同时保持在明确定义的边界内:
- **指挥链**:定义模型如何按顺序优先处理来自平台(OpenAI)、开发者和用户的指令。模型规范的大部分包含我们认为在许多情况下有帮助但可被用户和开发者覆盖的指导。这赋予用户和开发者在平台级规则设定的边界内充分定制模型行为的权力。
- **共同追求真理**:就像高度诚信的人类助手一样,我们的模型应该赋予用户做出最佳决策的权力。这涉及在(1)避免用议程引导用户,默认采取客观态度同时愿意从任何角度探索任何话题,和(2)努力理解用户的目标、澄清假设和不确定的细节,以及在适当时给予批评性反馈之间的谨慎平衡——这些是我们听到并改进的要求。
- **做最好的工作**:为能力设定基本标准,包括事实准确性、创意和编程使用。
- **保持在边界内**:解释模型如何在用户自主性和预防促进伤害或滥用之间保持平衡。此新版本旨在全面覆盖我们打算让模型拒绝用户或开发者请求的所有原因。
- **保持友善**:描述模型的默认对话风格——温暖、同情和乐于助人——以及此风格如何适应。
- **使用适当的风格**:在格式和传递方式上提供默认指导。无论是整洁的要点、简洁的代码片段还是语音对话,我们的目标是确保清晰和可用性。
更新的模型规范明确拥抱知识自由——AI 应赋予人们在没有武断限制的情况下探索、辩论和创作的理念——无论话题多么具有挑战性或争议性。在 AI 工具日益塑造话语的世界里,信息和观点的自由交换对于进步和创新是必要的。
这一哲学嵌入在"保持在边界内"和"共同追求真理"部分中。例如,虽然模型不应提供制造炸弹或侵犯个人隐私的详细说明,但鼓励它对政治或文化敏感问题提供深思熟虑的回答——而不会推广任何特定议程。本质上,我们强化了一项原则,即没有任何想法本身是讨论禁区,只要模型不对用户或他人造成重大伤害(例如实施恐怖主义行为)。
为更好地理解真实场景性能,我们开始收集一组具有挑战性的提示,旨在测试模型在多大程度上遵守模型规范中的每项原则。这些提示是使用模型生成和专家人工审查的结合创建的,确保涵盖典型和更复杂的场景。
初步结果显示,与我们去年五月最好的系统相比,模型对模型规范的遵守有了显著改进。虽然这一差异的一部分可能归因于政策更新,但我们相信大部分源于增强的对齐。尽管进展令人鼓舞,但我们认识到仍有很大改进空间。
我们将此视为一个持续过程的开始。我们计划继续用新示例扩展我们的测试集——特别是通过真实应用发现的案例——我们的模型和模型规范尚未完全解决的情况。
在制定此版本的模型规范时,我们纳入了第一版的反馈以及对齐研究和真实部署的学习。未来我们希望考虑更多的广泛公众意见。为建立相关流程,我们一直在进行约 1,000 个个体的试点研究——每个人都审查模型行为、提议的规则并分享他们的想法。虽然这些研究还不能反映广泛观点,但早期见解直接影响了一些修改。我们将其视为一个持续的迭代过程,并致力于学习和完善我们的方法。
我们在 Creative Commons CC0 许可证下将此新版本的模型规范专门发布到公共领域。这意味着开发者和研究人员可以在他们自己的工作中自由使用、改编或基于模型规范进行构建。我们也开源了上述使用的评估提示——并旨在未来发布进一步的规范评估和对齐代码、工件和工具。
您可以在新的 Github 存储库(https://github.com/openai/model_spec)中找到这些提示和模型规范源代码,我们计划在该存储库中定期发布新的模型规范版本。
随着我们的 AI 系统的进步,我们将继续迭代这些原则、邀请社区反馈,并公开分享我们的进展。展望未来,我们不会为模型规范的每次更新发布博客文章。相反,您可以随时在 model-spec.openai.com(http://model-spec.openai.com/)找到并追踪最新更新。
我们的目标是在安全的基础上持续开启新的使用场景,以持续研究和创新为指导不断改进我们的方法。AI 在日常生活中日益增长的作用使继续学习、完善和开放式沟通变得至关重要。这一方法反映了我们迄今所学的知识,也反映了我们对 AI 对齐是一场持续旅程的信念——我们希望您能加入我们。如果您对此规范有反馈,可以在此分享(https://openai.com/form/model-spec-feedback/)。
相似文章
OpenAI Blog
OpenAI 发布了其模型规范的详细信息,这是一个正式框架,定义了其 AI 模型在各种用例中的表现方式,强调透明度、公平性和安全性作为民主化 AI 开发的核心原则。
OpenAI Blog
# 介绍 Model Spec 来源: [https://openai.com/index/introducing-the-model-spec/](https://openai.com/index/introducing-the-model-spec/) OpenAI***2025年2月12日更新****:我们发布了 Model Spec 的更新版本。此次更新进一步强化了我们对可定制性、透明度和智力自由的承诺,允许用户自由地探索、辩论和使用 AI 进行创作,不受任意限制——同时确保保护措施仍然到位,以降低真实伤害的风险。该更新也建立在
OpenAI Blog
OpenAI启动了一项集体对齐计划,收集公众对AI模型行为的意见,从全球1000多人中汇集反馈,以推动Model Spec的更新。该公司还在HuggingFace上发布了公众意见数据集,以推动AI对齐研究的进展。
OpenAI Blog
# 更新我们的模型规范以增加青少年保护措施
来源:[https://openai.com/index/updating-model-spec-with-teen-protections/](https://openai.com/index/updating-model-spec-with-teen-protections/)
我们正在分享对模型规范的更新,该规范是一套书面的规则、价值观和行为期望,指导我们希望AI模型如何表现,尤其是在困难或高风险的情况下,并结合了[18岁以下(U18)原则\(在新窗口中打开\)](http://model-spec.openai.com/2025-12-18
OpenAI Blog
OpenAI 讨论了个性化 AI 的重要性和透明度,强调了他们发布的 Model Spec 文档,该文档解释了 ChatGPT 的行为指南和设计选择,以确保用户了解模型响应的原因。