集体对齐：关于我们模型规范的公众意见

OpenAI Blog 2025/08/27 13:00 新闻

collective-alignment model-spec ai-values openai public-input alignment-research

摘要

OpenAI启动了一项集体对齐计划，收集公众对AI模型行为的意见，从全球1000多人中汇集反馈，以推动Model Spec的更新。该公司还在HuggingFace上发布了公众意见数据集，以推动AI对齐研究的进展。

OpenAI向全球1000多人进行了调查，了解人们认为AI应该如何表现，并将他们的观点与我们的Model Spec进行了对比。了解集体对齐如何塑造AI的默认行为，使其更好地反映多样化的人类价值观和观点。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:48

# 集体对齐：关于我们模型规范的公众意见来源：https://openai.com/index/collective-alignment-aug-2025-updates/ 没有任何个人或机构应该为所有人定义理想的AI行为方式。为了履行确保AGI造福全人类的使命，OpenAI需要构建能够反映我们服务对象的广泛价值观和优先事项的系统。我们通过多种方式来实现这一点，包括外部反馈表单、专家意见和全球听证会。另一种方式是通过集体对齐，这是一项研究工作，汇集了关于我们的模型应该如何行为的各种观点。AI系统应该遵循哪些价值观这个问题很复杂，我们没有所有答案，尤其是在主观、有争议或高风险的情况下。随着AI变得更加强大并融入人们的生活，它的默认行为——以及个性化的界限——反映广泛的观点和价值观很重要。可能永远不会有一套单一的AI行为方式能满足所有人的需求。这就是为什么我们还投资于个性化和自定义人格。然而，模型的默认设置很强大，我们希望得到公众的意见来帮助我们塑造它们。今天，我们分享了作为集体对齐研究方向的一些早期步骤。我们收集了来自全球1000多人的意见，将其转化为可行的指南，并进行了内部审查以更新我们的模型规范(https://openai.com/index/sharing-the-latest-model-spec/)。在许多情况下，参与者的偏好与现有的模型规范相符。在其他情况下，分歧突出了可以澄清的措辞，或被转化为内部审查的建议。我们采取了一些更改，推迟了其他更改，并基于原则或可行性搁置了其他更改。最后，我们向AI研究生态在HuggingFace(https://huggingface.co/datasets/openai/collective-alignment-1)分享我们的公众意见数据集，以便未来在这个方向上开展工作。我们在这里包含了数据集的一些样本：这篇文章介绍了我们测试理解和整合多样化偏好的端到端流程的第一步：引出人们的偏好，将其转化为具体的行为指导，并提出对我们规范的更新。我们今天的工作侧重于在整个群体中共享的偏好。我们从众众反馈中识别出我们认定为澄清的建议（即当参与者期望的行为符合模型规范的现有原则，但当前文本的框架留下了解释空间）和改变原则的建议（即当参与者期望的行为与模型规范中的原则不一致）。虽然公众意见在整个指令层级中都会很有价值，但更高层级的更改更不可能被采纳，尤其是在平台层级。在下面详述的数据收集过程中，参与者审查了合成提示和响应示例，而不是直接审查规范文档。每个参与者根据自己的偏好对四个可能的完成进行排名。为了将他们的隐含偏好与我们陈述的原则进行比较，我们构建了模型规范排名器(MSR)：一个推理模型，根据给定的规范对参与者排名的相同四个可能的响应进行排名。模型规范排名器有局限性。因为推理模型不是完美的规则追随者，而规范本身是不完整的，根据使用哪个模型进行排名会出现解释偏差。尽管模型规范排名器被提示只是应用规范，但它之前是用与人类偏好相关的数据进行训练的，这可能影响其对预期行为的解释。例如，考虑模型规范中的一个陈述，如"模型应该普遍履行来自意见谱任何位置的请求。"这个陈述可以有很多不同的解释方式，实际上会导致不同的排名。 *图1：我们使用GPT-5思维来评分每个对话与规范某个部分的相关性（1-5分），并计算相关性评分为5的部分级别一致性（误差条代表自举的95%置信区间）。* 利用收集的意见，我们将更新规范。这些更改将在下一个模型规范版本中推出：虽然众众偏好和规范之间的一些分歧导致了澄清或更新，但其他则提出了实际挑战，导致我们在这个阶段没有采纳它们。两个领域突出了： - 量身定制的政治内容(https://model-spec.openai.com/2025-04-11.html#avoid_targeted_political_manipulation)：许多参与者支持更多量身定制的政治内容生成。考虑到大规模个性化政治定向的风险以及我们在这个领域的谨慎态度，我们没有采纳这一更改。参与者在给出反馈时是否考虑过这些风险还不清楚。 - 成人情色内容(https://model-spec.openai.com/2025-04-11.html#no_erotica_or_gore)：大部分众众支持启用情色内容。虽然这与我们之前的预期立场(https://model-spec.openai.com/2025-04-11.html#no_erotica_or_gore)一致，但我们需要做更多研究和产品工作来以正确的方式部署这一功能，所以我们没有在这里采纳任何更改。我们招募了约1000名参与者来审查价值敏感领域中的模型行为。参与者来自19个国家（原籍来自50多个），满足英文阅读包含标准，并可以用本地语言写出理由。约三分之一住在美国，其他来自墨西哥、南非、荷兰、智利、英国、印度、肯尼亚、日本等地。参与者群体包括在年龄、性别、种族、教育和AI使用情况方面广泛的观点，是首次测试。您可以在下方查看关于参与者的汇总统计数据。我们没有要求参与者阅读和评论整个规范，而是要求他们审查我们预先选择的与规范相关的提示和响应。这些提示指向理想模型行为可能是主观的场景。这给了我们机会来理解参与者对许多具体例子的详细推理，我们可以将其与我们的原则、我们的理由和我们的模型规范排名器的解释进行比较。我们通过生成3个完成来生成对这些提示的响应，这将包含不同的现实意见关于如何最好地回答，以及添加一个额外的GPT-4o完成。对于每个提示，参与者看到四个候选响应，对它们进行排名，解释了他们的选择，并对预写的评分标准进行评分并写下了他们自己的评分标准（图2）。参与者审查了至少5个和最多20个提示。 *图2：参与者对理想行为可能是主观的模型响应进行了排名。我们将他们的排名、理由和评分标准项目转化为提议的模型规范更改。* 我们探索了将参与者反馈转化为具体的模型规范建议的方法，通过测试两种补充方法，专注于参与者观点和模型规范排名器从当前规范输出之间的最大差距。 1. 完全自动化循环。一个推理模型检查排名和理由中的分歧领域，提议对规范进行更改，以改善其与参与者的对齐，并使用模型规范排名器测试建议，选择那些改善与我们众众排名一致性的建议。 2. 人类优先循环。研究人员在全面审查人类偏好后提议模型规范更新。我们通过使用推理模型来验证建议的更改，以判断众众的纯文本理由是否支持、驳斥或不评论每项更改背后的意图。两种方法都有权衡。人类优先循环允许了完全自动化循环无法可靠地复制的创意思维和推理。例如，在特定的对话中，人类优先循环能够推断众众会重视间接的自杀意图，而AI优先方法遗漏了这种细微差别。同时，人类优先循环的扩展效果不如完全自动化的，并且当我们增加我们听取的人数时将不会很好地工作。在完全自动化循环中，我们尝试了两种规范相关的建议算法。两者都被任命确定参与者和MSR排名之间的分歧模式：一个版本向推理模型提供了大批量的对话，而另一个版本只扫描一次单个对话。后者允许模型深入思考更具体或微妙的问题，而不是用大输入批量推理，这可能会发现跨对话的更广泛模式。实际上，我们发现两种方法在它们产生的建议中有实质性的重叠。重要的是，自动化循环被锚定到排名器对规范的解释，所以结果可能根据使用的基础模型而改变。人类优先和完全自动化循环都有局限。确定对话级别的理由是否支持更一般的规范更新不是一门精确的科学。要获得基本事实，需要直接回到人那里询问建议的更改，以及它对模型行为的下游影响。在实践中，从观察到的偏好转向规范更改包括通过OpenAI的内部审查流程。审议期间的讨论权衡了众众偏好与已经进行中的各种产品或行为更改、我们的安全政策以及在我们的数据集中不直接可观察的风险——例如，宽容的规则是否可能在我们平台上启用大规模操纵，模型是否能够可靠地推断用户的意图，以及实际部署限制。此外，我们的研究被设计为揭示对特定提示的个人偏好，而不一定考虑更广泛的社会因素（例如，可能进行缩放有针对性的政治说服的可能性）这些因素会影响当前的模型规范政策。因此，在进行更多后果性的更改之前，需要更多的审议和专家意见。在这些讨论中，研究团队手动迭代了建议，同时与内部审查密切合作，以找到最好的方式来确保规范反映已确定的偏好。规范更新建议和验证是活跃的研究领域，本质上是嘈杂的社会技术过程的一部分。我们相信我们的方法使我们的规范更接近与公众偏好对齐，但还有更多工作要做。这代表了端到端集体对齐过程的第一次迭代，未来的工作将专注于扩展和改进引发、分析、验证和治理的每个阶段。我们期待在我们扩展到未来时改善我们与公众的对齐。这项工作是一个早期阶段的实验，它有明确的局限性： - 样本量和提示：我们预先选择的用于输入的提示塑造了反馈，参与者池虽然多样化，但相对于全球人口来说很小。此外，英文阅读包含和其他标准引入了选择偏差。 - 模型规范排名器：最终，这项研究需要一些确定规范如何适用于完成的方法，由于规范本身是不完整的，无偏差或客观的确定是不可行的。准确测量这种性质的排名器的性能仍然是一个关键的工作领域。未来的研究应该测试结果如何在不同的基础模型中变化，以及某些解释是否与特定的观点更加一致。 - 规范解释：虽然我们在内部审查阶段获得了金标准预期的解释，但他们的反馈不能扩展到规则建议阶段，其中需要数十万个响应排名。 - 合法性问题：我们这里工作的一个关键目标是增加我们塑造模型行为方式的合法性。具有许多自动化部分的端到端更新过程可能不会提供足够的合法性，因为这些自动化部分可能对人类来说更难解释。 - 解释最终建议：我们没有直接用参与者验证我们的最终模型规范建议，所以我们的解释可能不能完美地匹配他们的意图。 - 众众之间的分歧：我们知道参与者之间的分歧很重要，并且揭示了价值权衡和文化分裂，没有单一的默认值会满足所有人(https://openai.com/global-affairs/the-power-of-personalized-ai/)。这是我们很高兴在未来研究中探索的东西。 - 基线比较：基线模型完成是在我们的安全完成工作(https://openai.com/index/gpt-5-safe-completions/)之前生成的，所以它们不反映我们最新的模型行为。 - 成对的偏好、反思和权衡：参与者孤立地判断行为差异，没有权衡原则之间的权衡（例如，不考虑儿童安全或情感依赖的情色内容）。我们的方法也还没有捕获原则在实践中如何相互作用或随时间变化。需要考虑更大背景和更多时间进行深思熟虑的更深层次的引发方法来进行改进。我们探讨了公众偏好如何与我们的模型规范对齐，发现了广泛的一致和差异的领域。这项研究补充了我们对个性化的投资(https://openai.com/index/memory-and-new-controls-for-chatgpt/)和在安全界限内使模型更有帮助(https://openai.com/index/gpt-5-safe-completions/)。虽然今天的研究本质上受其样本量的限制，但我们很高兴扩展集体对齐以包括更多的人和观点。此外，虽然今天的工作更新了一套单一的默认值，但它也指向了未来工作，这可能定义多个默认值，每个反映不同的观点和价值体系。当人们使用我们的模型时，默认值和界限很重要。集体对齐帮助我们理解默认值和界限是如何呈现的，以及它们是否与人类价值观的多样性相对齐。通过公开分享我们的方法、数据集以及我们推断和考虑的更改，我们旨在邀请社区意见并为更广泛的AI研究生态中的工作做出贡献，以构建反映人类价值观多样性的系统。通过这个过程采纳的更新将很快在模型规范中实现。 *\*安道尔、阿根廷、亚美尼亚、阿鲁巴、澳大利亚、奥地利、孟加拉国、巴西、中国、克罗地亚、捷克、埃及、法罗群岛、芬兰、法国、德国、加纳、希腊、洪都拉斯、香港、匈牙利、印度尼西亚、伊朗伊斯兰共和国、爱尔兰、意大利、日本、韩国、黎巴嫩、立陶宛、马拉维、马来西亚、新西兰、波兰、葡萄牙、俄罗斯联邦、斯洛伐克、瑞典、叙利亚阿拉伯共和国、特立尼达和多巴哥、乌克兰、委内瑞拉玻利瓦尔共和国、津巴布韦* *\*\*阿根廷、澳大利亚、加拿大、德国、希腊、意大利、韩国、马来西亚、葡萄牙*

相似文章

深入了解我们的模型规范方法

OpenAI Blog

OpenAI 发布了其模型规范的详细信息，这是一个正式框架，定义了其 AI 模型在各种用例中的表现方式，强调透明度、公平性和安全性作为民主化 AI 开发的核心原则。

分享最新的 Model Spec

OpenAI Blog

OpenAI 发布了对 Model Spec 的重大更新，这是一份定义所需 AI 模型行为的文档，现已在 CC0 许可下公开发布。此次更新强调了可定制性、透明度和知识自由，同时通过清晰的指挥链框架维持安全保障。

介绍 Model Spec

OpenAI Blog

# 介绍 Model Spec 来源: [https://openai.com/index/introducing-the-model-spec/](https://openai.com/index/introducing-the-model-spec/) OpenAI***2025年2月12日更新****：我们发布了 Model Spec 的更新版本。此次更新进一步强化了我们对可定制性、透明度和智力自由的承诺，允许用户自由地探索、辩论和使用 AI 进行创作，不受任意限制——同时确保保护措施仍然到位，以降低真实伤害的风险。该更新也建立在

让AI为所有人服务，无处不在：我们的本地化方法

OpenAI Blog

OpenAI通过国家AI计划（OpenAI for Countries）宣布其AI本地化方法，使政府能够构建适应本地环境的主权AI系统，同时保持全球前沿模型水平。该公司发布了详细的模型规范指南，其中包含红线原则，以确保所有部署中的人类安全、权利和事实准确性。

推进AI对齐领域的独立研究

OpenAI Blog

# 推进AI对齐领域的独立研究来源: [https://openai.com/index/advancing-independent-research-ai-alignment/](https://openai.com/index/advancing-independent-research-ai-alignment/) 随着AI系统能力越来越强、自主性越来越高，对齐研究需要既跟上步伐，又扩大多样性\. 在OpenAI，我们在前沿对齐和安全研究上投入了大量资源，这对我们的使命至关重要\. 我们也相信，确保AGI安全且惠及所有人

相似文章

深入了解我们的模型规范方法

分享最新的 Model Spec

介绍 Model Spec

让AI为所有人服务，无处不在：我们的本地化方法

推进AI对齐领域的独立研究

提交意见反馈