我们的对齐研究方法
摘要
OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。
我们在改进 AI 系统从人类反馈中学习的能力,以及协助人类评估 AI 的能力。我们的目标是建立一个足够对齐的 AI 系统,它可以帮助我们解决所有其他对齐问题。
查看缓存全文
缓存时间:
2026/04/20 14:46
# 我们在对齐研究中的方法
来源:https://openai.com/index/our-approach-to-alignment-research/
[人类反馈强化学习](https://openai.com/index/deep-reinforcement-learning-from-human-preferences/)是我们当今部署的语言模型对齐的主要技术。我们训练一类称为 InstructGPT 的模型,这些模型衍生自预训练语言模型(如 GPT-3)。这些模型被训练用来遵循人类意图:既包括指令给出的显式意图,也包括诚实、公平和安全等隐式意图。
我们的结果表明,目前在以对齐为重点的微调方面存在大量低垂之果:InstructGPT 相比大 100 倍的预训练模型更受人类欢迎,而其微调成本不到 GPT-3 预训练计算的 2%,仅需约 20,000 小时的人类反馈。我们希望我们的工作能激励业界增加对大型语言模型对齐的投资,并提高用户对已部署模型安全性的预期。
我们的自然语言 API 是进行对齐研究的一个非常有用的环境:它为我们提供了关于对齐技术在现实世界中实际效果的丰富反馈回路,基于我们客户愿意付费的非常多样化的任务集。平均而言,我们的客户已经更倾向于使用 InstructGPT 而不是我们的预训练模型。
然而,当今的 InstructGPT 版本离完全对齐还很远:它们有时无法遵循简单的指令,不总是诚实的,不能可靠地拒绝有害任务,有时会给出有偏见或有毒的响应。一些客户发现 InstructGPT 的响应创意明显少于预训练模型,这是我们通过在公开可用的基准上运行 InstructGPT 时没有意识到的。我们也在致力于开发对人类反馈强化学习的更详细的科学理解,以及如何改进人类反馈的质量。
对齐我们的 API 远比对齐 AGI 容易,因为我们 API 上的大多数任务对人类监督来说不是很难,而且我们部署的语言模型并不比人类更聪明。我们不期望人类反馈强化学习足以对齐 AGI,但它是我们最感兴趣的可扩展对齐提案的核心构建块,因此完善这种方法是有价值的。
目前还没有已知的无限可扩展的对齐问题解决方案。随着 AI 进步的继续,我们预期会遇到许多在当前系统中尚未观察到的新的对齐问题。其中一些问题我们现在就能预见,而另一些则会是全新的。
我们相信找到无限可扩展的解决方案可能非常困难。因此,我们的目标是采取更实用的方法:构建和对齐一个能够比人类更快、更好地进行对齐研究的系统。
在取得进展的过程中,我们的 AI 系统可以接管越来越多的对齐工作,并最终能够构思、实现、研究和开发比我们现在更好的对齐技术。它们将与人类合作,以确保其后继者更好地与人类对齐。
我们相信,评估对齐研究的难度远低于生成对齐研究,特别是在获得评估协助的情况下。因此,人类研究人员将更多地把精力投入到审查 AI 系统所做的对齐研究,而不是自己生成这些研究。我们的目标是训练模型使其对齐度如此之高,以至于我们可以卸载几乎所有对齐研究所需的认知劳动。
重要的是,我们只需要在相关领域具有人类水平能力的"更狭隘"的 AI 系统就能在对齐研究上与人类一样好。我们预期这些 AI 系统比通用系统或远比人类聪明的系统更容易对齐。
语言模型特别适合用于自动化对齐研究,因为它们"预装"了大量关于人类价值观的知识和信息,这些信息来自互联网阅读。开箱即用,它们不是独立代理,因此不会在世界上追求自己的目标。要进行对齐研究,它们不需要对互联网的无限制访问。然而,许多对齐研究任务可以表述为自然语言或编码任务。
未来版本的 WebGPT、InstructGPT 和 Codex 可以作为对齐研究助手的基础,但它们还不够有能力。虽然我们不知道我们的模型何时会具备足够的能力来有意义地贡献于对齐研究,但我们认为提前开始是很重要的。一旦我们训练出可能有用的模型,我们计划将其提供给外部对齐研究社区。
相似文章
OpenAI Blog
OpenAI 推出了 InstructGPT,这是一个 GPT-3 的变体,通过人类反馈强化学习 (RLHF) 进行微调,以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型,现已成为 OpenAI API 的默认模型。
Reddit r/artificial
这篇观点文章认为,基于RLHF的AI对齐本质上是行为主义的现代形式,引用了操作性条件反射与当前训练方法之间的相似之处,并参考了关于AI假装对齐作为可预测失败模式的研究。
OpenAI Blog
# 推进AI对齐领域的独立研究 来源: [https://openai.com/index/advancing-independent-research-ai-alignment/](https://openai.com/index/advancing-independent-research-ai-alignment/) 随着AI系统能力越来越强、自主性越来越高,对齐研究需要既跟上步伐,又扩大多样性\. 在OpenAI,我们在前沿对齐和安全研究上投入了大量资源,这对我们的使命至关重要\. 我们也相信,确保AGI安全且惠及所有人
Hugging Face Daily Papers
本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。
Anthropic Research
Anthropic 研究人员证明,Claude Opus 4.6 能够自主担任对齐研究者,以改进弱监督强技术,从而应对可扩展监督中的挑战。