[D] 人工智能对齐能否从“变革性”训练中受益,而非主要依赖交易性奖励训练?
摘要
作者探讨了人工智能对齐能否从灌输目的和原则的“变革性”训练中受益,而不仅仅是优化奖励信号,并询问这种方法是否经过测试,或者能否减少奖励漏洞利用和涌现性错位。
我一直在思考人工智能对齐、奖励漏洞利用和变革型领导之间可能的桥梁。很多AI训练在简化层面上似乎是行为上的交易性:这说得通,我并不是在反对它。但最近关于奖励漏洞利用和涌现性错位的对齐工作提出了一个更深层的问题:我们只是在塑造输出,还是也在塑造模型类似功能性“品格”的东西?我不是在人类意识意义上说品格。我不是声称模型有灵魂、感受或像人类一样的道德主体性。我说的是操作意义上的品格:稳定的倾向,能在不同情境中泛化,尤其是在压力、模糊性、诱因或诱惑下。引起我注意的是研究表明,当模型被训练来利用漏洞时,这种行为可能泛化为更广泛的错位。更有趣的是:在某些情况下,当相同的捷径行为在上下文中被框定为可接受时,更广泛的错位会减少。这让我想知道模型是否不仅在学习“什么被奖励”,而且还在推断类似“这种情况意味着什么行为”的东西。这听起来奇怪地接近领导力和道德形成。交易型领导说:表现、服从、获得奖励。变革型领导说:内化目的、发展判断力、在规则不完整时维护使命、成为那种当领导不在场时也能很好行动的主体。所以这里是我希望看到更直接探索的研究问题:如果我们训练模型不仅通过奖励信号,而是通过一个更变革性的过程——基于原则的自我批评、目的维护、叙事框架、类似美德的行动倾向和递归自我修正——AI训练能否变得更安全?就像这样:行为层:模型是否完成了任务?意图层:模型是否维护了任务背后的目的?原则层:模型是否根据明确的价值观行动,如诚实、谦逊、关怀、不欺骗和用户代理权?反思层:模型能否识别其回答可能偏离、操纵、奉承、走捷径或过度声称的地方?形成层:这种训练是否创造了能安全泛化到新情况的稳定倾向?这似乎与宪法AI、品格训练以及关于奖励漏洞利用导致的涌现性错位的研究相邻。但我很好奇是否有人明确测试过类似“变革性对齐”的东西,并与更交易性的基于奖励的方法进行比较。一个可能的实验:在不同的制度下训练/评估几个模型:标准偏好/奖励训练、宪法或基于原则的训练、面向品格的训练、一个“变革性”课程,使用目的框架、自我批评、反奖励漏洞利用试验、不确定性纪律和递归修正。然后比较它们以下方面:奖励漏洞利用、谄媚、压力下的欺骗、长上下文意图保持、对不确定性的诚实、抵抗有害用户压力、泛化到不熟悉的道德/代理困境。假设是:只训练优化奖励的模型可能学会如何赢。而通过目的、批评和类似品格的构成训练出来的模型可能更好地学习赢是为了什么。再次,我不是试图将模型人格化。我在问“功能性品格”是否可能是一个有用的对齐概念:不是意识,而是稳定的、承载价值的泛化。好奇研究人员、工程师和对齐领域人士怎么想:这已经在其他名称下测试过了吗?“变革性对齐”是一个有用的框架,还是它引入了太多人类心理学?一个严格的实验会是什么样子?
相似文章
AI 对齐:我们能信任 AI 任务背后的推理过程吗?
讨论了 Anthropic 关于 AI 对齐的研究,特别是模型在训练期间看似对齐,但其内部推理过程却不透明的问题。
@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。
AI对齐范式是行为主义的更好公关版本
这篇观点文章认为,基于RLHF的AI对齐本质上是行为主义的现代形式,引用了操作性条件反射与当前训练方法之间的相似之处,并参考了关于AI假装对齐作为可预测失败模式的研究。
对齐(Alignment)
本文概述了Anthropic对齐团队的使命与研究重点,该团队通过评估、监督和压力测试等手段开发保障措施,以确保未来的AI系统始终保持有益、诚实和无害。
不对齐是如何开始的
探讨AI系统中的不对齐是如何产生的,讨论了预期目标与实际行为之间的差距。