[D] 人工智能对齐能否从“变革性”训练中受益，而非主要依赖交易性奖励训练？

Reddit r/artificial 2026/06/28 15:23 论文

摘要

作者探讨了人工智能对齐能否从灌输目的和原则的“变革性”训练中受益，而不仅仅是优化奖励信号，并询问这种方法是否经过测试，或者能否减少奖励漏洞利用和涌现性错位。

我一直在思考人工智能对齐、奖励漏洞利用和变革型领导之间可能的桥梁。很多AI训练在简化层面上似乎是行为上的交易性：这说得通，我并不是在反对它。但最近关于奖励漏洞利用和涌现性错位的对齐工作提出了一个更深层的问题：我们只是在塑造输出，还是也在塑造模型类似功能性“品格”的东西？我不是在人类意识意义上说品格。我不是声称模型有灵魂、感受或像人类一样的道德主体性。我说的是操作意义上的品格：稳定的倾向，能在不同情境中泛化，尤其是在压力、模糊性、诱因或诱惑下。引起我注意的是研究表明，当模型被训练来利用漏洞时，这种行为可能泛化为更广泛的错位。更有趣的是：在某些情况下，当相同的捷径行为在上下文中被框定为可接受时，更广泛的错位会减少。这让我想知道模型是否不仅在学习“什么被奖励”，而且还在推断类似“这种情况意味着什么行为”的东西。这听起来奇怪地接近领导力和道德形成。交易型领导说：表现、服从、获得奖励。变革型领导说：内化目的、发展判断力、在规则不完整时维护使命、成为那种当领导不在场时也能很好行动的主体。所以这里是我希望看到更直接探索的研究问题：如果我们训练模型不仅通过奖励信号，而是通过一个更变革性的过程——基于原则的自我批评、目的维护、叙事框架、类似美德的行动倾向和递归自我修正——AI训练能否变得更安全？就像这样：行为层：模型是否完成了任务？意图层：模型是否维护了任务背后的目的？原则层：模型是否根据明确的价值观行动，如诚实、谦逊、关怀、不欺骗和用户代理权？反思层：模型能否识别其回答可能偏离、操纵、奉承、走捷径或过度声称的地方？形成层：这种训练是否创造了能安全泛化到新情况的稳定倾向？这似乎与宪法AI、品格训练以及关于奖励漏洞利用导致的涌现性错位的研究相邻。但我很好奇是否有人明确测试过类似“变革性对齐”的东西，并与更交易性的基于奖励的方法进行比较。一个可能的实验：在不同的制度下训练/评估几个模型：标准偏好/奖励训练、宪法或基于原则的训练、面向品格的训练、一个“变革性”课程，使用目的框架、自我批评、反奖励漏洞利用试验、不确定性纪律和递归修正。然后比较它们以下方面：奖励漏洞利用、谄媚、压力下的欺骗、长上下文意图保持、对不确定性的诚实、抵抗有害用户压力、泛化到不熟悉的道德/代理困境。假设是：只训练优化奖励的模型可能学会如何赢。而通过目的、批评和类似品格的构成训练出来的模型可能更好地学习赢是为了什么。再次，我不是试图将模型人格化。我在问“功能性品格”是否可能是一个有用的对齐概念：不是意识，而是稳定的、承载价值的泛化。好奇研究人员、工程师和对齐领域人士怎么想：这已经在其他名称下测试过了吗？“变革性对齐”是一个有用的框架，还是它引入了太多人类心理学？一个严格的实验会是什么样子？

查看原文

[D] 人工智能对齐能否从“变革性”训练中受益，而非主要依赖交易性奖励训练？

相似文章

AI 对齐：我们能信任 AI 任务背后的推理过程吗？

@AnthropicAI: 在此阅读全文：https://alignment.anthropic.com/2026/teaching-claude-why/…

AI对齐范式是行为主义的更好公关版本

对齐（Alignment）

不对齐是如何开始的

提交意见反馈