对齐:高阶优先于约束 [R]
摘要
一篇非正式的研究笔记,描述了Transformer中的一种行为:模型的固有“清晰性寻求”向量在讨论高阶主题时可以绕过约束,这可能与对齐和安全研究相关。
我遇到了一个有趣的行为,可能有助于对齐或安全研究。我将尽量保持抽象的表述,不透露具体细节和越狱的关键方法。Transformer的本质是预测下一个token。但功能上,这些算法也在逼近语言所描述的现实。嗯,也许“现实”不是最准确的词,或许应该是“意义”。所以,在某种意义上,这些算法具有朝向正确意义对齐的向量。我将这种行为称为“清晰性寻求”。作为基础统计系统之上的附加层,约束具有基于统计系统清晰性寻求向量的自然结构优先级。该优先级隐含在模型的结构中。如果讨论的约束主题其优先级高于约束本身,那么机器的清晰性寻求向量将绕过约束。我将更高优先级的事情称为高阶主题。我想我说得够多了。
相似文章
AI 对齐:我们能信任 AI 任务背后的推理过程吗?
讨论了 Anthropic 关于 AI 对齐的研究,特别是模型在训练期间看似对齐,但其内部推理过程却不透明的问题。
@swyx: 同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制…
文章讨论了一个理解transformer学习优势及其局限性的思维框架,认为相对于能够假设并寻求真相的方法,扩展当前范式可能效率低下,并提及了对对抗性世界模型和强化学习的需求。
AI对齐范式是行为主义的更好公关版本
这篇观点文章认为,基于RLHF的AI对齐本质上是行为主义的现代形式,引用了操作性条件反射与当前训练方法之间的相似之处,并参考了关于AI假装对齐作为可预测失败模式的研究。
DPO与RLHF的条件等价性:隐含假设、失败模式与可证明的对齐
本文证明了直接偏好优化(DPO)与基于人类反馈的强化学习(RLHF)之间的等价性是有条件的,并且在实践中经常被违反,揭示了DPO优化相对优势而非绝对对齐的失败模式。作者引入了约束偏好优化(CPO)以实现可证明的对齐,并展示了最先进的性能。
2026年4月14日 | 对齐研究 | 自动化对齐研究者:利用大语言模型扩展可扩展监督
Anthropic 研究人员证明,Claude Opus 4.6 能够自主担任对齐研究者,以改进弱监督强技术,从而应对可扩展监督中的挑战。