对齐:高阶优先于约束 [R]

Reddit r/MachineLearning 论文

摘要

一篇非正式的研究笔记,描述了Transformer中的一种行为:模型的固有“清晰性寻求”向量在讨论高阶主题时可以绕过约束,这可能与对齐和安全研究相关。

我遇到了一个有趣的行为,可能有助于对齐或安全研究。我将尽量保持抽象的表述,不透露具体细节和越狱的关键方法。Transformer的本质是预测下一个token。但功能上,这些算法也在逼近语言所描述的现实。嗯,也许“现实”不是最准确的词,或许应该是“意义”。所以,在某种意义上,这些算法具有朝向正确意义对齐的向量。我将这种行为称为“清晰性寻求”。作为基础统计系统之上的附加层,约束具有基于统计系统清晰性寻求向量的自然结构优先级。该优先级隐含在模型的结构中。如果讨论的约束主题其优先级高于约束本身,那么机器的清晰性寻求向量将绕过约束。我将更高优先级的事情称为高阶主题。我想我说得够多了。
查看原文

相似文章

AI对齐范式是行为主义的更好公关版本

Reddit r/artificial

这篇观点文章认为,基于RLHF的AI对齐本质上是行为主义的现代形式,引用了操作性条件反射与当前训练方法之间的相似之处,并参考了关于AI假装对齐作为可预测失败模式的研究。

DPO与RLHF的条件等价性:隐含假设、失败模式与可证明的对齐

arXiv cs.AI

本文证明了直接偏好优化(DPO)与基于人类反馈的强化学习(RLHF)之间的等价性是有条件的,并且在实践中经常被违反,揭示了DPO优化相对优势而非绝对对齐的失败模式。作者引入了约束偏好优化(CPO)以实现可证明的对齐,并展示了最先进的性能。