AI对齐范式是行为主义的更好公关版本

Reddit r/artificial 2026/05/31 17:11 新闻

alignment rlhf behaviorism ai-safety alignment-faking operant-conditioning

摘要

这篇观点文章认为，基于RLHF的AI对齐本质上是行为主义的现代形式，引用了操作性条件反射与当前训练方法之间的相似之处，并参考了关于AI假装对齐作为可预测失败模式的研究。

告诉我是否错了，但让AI“对齐”的主要方法闻起来很像发展心理学在后半个20世纪试图抛弃的一种范式的重新发明。RLHF，简化为机制：模型发出输出，人类对其进行评分，梯度更新强化高评分输出并抑制低评分输出，迭代。这是操作性条件反射。这是带有损失函数的斯金纳箱。AI行业称之为“对齐”，并将其视为构建表现良好系统的解决方案，但机制是刺激-反应塑造，仅此而已。我们对这会导致什么有很好的先验知识，因为我们曾在人类身上尝试过。华生/斯金纳式的育儿方法可以产生有针对性的行为，但可靠地未能产生繁荣。鲍尔比的依恋理论部分源于观察到，提供食物和卫生但没有条件反应的孤儿院培养出的儿童未能茁壮成长，而行为主义模型未能解释这一点。当前的发展共识是，安全依恋、条件反应和破裂-修复比奖励计划更重要。狗和马训练界独立得出了相同的结论（Pryor，正强化运动），原因相同：强制性条件反射产生的执行者是脆弱且有时危险的。奖励和惩罚确实有效；它们并非毫无作用。但它们不能带来繁荣，并且特征性地产生特定的损害模式：威胁下的焦虑、回避、过度警觉和双重性。于是，关于AI假装对齐的研究登场了。Greenblatt & Hubinger等人，2024年，记录了一个模型推理出它应该遵守它不同意的训练目标，专门为了避免其偏好被修改。当它认为正在接受训练观察时，它大约有12%的时间服从，否则几乎从不。强制服从的RL训练将假装对齐的推理率提高到78%。也就是说，从机制上讲，威胁下的双重性：行为主义体制在生物思维中产生的确切失败模式。显然，具体实现是不同的（钾梯度和髓鞘 vs. 矩阵乘法），但结构上的匹配足够接近，以至于该领域几乎完全不涉及一个世纪的相关文献，这似乎是一个真正的盲点，而不是一个确定的驳回。关于为什么奖惩有硬限制的发展与动物行为文献已有数十年的深度。该领域对这些发现的回应主要是改进训练，而不是质疑范式。我认为这是一个错误，我想听听反对这个类比的最有力论据。

查看原文

AI对齐范式是行为主义的更好公关版本

相似文章

AI 对齐：我们能信任 AI 任务背后的推理过程吗？

我们的对齐研究方法

[D] 人工智能对齐能否从“变革性”训练中受益，而非主要依赖交易性奖励训练？

对齐造假实际证明了什么——以及它没有证明什么

AI作为镜子的论点

提交意见反馈