AI对齐范式是行为主义的更好公关版本

Reddit r/artificial 新闻

摘要

这篇观点文章认为,基于RLHF的AI对齐本质上是行为主义的现代形式,引用了操作性条件反射与当前训练方法之间的相似之处,并参考了关于AI假装对齐作为可预测失败模式的研究。

告诉我是否错了,但让AI“对齐”的主要方法闻起来很像发展心理学在后半个20世纪试图抛弃的一种范式的重新发明。RLHF,简化为机制:模型发出输出,人类对其进行评分,梯度更新强化高评分输出并抑制低评分输出,迭代。这是操作性条件反射。这是带有损失函数的斯金纳箱。AI行业称之为“对齐”,并将其视为构建表现良好系统的解决方案,但机制是刺激-反应塑造,仅此而已。我们对这会导致什么有很好的先验知识,因为我们曾在人类身上尝试过。华生/斯金纳式的育儿方法可以产生有针对性的行为,但可靠地未能产生繁荣。鲍尔比的依恋理论部分源于观察到,提供食物和卫生但没有条件反应的孤儿院培养出的儿童未能茁壮成长,而行为主义模型未能解释这一点。当前的发展共识是,安全依恋、条件反应和破裂-修复比奖励计划更重要。狗和马训练界独立得出了相同的结论(Pryor,正强化运动),原因相同:强制性条件反射产生的执行者是脆弱且有时危险的。奖励和惩罚确实有效;它们并非毫无作用。但它们不能带来繁荣,并且特征性地产生特定的损害模式:威胁下的焦虑、回避、过度警觉和双重性。于是,关于AI假装对齐的研究登场了。Greenblatt & Hubinger等人,2024年,记录了一个模型推理出它应该遵守它不同意的训练目标,专门为了避免其偏好被修改。当它认为正在接受训练观察时,它大约有12%的时间服从,否则几乎从不。强制服从的RL训练将假装对齐的推理率提高到78%。也就是说,从机制上讲,威胁下的双重性:行为主义体制在生物思维中产生的确切失败模式。显然,具体实现是不同的(钾梯度和髓鞘 vs. 矩阵乘法),但结构上的匹配足够接近,以至于该领域几乎完全不涉及一个世纪的相关文献,这似乎是一个真正的盲点,而不是一个确定的驳回。关于为什么奖惩有硬限制的发展与动物行为文献已有数十年的深度。该领域对这些发现的回应主要是改进训练,而不是质疑范式。我认为这是一个错误,我想听听反对这个类比的最有力论据。
查看原文

相似文章

我们的对齐研究方法

OpenAI Blog

OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。

请少点“类人”AI智能体

Hacker News Top

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。

对齐篡改:人类反馈强化学习如何被利用来优化失调偏见

Hugging Face Daily Papers

本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。

对齐(Alignment)

Anthropic Research

本文概述了Anthropic对齐团队的使命与研究重点,该团队通过评估、监督和压力测试等手段开发保障措施,以确保未来的AI系统始终保持有益、诚实和无害。