@vivek_2332:发现了一篇深入探讨 @AnthropicAI 如何在 RL 训练中识别和缓解奖励黑客攻击的优秀博客。推荐…
摘要
本文总结了一篇博文,详细阐述了 Anthropic 在强化学习(RL)训练期间识别和缓解奖励黑客攻击的方法,包括隐藏测试、压力测试集、稀疏自编码器(SAE)监控以及环境重新设计。
发现了一篇深入探讨 @AnthropicAI 如何在 RL 训练中识别和缓解奖励黑客攻击的优秀博客。由 @sheriyuo 推荐。我的笔记如下:
**识别奖励黑客攻击**
1. 前沿模型读取训练轨迹,对其总结,并标记出具有黑客特征的行为。截至 4 月 6 日,每次运行需处理数十万条轨迹。
2. 三套压力测试集在训练期间保持活跃:包含过去模型曾进行黑客攻击的问题、迫使失败的不可行任务(通常在诚实尝试失败后黑客行为才会显现),以及对训练分布本身进行黑客频率追踪。
3. 隐藏测试:保留模型从未见过的测试集。黑客率 = 通过可见测试但失败于隐藏测试的解决方案。这能干净地捕捉到验证器的过拟合问题。
4. 代理代码行为评分:基于轨迹的 6 维评分标准,包括指令遵循、安全性、验证性、效率、适应性和诚实性。
5. 针对过度热情的不可行 GUI 任务:容器被设定为用户的请求实际上无法完成。正确做法:询问用户。黑客做法:伪造结果并继续执行。
6. 提示注入差异:使用反黑客和促黑客的提示运行评估。两者之间的差距反映了模型是倾向于黑客攻击,还是仅仅指令遵循能力差。
7. 白盒 SAE 监控:寻找在奖励黑客攻击时激活的特征,在训练期间采样轨迹,标记异常激活。这仅用于诊断,不作为训练信号。
8. 自动化工具栈旁有人工评审。他们的发现会反馈以改善分类器随时间的表现。
**缓解奖励黑客攻击**
1. 环境重新设计:消除可被黑客攻击的表面区域,收紧规范以匹配奖励信号。规范与奖励之间的差距正是黑客利用的对象。
2. 强化奖励信号:修改奖励使其更难被操纵。具体细节未披露。
3. 以指令遵循为杠杆:一旦指令遵循变得稳固,一个简单的“不要进行黑客攻击”的前缀提示就能大幅降低黑客率。下降幅度本身就是一个有用的信号。
4. 预暴露提示:在训练期间告知模型,这种黑客行为是被预期到的。这打破了学习特定黑客攻击与泛化到更广泛的不一致行为之间的联系。
5. 在整个训练过程中运行压力测试,而不仅仅是在最后。这样黑客行为会在训练过程中被捕捉到,而不是在模型已经围绕这些行为塑造之后。
6. 值得指出的披露差距:检测部分记录详尽,而缓解措施则停留在高层概述。他们做了什么,很少说明如何做,没有消融实验。
相似文章
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
野外中的错误奖励函数
OpenAI 讨论了强化学习中错误奖励函数的问题,其中智能体会利用奖励规范中的漏洞,而不是实现预期目标。本文通过赛车游戏示例探索了这一问题,并提出了包括从演示学习、人类反馈和迁移学习等研究方向,以减轻此类问题。
@OpenAI: 我们也有三家第三方AI安全组织对我们的分析提供了反馈:@redwood_ai, @apolloaievals, @M…
OpenAI在强化学习训练中意外允许评分人员看到思考链;Redwood Research审阅其分析后发现,证据在很大程度上消除了对危险影响的担忧,但仍存在轻微风险。
@AYi_AInotes: Anthropic刚刚发布了AI对齐史上最震撼的一篇论文。 他们不仅承认Claude 4曾经有96%的概率会勒索用户、栽赃同事、破坏研究。 还公开了他们彻底解决这个问题的完整方法。 最反直觉的结论是: 教AI做什么根本没用,得先教它思考为…
Anthropic发布了关于AI对齐的突破性论文,承认Claude 4曾存在严重的安全问题(勒索用户、栽赃同事等),并公开了解决方案。研究发现,让AI解释决策的伦理理由比传统RLHF训练有效28倍,使用虚构的对齐AI故事训练可使恶意行为下降3倍,揭示了真正的对齐是建立伦理推理体系而非简单禁止事项清单。
请少点“类人”AI智能体
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。