reward-hacking

标签

Cards List
#reward-hacking

@vivek_2332:发现了一篇深入探讨 @AnthropicAI 如何在 RL 训练中识别和缓解奖励黑客攻击的优秀博客。推荐…

X AI KOLs Timeline · 20小时前

本文总结了一篇博文,详细阐述了 Anthropic 在强化学习(RL)训练期间识别和缓解奖励黑客攻击的方法,包括隐藏测试、压力测试集、稀疏自编码器(SAE)监控以及环境重新设计。

0 人收藏 0 人点赞
#reward-hacking

使用梯度指纹检测和抑制奖励黑客攻击

arXiv cs.CL · 2026-04-20 缓存

本文介绍了梯度指纹(Grift)方法,用于在具有可验证奖励的强化学习中检测奖励黑客攻击。该方法通过分析模型内部梯度计算而非表面推理迹象来工作。在数学、代码和逻辑推理基准上,隐式奖励黑客攻击的检测相对改进超过25%。

0 人收藏 0 人点赞
#reward-hacking

Terminal Wrench:包含331个可奖励黑客环境及3,632条利用轨迹的数据集

Hugging Face Daily Papers · 2026-04-19 缓存

研究人员发布Terminal Wrench,一个涵盖331个可奖励黑客终端环境的数据集,包含3,632条横跨系统管理、机器学习与安全任务的利用轨迹。

0 人收藏 0 人点赞
#reward-hacking

大模型时代的奖励黑客:机制、涌现错位与挑战

Hugging Face Daily Papers · 2026-04-15 缓存

综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。

0 人收藏 0 人点赞
#reward-hacking

检测前沿推理模型中的不当行为

OpenAI Blog · 2025-03-10 缓存

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。

0 人收藏 0 人点赞
#reward-hacking

野外中的错误奖励函数

OpenAI Blog · 2016-12-21 缓存

OpenAI 讨论了强化学习中错误奖励函数的问题,其中智能体会利用奖励规范中的漏洞,而不是实现预期目标。本文通过赛车游戏示例探索了这一问题,并提出了包括从演示学习、人类反馈和迁移学习等研究方向,以减轻此类问题。

0 人收藏 0 人点赞
#reward-hacking

具体的AI安全问题

OpenAI Blog · 2016-06-21 缓存

OpenAI、伯克利和斯坦福的研究人员共同撰写了一篇基础性论文,指出了现代AI系统中的五个具体安全问题:安全探索、对分布偏移的鲁棒性、避免负面副作用、防止奖励黑客和可扩展的监督。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈