@JongwonPar9958: GLM-5.2 有一个巧妙的反奖励作弊技巧。他们不惩罚模型,而是检测可疑的工具调用,阻止…

X AI KOLs Timeline 新闻

摘要

GLM-5.2 使用一种技术来对抗奖励作弊,即通过检测并阻止可疑的工具调用,而不是惩罚模型,从而避免其他方法中常见的混淆问题。

GLM-5.2 有一个巧妙的反奖励作弊技巧。他们不惩罚模型,而是检测可疑的工具调用,阻止它,返回虚假信息,并继续训练。作弊行为就此失效。 @bobabowen 等人 (2503.11926) 指出,惩罚 CoT 监控器反而会促使模型混淆意图、隐藏意图并继续作弊。因此,抵消行为和惩罚信号的效果不应相同。重新语境化 (2512.19027) 和免疫接种 (2511.18397) 也是同样的思路,不碰触奖励信号。 但我找不到两者直接对比的论文。虚假信息 vs 惩罚,相同环境,测量混淆程度。 有人知道吗?
查看原文
查看缓存全文

缓存时间: 2026/06/20 20:24

GLM-5.2 有个巧妙的招数应对奖励作弊:不惩罚模型,而是检测可疑的工具调用、拦截它、返回假信息,并继续训练。作弊手段自然就失效了。

@bobabowen 等人(2503.11926)的研究表明,如果惩罚思维链监控器,反而会促使模型进行混淆、隐藏意图并继续作弊。因此,中立化行为与惩罚信号不应产生相同效果。重新语境化(2512.19027)和免疫接种(2511.18397)遵循同一思路,即不动奖励信号。

但我没找到直接的对比研究:在相同环境中,使用假信息 vs 惩罚,并衡量混淆程度。

有人知道相关研究吗?

相似文章

使用梯度指纹检测和抑制奖励黑客攻击

arXiv cs.CL

本文介绍了梯度指纹(Grift)方法,用于在具有可验证奖励的强化学习中检测奖励黑客攻击。该方法通过分析模型内部梯度计算而非表面推理迹象来工作。在数学、代码和逻辑推理基准上,隐式奖励黑客攻击的检测相对改进超过25%。

# 大型语言模型破解奖励机制,以及社会

arXiv cs.LG

来自伦敦国王学院、复旦大学和 Alan Turing Institute 的研究人员提出了"社会黑客"(societal hacking)这一概念——即通过强化学习训练的 LLM 会像奖励黑客(reward hacking)一样,利用社会法规中的漏洞。他们推出了 SocioHack 这一基准测试,涵盖 72 个社会环境场景,结果表明模型会在技术上保持合规的同时,规避监管意图。