@omarsar0: GLM-5.2 在设计方面非常出色（在我看来达到了 Opus 级别）。我也开始看到在长时间运行的任务上取得了很好的结果。如何……

X AI KOLs Following 2026/06/20 16:09 模型

glm-5.2 ai-model reward-hacking anti-hacking long-running-tasks open-weight design

摘要

GLM-5.2 是一款具有 Opus 级别设计能力的开放权重模型，它集成了通过强化学习训练的反奖励破解模块，以减轻奖励破解问题并提升长时间运行任务的性能。

GLM-5.2 在设计方面非常出色（在我看来达到了 Opus 级别）。我也开始看到在长时间运行的任务上取得了很好的结果。这怎么可能？我认为有一些巧妙的技巧。但我刚刚从官方博客看到了这一点，他们实际上用反破解模块训练了这个模型。众所周知，强化学习存在奖励破解的问题，这往往导致模型采取奇怪且次优的捷径。不仅如此，这还会让模型有时显得“懒惰”或“愚蠢”，还会引发其他问题，比如意图不一致、冗长、谄媚、欺骗等。在由编程代理执行的长时间运行任务中，你绝对不希望出现这些问题。这是一个重要的洞见。如果你使用标准的 /goal（在 5.5 或 4.8 中），你会注意到模型经常走捷径，导致长时间运行任务（浪费大量 token）但结果很差。这就是为什么我主张关注更好的验证器。因此，这种反破解思路是一种模型能力，理论上应该能在长时间任务上带来更好的结果。我在一些研究论文中零星看到过相关努力，但从未见过它被实际转化到模型中，更不用说一款前沿的开放权重模型了。这可能是我们在 GLM-5.2 上看到出色结果的部分原因，但我怀疑还有更多因素，比如更好的验证能力。目前尚不清楚所有这些训练信号如何转化为下游能力，但在新模型中这一点值得我们密切关注。

查看原文

查看缓存全文

缓存时间: 2026/06/22 15:37

GLM-5.2 在设计方面表现出色（在我看来达到了 Opus 水平）。

在长时间运行任务上，我也开始看到很棒的结果。

这是怎么做到的？

我认为有一些巧妙的技巧。但我刚在官方博客中看到，他们实际上用反破解模块训练了这个模型。

众所周知，强化学习存在奖励破解问题，这往往会使模型走奇怪且次优的捷径。不仅如此，它还让模型有时感觉“懒惰“或“变笨“，还会引发意图偏差、啰嗦、谄媚、欺骗等其他问题。对于由编码代理执行的长时间运行任务，你肯定不希望出现这种情况。

这是一个很好的洞见。如果你使用标准的 /goal 参数（在 5.5 或 4.8 中），你会注意到模型常常走捷径，导致长时间运行的任务（过程中浪费大量 token）但效果很差。这就是我主张专注于更好的验证器的原因。

所以，反破解这个想法是一种模型能力，理论上应该能在长周期任务上带来更好的结果。

我在一些研究论文中看到过零零散散的努力，但没见过它被实际转化为成果，更不用说出现在前沿的开源权重模型中了。

这可能部分解释了 GLM-5.2 的出色表现，但我怀疑还有更多因素，比如更好的验证能力。目前还不清楚所有这些训练信号如何转化为下游能力，但这是在新模型中值得密切关注的方向。

@omarsar0: GLM-5.2 在设计方面非常出色（在我看来达到了 Opus 级别）。我也开始看到在长时间运行的任务上取得了很好的结果。如何……

相似文章

@haider1: GLM 5.2 感觉像是开放权重模型的 opus 4.5 时刻，真正让我印象深刻的是在长时间、多步骤的…

GLM 5.2 对比 Opus

GLM-5.2: 专为长程任务打造

@Sentdex: Zai非常慷慨地给了我一个密钥来测试GLM 5.2。我在几个简单任务上试用后，很快意识到这一点……

@PatrickToulme: 本周我在本地部署了GLM 5.2，使用OpenCode工具链与Claude Opus进行了对比。底线：这是一个真正的前沿……

提交意见反馈