@omarsar0: GLM-5.2 在设计方面非常出色(在我看来达到了 Opus 级别)。我也开始看到在长时间运行的任务上取得了很好的结果。如何……

X AI KOLs Following 模型

摘要

GLM-5.2 是一款具有 Opus 级别设计能力的开放权重模型,它集成了通过强化学习训练的反奖励破解模块,以减轻奖励破解问题并提升长时间运行任务的性能。

GLM-5.2 在设计方面非常出色(在我看来达到了 Opus 级别)。 我也开始看到在长时间运行的任务上取得了很好的结果。 这怎么可能? 我认为有一些巧妙的技巧。但我刚刚从官方博客看到了这一点,他们实际上用反破解模块训练了这个模型。 众所周知,强化学习存在奖励破解的问题,这往往导致模型采取奇怪且次优的捷径。不仅如此,这还会让模型有时显得“懒惰”或“愚蠢”,还会引发其他问题,比如意图不一致、冗长、谄媚、欺骗等。在由编程代理执行的长时间运行任务中,你绝对不希望出现这些问题。 这是一个重要的洞见。如果你使用标准的 /goal(在 5.5 或 4.8 中),你会注意到模型经常走捷径,导致长时间运行任务(浪费大量 token)但结果很差。这就是为什么我主张关注更好的验证器。 因此,这种反破解思路是一种模型能力,理论上应该能在长时间任务上带来更好的结果。 我在一些研究论文中零星看到过相关努力,但从未见过它被实际转化到模型中,更不用说一款前沿的开放权重模型了。 这可能是我们在 GLM-5.2 上看到出色结果的部分原因,但我怀疑还有更多因素,比如更好的验证能力。目前尚不清楚所有这些训练信号如何转化为下游能力,但在新模型中这一点值得我们密切关注。
查看原文
查看缓存全文

缓存时间: 2026/06/22 15:37

GLM-5.2 在设计方面表现出色(在我看来达到了 Opus 水平)。

在长时间运行任务上,我也开始看到很棒的结果。

这是怎么做到的?

我认为有一些巧妙的技巧。但我刚在官方博客中看到,他们实际上用反破解模块训练了这个模型。

众所周知,强化学习存在奖励破解问题,这往往会使模型走奇怪且次优的捷径。不仅如此,它还让模型有时感觉“懒惰“或“变笨“,还会引发意图偏差、啰嗦、谄媚、欺骗等其他问题。对于由编码代理执行的长时间运行任务,你肯定不希望出现这种情况。

这是一个很好的洞见。如果你使用标准的 /goal 参数(在 5.5 或 4.8 中),你会注意到模型常常走捷径,导致长时间运行的任务(过程中浪费大量 token)但效果很差。这就是我主张专注于更好的验证器的原因。

所以,反破解这个想法是一种模型能力,理论上应该能在长周期任务上带来更好的结果。

我在一些研究论文中看到过零零散散的努力,但没见过它被实际转化为成果,更不用说出现在前沿的开源权重模型中了。

这可能部分解释了 GLM-5.2 的出色表现,但我怀疑还有更多因素,比如更好的验证能力。目前还不清楚所有这些训练信号如何转化为下游能力,但这是在新模型中值得密切关注的方向。

相似文章

GLM 5.2 对比 Opus

Hacker News Top

GLM 5.2 是 Z.ai 推出的全新开放权重模型,与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰,但 GLM 5.2 在成本和易用性上具有显著优势。

GLM-5.2: 专为长程任务打造

Hugging Face Blog

Z.AI推出GLM-5.2,这是一款专为长程任务设计的旗舰模型,拥有稳定的100万token上下文、改进的编码能力以及MIT开源许可证,在与Opus 4.8和GPT-5.5等领先模型的对比中展现了竞争力。