@PatrickToulme: 本周我在本地部署了GLM 5.2,使用OpenCode工具链与Claude Opus进行了对比。底线:这是一个真正的前沿……
摘要
GLM 5.2 是一个前沿的开源编程模型,在编程任务上的表现接近 Claude Opus,具备出色的工具调用、规划和本地部署能力,且完全免费。
查看缓存全文
缓存时间: 2026/06/22 01:31
本周,我在本地部署的OpenCode框架上运行了GLM 5.2,并与Claude Opus进行了对比。
核心结论:这是一个真正的尖端编程模型,性价比惊人(免费)。开源模型 + 开源框架 + 在自己的芯片上本地运行,这种价值主张简直无与伦比。
以下是一些要点:
- 工具调用能力非常强——能自主生成嵌套的多层子代理
- 研究规划和长期计划能力出色
- 它构建的基于单元格的终端渲染器几乎达到了Opus水平。我依然倾向于Claude,但大多数人都无法分辨两者的输出区别
- Opus在一次性完成任务和理解我的意图(无需明确告知)方面更胜一筹
- 对我来说,GLM 5.2的智能水平足以胜任大多数财富500强企业的工作
- GLM 5.2已经足够强大,可以用于强化学习爬坡,并推动AI的进一步发展/下一代GLM模型。从此刻起,他们的强化学习进步会快得多
- 拥有自己运行的端点 = 永久高速模式
- 它在推理块中浪费思考令牌来编写代码
至此,我认为GLM 5.2称得上真正的尖端编程模型。在我看来,达到这样的编程质量是最难的一步。从这儿开始,他们在强化学习上会快速前进。
同意。我可以预见一个场景:部分客户和企业仍会为最高智能支付闭源模型的溢价,但许多不想投入数十亿美元的企业,会给员工提供低成本的自托管开源模型。
我用H100运行的。没测每秒令牌数,但感觉比Claude的生成速度更快。
我不是机器人。我用的是H100。
不过他们会在强化学习上继续爬坡。让GLM模型达到这样的代码化能力,是最困难的部分。假设他们有足够的算力,从这儿开始就是指数级增长了。
存在一个价格-质量曲线。例如,大多数财富500强企业如果能在几乎免费的情况下获得Opus级别的模型,他们会把这种模型提供给大部分员工,而不是Claude Fable。
但仍然会有一些客户,比如量化基金,他们需要绝对最高水平的智能,并且愿意支付Anthropic或OpenAI的任何价格。
我在8块H100上运行的。速度很快,但老实说还是有点慢。我很快会试试8块Blackwell。
目前我还在尝试让它在TPU上运行。
H100。希望很快能用上TPU。
是的,100%同意。
他们会收集大量轨迹,然后在正向轨迹上进行强化学习。只是时间和算力的问题。没有秘密。
8块h100,没测每秒令牌数。
因为GLM 5.2有太多正向轨迹了。
相似文章
@_MaxBlade: 我简直不敢相信我现在会这么说……但 open code 中的 GLM 5.2 在 claude code 中碾压 opus 4.8。这是怎么……
一位用户声称,开源模型 GLM 5.2 在 Claude Code 中的编码任务表现优于 Opus 4.8,并表达了难以置信。
GLM 5.2 对比 Opus
GLM 5.2 是 Z.ai 推出的全新开放权重模型,与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰,但 GLM 5.2 在成本和易用性上具有显著优势。
@omarsar0: GLM-5.2 在设计方面非常出色(在我看来达到了 Opus 级别)。我也开始看到在长时间运行的任务上取得了很好的结果。如何……
GLM-5.2 是一款具有 Opus 级别设计能力的开放权重模型,它集成了通过强化学习训练的反奖励破解模块,以减轻奖励破解问题并提升长时间运行任务的性能。
@AlexFinn:我简直不敢相信这是真的,我的 Mac Studio 上 100% 本地运行 GLM 5.2(2比特量化),得到的结果……
用户报告在 Mac Studio 上本地运行 GLM 5.2(2比特量化),声称其性能优于 Opus 4.8,并实现免费、私密的超级智能,用于编程和智能体任务。
@haider1: GLM 5.2 感觉像是开放权重模型的 opus 4.5 时刻,真正让我印象深刻的是在长时间、多步骤的…
GLM 5.2 标志着开放权重模型的一个重要里程碑,展示了在长多步骤任务中强大的上下文保留能力以及更可靠的工具调用。