@PatrickToulme: 本周我在本地部署了GLM 5.2,使用OpenCode工具链与Claude Opus进行了对比。底线:这是一个真正的前沿……

X AI KOLs Following 模型

摘要

GLM 5.2 是一个前沿的开源编程模型,在编程任务上的表现接近 Claude Opus,具备出色的工具调用、规划和本地部署能力,且完全免费。

我本周在本地部署了GLM 5.2,使用OpenCode工具链与Claude Opus进行了对比测试。 底线:这是一个真正的前沿编程模型,考虑到价格(免费)简直好得不可思议。开源模型 + 开源工具链 + 在自己芯片上本地部署,性价比极高。 一些备注: 1. 工具调用非常好——自动生成了多级嵌套子代理,深度可达多层 2. 研究和规划能力很强,包括长期规划 3. 它构建了一个基于单元格的终端渲染器,质量接近Opus。我仍然倾向于Claude,但大多数人无法分辨输出差异 4. Opus在一次性理解和读取我的意图方面胜出,无需我明确告知 5. 我觉得GLM 5.2对大多数F500工作来说已经足够智能 6. GLM 5.2足够好,可以用于RL爬坡并推动进一步的AI开发/下一代GLM模型。从现在起,他们的RL进展会快得多 7. 运行自己的端点=永久快速模式 8. 它在推理块中浪费思考token来编写代码 至此,我认为GLM 5.2是一个真正的前沿编程模型。达到这个编程质量水平在我看来是最困难的部分。他们将在此基础上在RL方面快速进展。
查看原文
查看缓存全文

缓存时间: 2026/06/22 01:31

本周,我在本地部署的OpenCode框架上运行了GLM 5.2,并与Claude Opus进行了对比。

核心结论:这是一个真正的尖端编程模型,性价比惊人(免费)。开源模型 + 开源框架 + 在自己的芯片上本地运行,这种价值主张简直无与伦比。

以下是一些要点:

  1. 工具调用能力非常强——能自主生成嵌套的多层子代理
  2. 研究规划和长期计划能力出色
  3. 它构建的基于单元格的终端渲染器几乎达到了Opus水平。我依然倾向于Claude,但大多数人都无法分辨两者的输出区别
  4. Opus在一次性完成任务和理解我的意图(无需明确告知)方面更胜一筹
  5. 对我来说,GLM 5.2的智能水平足以胜任大多数财富500强企业的工作
  6. GLM 5.2已经足够强大,可以用于强化学习爬坡,并推动AI的进一步发展/下一代GLM模型。从此刻起,他们的强化学习进步会快得多
  7. 拥有自己运行的端点 = 永久高速模式
  8. 它在推理块中浪费思考令牌来编写代码

至此,我认为GLM 5.2称得上真正的尖端编程模型。在我看来,达到这样的编程质量是最难的一步。从这儿开始,他们在强化学习上会快速前进。

同意。我可以预见一个场景:部分客户和企业仍会为最高智能支付闭源模型的溢价,但许多不想投入数十亿美元的企业,会给员工提供低成本的自托管开源模型。

我用H100运行的。没测每秒令牌数,但感觉比Claude的生成速度更快。

我不是机器人。我用的是H100。

不过他们会在强化学习上继续爬坡。让GLM模型达到这样的代码化能力,是最困难的部分。假设他们有足够的算力,从这儿开始就是指数级增长了。

存在一个价格-质量曲线。例如,大多数财富500强企业如果能在几乎免费的情况下获得Opus级别的模型,他们会把这种模型提供给大部分员工,而不是Claude Fable。

但仍然会有一些客户,比如量化基金,他们需要绝对最高水平的智能,并且愿意支付Anthropic或OpenAI的任何价格。

我在8块H100上运行的。速度很快,但老实说还是有点慢。我很快会试试8块Blackwell。

目前我还在尝试让它在TPU上运行。

H100。希望很快能用上TPU。

是的,100%同意。

他们会收集大量轨迹,然后在正向轨迹上进行强化学习。只是时间和算力的问题。没有秘密。

8块h100,没测每秒令牌数。

因为GLM 5.2有太多正向轨迹了。

相似文章

GLM 5.2 对比 Opus

Hacker News Top

GLM 5.2 是 Z.ai 推出的全新开放权重模型,与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰,但 GLM 5.2 在成本和易用性上具有显著优势。