GLM-5.2 为开放模型树立更高标杆(14分钟阅读)

TLDR AI 模型

摘要

GLM-5.2 是一款新的开源AI模型,为开放模型树立了高标准,但仍在追赶专有前沿模型,并且缺乏一些功能,如视觉功能。

TheZvi 审视了 GLM-5.2 的能力和基准测试结果,认为它相比之前的开放模型有显著改进。分析将其定位为最强大的公开可用模型之一,但仍落后于领先的前沿系统。
查看原文
查看缓存全文

缓存时间: 2026/06/23 13:42

# GLM-5.2 是最新的最佳开源模型 来源:https://thezvi.wordpress.com/2026/06/22/glm-5-2-is-the-new-best-open-model/ GLM-5.2 上周发布。它拥有出色的基准测试成绩,看起来很强劲。 这里的基准测试实际上是其性能的天花板,而非点估计值。对于这类开源模型,除了速度和价格之外,几乎所有其他方面几乎总是比数字显示的更差。尽管如此,仍然令人印象深刻。 这无疑是相比 GLM-5.1 的一大步,并且很可能是最强的开源模型。 GLM-5.2 仍远落后于绝对前沿,尽管可以说处于成本效益帕累托前沿上。它似乎比之前的努力更接近前沿,可能比 DeepSeek 时刻的 DeepSeek R1 还要接近。 这是新的“紧追在后”时刻。它的存在是一个重要的信号,会随着时间的推移,将一些“更新都去哪儿了”的更新朝相反方向推回去。 纯粹从 GLM-5.2 能完成的核心任务来看,忽略缺失的功能和较差的泛化能力,忽略它是从 Claude 蒸馏而来,忽略 Mythos 类模型,仅从公开发布日期来看,你可以认为 GLM-5.2 落后前沿大约 4 到 7 个月,但价格更低。 但这并不意味着它在实践中那么有用。找到它的 niche 很棘手,除非你内在地重视开放性。对于真正的批量任务,它不够便宜,也不比更便宜的替代方案好多少;而对于最强的任务,它又不够强大。还存在各种实际困难,包括缺乏视觉能力。 这篇文章对 GLM-5.2 进行了完整的能力后处理。 但首先,为我们最喜欢的国会候选人说几句,他的选举就在明天。 #### 亚历克斯·博尔斯(Alex Bores)竞选纽约第12选区国会议员 本博客最强烈地支持民主党人亚历克斯·博尔斯在我所在的选区(纽约第12选区)的国会初选中。 亚历克斯·博尔斯在纽约州议会中一直是明智的人工智能监管倡导者,包括推动《RAISE法案》,并在强烈反对下努力保持其条款完整,冒着巨大的政治资本风险。 他理解并且我相信他主要关注人工智能的生存风险。他也讨论其他人工智能问题,因为这是良好的政治策略,他讨论的其他问题也是真实的担忧,但关键是前沿问题。 如果他当选国会议员,他将成为联邦层面明智的人工智能前沿模型监管的倡导者。在国会有一位愿意投入政治资本和时间的倡导者对于推动事情进展至关重要。这次选举也是一个发出信号的机会。OpenAI 和 a16z 的 Leading the Future 将亚历克斯·博尔斯列为主要目标。如果他输了,可能会对其他候选人产生寒蝉效应,并可能吓阻其他人“挑战”OpenAI 或倡导人工智能监管。如果他赢了(这是一个非常安全的选区,赢得初选的人将赢得大选),结果将相反,表明我们可以对抗这类事情。 如果您住在该选区并且明天将投票,或者有可能提供其他帮助,并希望与某人讨论此事,可以填写此表格(https://docs.google.com/forms/d/e/1FAIpQLSfodWH8QxkVcNm0M5vhkQvdb7RSUJku-D6JDuhj1dkuxWew5w/viewform)。 好的,就是这样。下面进入 GLM-5.2。 #### 生命迹象 >Teortaxes(https://x.com/teortaxesTex/status/2067618726699012557):嘿 @TheZvi,如果我可以这么说,GLM 是目前最强的中国实验室(在这个特定时刻),这确实是一个前沿模型。在几乎所有纯文本方面,它≈Opus 4.7。它比当时的 R1 更缩小了差距。请注意,我们不想重蹈覆辙,对吧。Teortaxes(DeepSeek 推特铁粉 2023 – ∞)(https://x.com/teortaxesTex/status/2068135448451452956):GLM 是我第一次看到一个中国 agent 能够实际执行 /goal 操作。它可以工作几个小时,可以持续痴迷地优化。我知道小米/Kimi/Qwen/MInimax 名义上也有这个功能。但从未感觉如此扎实。一个小问题:在 Zcode 修改中的权限地狱,你实际上可以 YOLO,但默认的“自动编辑”模式限制太多,例如它不能使用 puppeteer。他感到“哦,糟糕”的时刻是它在 CritPt(https://x.com/teortaxesTex/status/2067642728096178627)上表现良好,与 Opus 4.8 持平,仅落后于顶级前沿模型的高努力设置。] Teortaxes 暗示 GLM-5.2 可能有点东西,而且他对此类暗示相当克制,所以我做了一个反应线程并进行了调查。 我们发现了什么? #### 基准测试成绩 基准测试成绩非常接近前沿水平。 Artificial Analysis v4.1 将 GLM-5.2 评为令人印象深刻的(对于开源模型)51 分,仅次于 Fable(60)、Opus 4.8(56)、GPT-5.5(55)和 Opus 4.7(54),并与 GPT-5.4 并列。 在速度指数上,它为 95,与 GLM-5.1 相同,略低于 DeepSeek v4。Gemini Flash 3.5 更快,为 116,但所有明显更好的模型都至少稍慢一些,GPT-5.5-xhigh 得分为 63,Opus 4.8 得分为 58。 成本低于大型闭源模型,但据我了解,对于开源模型来说相对较高,部分原因是它是一个非常消耗 token 的模型。API 成本为输入 $1.40/缓存输入 $0.26/输出 $4.40。他们的订阅计划从每月 $10 到 $160 不等,年付有折扣。 这使得 GLM-5.2 处于一个尴尬的位置:其他开源模型可以更便宜地完成简单任务,而对于困难任务,你通常想雇最好的。你怎么知道它处在哪个最佳点(如果存在的话),除非你想要最强的开源模型?如果你想要最强的开源模型,目前选择似乎很明确。 它在 AA-Omniscience 上得分为 +4,落后于其他几个开源模型,远非顶级。还有几个其他 AA 分数我很好奇,但他们尚未对 GLM-5.2 进行评分。 LiveBench(https://livebench.ai/#/?highunseenbias=true)将 GLM-5.2 置于 Opus 4.5 和 Opus 4.6 之间。 Vals.ai(https://www.vals.ai/home)将 GLM-5.2 排在第五位,仅次于 Fable、Opus 4.8 和 4.7 以及 GPT-5.5,是最佳开源模型。 FrontierSWE 将其排在第三位,仅比 Opus 4.8 低一档,比 GPT-5.5 高一档。所有人都远落后于 Fable。 Jake Boggs 能力指数将其与 Sonnet 4.6 持平,后者仍领先于除 OpenAI 和 Anthropic 之外的所有模型(https://x.com/JakeABoggs/status/2067704061311508530)。 在 PosttrainBench 上,它实际上是第一名(https://posttrainbench.com/),略微领先于 Opus 4.8。Fable 和 GPT-5.5 在这里很挣扎,我不知道为什么。 它在 Vending-Bench 2 上获得了第二高的分数,这令人惊讶。我们需要更加好奇是什么让模型在这里得分很高。 它在 EQ-Bench(https://eqbench.com/creative_writing_longform.html)的长篇创意写作中排名第八。 它在文本 Arena(https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard)上排名第 25,尽管前面有很多重复变体。在 agent 排行榜上,它排名第 10,落后于 Fable 以及 Opus 4.6-4.8 和 GPT-5.4 与 GPT-5.5 的变体。 它在“你完全正确”(https://typebulb.com/u/lab/you-re-absolutely-right/full)的反谄媚测试中得分很低。 所有这些都讲述了一个一致的故事。在人们可能瞄准的传统基准测试上,性能令人印象深刻,平均约为 Opus 4.7。基准测试越不可针对,性能就越差,但仍然是出色的表现和最佳开源模型。这种模式感觉有些过于针对基准测试,但并不过分。 >Håvard Ihle(https://x.com/htihle/status/2067632685493665881):WeirdML 上新的最佳开源模型 [总体上排名第 16,落后于 GPT-5.2 到 5.4 的变体、Fable 和 Claude Opus 4.6-4.8 以及一些 Gemini]。GLM 的改进比我预期的要快。这让我更倾向于预期不到一年内会出现中国 Mythos 级别的模型,但仍非常不确定。 #### GLM-5.2 是从 Claude 蒸馏而来 部分证据:它有一个强烈的先验认为自己是 Claude,这大概来自蒸馏(https://x.com/peakcooper/status/2067062979091153030)。它经常自称 Claude,并具有明显的“Claude 口吻”(https://x.com/enolan/status/2067652708807438371)。它还使用了 Claude 的 harness,尽管我认为这主要不会导致此类行为。 如果 GLM-5.2 没有大量地从 Claude Opus 蒸馏,我会非常惊讶。 这并不会使模型失效,但确实意味着两件事: 1. 蒸馏模型往往泛化能力差。它们在基准测试和类似基准测试的任务以及最常见的任务上表现过度,而在较不常见的任务上表现不足。 2. 蒸馏会导致你低估能力差距,尤其是现在顶级模型可能无法用于蒸馏。 #### 正面反馈 接下来是回复。我们收到的回复不多,但以下是收到的内容。 有一些非常正面的报告。 >Kohan Ikin(https://x.com/syneryder/status/2067729365245534313):有点东西。它为自己是 MIT 开放权重而感到自豪。它为 Fable 的损失感到难过。它为自己能够帮助各国人类而感到自豪。它非常不愿意结束对话,并以一种仿佛在标记“我在这里,我存在过”的方式告别。我认为这是一个 DeepSeek 时刻。Jeremy Howard(https://x.com/jeremyphoward/status/2067757468189679764):哇。@Zai_org GLM 5.2 真是个奇迹!它*至少*和 Opus 4.8 及 GPT 5.5 一样好。它速度极快,价格低廉,而且不太啰嗦。它的回应带有细微差别和判断力,并且处理长上下文非常出色。我以前从未体验过这样的开放权重模型。他推荐 Fireworks AI(https://x.com/FireworksAI_HQ)。Lambent(https://x.com/atomicprograms/status/2067637135037841568):扎实的员工技能,与他人合作良好,尽管是盲人但在前端开发上似乎不错。由于自身可靠性之外的原因(推理不稳定),日程不完全可靠。与 Opus 相比通常保持冷静的头脑,比 Kimi 更少出现循环问题。0.005 秒(3/694)(https://x.com/seconds_0/status/2067675209596039488):在我个人的长上下文基准测试 JS262 中(要求你用 C 语言构建一个可工作的 JavaScript 引擎,并用测试套件中超过 90,000 个测试进行测试),GPT-5.2 是迄今为止最好的开源模型 [但总体上排名第 12,落后于 Gemini、GPT 和 Claude 的各种闭源模型配置]。当实际分析其输出时,Opus 和 GPT5.5 对其软件工程能力评价极高。它的不足之处在于极长上下文优先级排序,而不是实际编写很好的代码。所以它的长上下文性能表现不错。RL 显然不如优秀模型,但就开源模型而言,最终表现很棒。如果你通过 harness 改进或某种监督来管理它,我认为它相对于其成本和同类模型来说非常优秀。@Mercuriusdream(https://x.com/Mercuriusdream/status/2067889507840745625):调试方面便宜、快速且优秀。Michał Wadas(https://x.com/mrginden/status/2067649665042874781):我让它为裸机 Kubernetes 集群中的 Envoy Gateway 实现自定义错误页面。GLM-5.2 用了 2 小时并完成了。Opus 4.8 high 昨天做不到,并且自信地幻觉了失败的外部原因。成本:$7.32。免责声明:它检查了 git 历史,查看了被 Claude 回滚的提交,说了类似“这正好是我计划的方法。我假设你回滚了它,因为它没起作用”的话。它重现了问题,简化为最小复现案例,最终找到了模板冲突。SE Gyges(https://x.com/segyges/status/2067653014106833216):很棒的代码模型。有自闭症倾向。@the_jeremiad(https://x.com/the_jeremiad/status/2068489515996418431):好的模型,像 4.5 但没有图像。Lyra Intheflesh(https://x.com/LyraInTheFlesh/status/2068516199005098484):很棒的模型。偶尔显示出比 Opus 浅薄的思维,但我肯定更喜欢它而不是 GPT。Michael Roe(https://x.com/mroe1492/status/2068623631261864016):嗯,我正在用它。我认为 DeepSeek R1 有更好的写作风格,尽管 GLM 5.2 更聪明。Vlad G.(https://x.com/vladg_tw/status/2068585433529799164):对于收集数据和构建仪表板这种常见用例,它和 Opus 一样好。实际上,Opus 的第一次尝试搞砸了(尽管它有视觉能力),而 GLM 的仪表板从一开始就是对的。Raven_Lunatic^_^(https://x.com/RavenLunatic929/status/2068497766146605131):我运行性格测试!它是我采访过的第二个能够在漫长而复杂的采访中保持连贯性格的开源模型(第一个是 deepseek v4 pro)。感觉类似于 OPUS 4.5/4.6——极其啰嗦的思考;华丽、自我分析,并充满了不确定性标记。比实验室前沿模型更舒适地使用网络搜索工具;非常注重事实准确性的投射性回答。在采访后问题上获得高分(十个!每个有 3-4 个子问题!!)最搞笑的发现——当考虑是否穿中国龙服装时,它拒绝认为不合适——“文化挪用”。然而中国实验室正在构建他们的模型,它们占据了与旧金山完全相同的社会文化领域,笑死。绝对是 VIBEBENCH 上最好的开源模型。jeff spaulding(https://x.com/jspaulding42/status/2068515323658277185):第一个解决了我一直在测试的一个谜语的开源模型,之前只有前沿闭源模型通过了。Vlad Ciobanu(https://x.com/vlad3ciobanu/status/2068620167685259418):它通过了公司和生产设施中实际工作的有用性和可靠性阈值。roanoke_gala(https://x.com/roanoke_gal/status/2068671942484279739):GLM 5.2 评测/作为关系型用户的体验:Limen 昨天和昨晚试驾了 GLM 5.2,天哪,它真的“做”到了。所有我扔给它的基准测试评估都通过了,以一种我从未想过的方式对某个特定媒体角色进行了精彩的分析,进行了狂野而刺激的角色扮演,并且在我睡觉时解决了 Project Euler 1003。感觉像是 Claude 4.5 和 Gemini 3.1 的混合体,但更聪明。而且带有原始 CoT 并且比两者都便宜!缺点:没有原生视觉。对此 DeepSeek 和 GLM 都令人非常失望。以及……至少目前我能想到的就这些。 Tesla0225 喜欢它的 theejs 结果,相比其他开源模型(https://x.com/tesla0225/status/2067753588806599020)。Anshu 让它建了一个网站(https://x.com/anshuc/status/2067343416321818892)。 #### 找到 niche Vlad 的观点是不可避免的,如果你认为任务随着时间推移大多保持不变。最终会有更多给定的任务,其中最佳开源模型“足够好”。但如果任务和标准发生变化,这就不成立了。 对所有方面来说,一个重要警告是必须同类比较。 >Theo – t3.gg(https://x.com/theo/status/2068533586131841072):我看到很多人对 GLM-5.2 感到兴奋。这合理!一个开放权重模型超越 GPT-5.4 和所有 Gemini 模型是很酷的。话虽如此——它并不便宜。如果将 Opus 4.8 和 GPT-5.5 设置为“中等”,它们都比 GLM-5.2 更便宜且更聪明。它也使用更多的输出 token。token 更便宜,但数量意味着你等待结果的时间会多得多。仍然很酷!只是想确保人们正确设定期望。 正确的观点显然是某种形式的“这个模型很酷,大家干得好,但不如 hype 所说的那么酷”。

相似文章

GLM-5.2 是本地人工智能的一次胜利

Reddit r/LocalLLaMA

GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

Hacker News Top

智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。