GLM-5.2 是开放代理的一次重大变革

Hacker News Top 模型

摘要

Z.ai 发布了 GLM-5.2,一个开放权重的 AI 模型,代表着开放代理的一次重大变革,具有强劲的基准测试表现和社区热度,使其成为唯一能与 OpenAI 和 Anthropic 的顶级封闭模型竞争的开放模型。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/24 22:54

# GLM-5.2 是开放智能体的变革性一步 来源:https://www.interconnects.ai/p/glm-52-is-the-step-change-for-open ##### 说明:上周我发布了《博客现状(https://www.interconnects.ai/p/state-of-the-blog-mid-2026)》(中2026年中),提到付费功能有所增加。现在正是提醒大家的好时机:我提供**团体订阅**(https://www.interconnects.ai/about#%C2%A7group-paid-subscriptions),座位越多折扣越大。今天我还发表了一篇关于终端智能体开放RL配方的新论文,欢迎点击**此处**(https://natolambert.substack.com/p/tmax-an-open-rl-recipe-for-terminal)阅读更多内容。 大约一周多前,当AI界仍在对令人震惊的**出口管制**以及对**Claude Fable 5**(https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety)的**有效封禁**(https://www.interconnects.ai/p/welcome-to-the-agi-era-of-ai-governance)感到震惊时,Z.ai发布了他们的最新模型GLM-5.2。这个模型**于6月13日(星期六)** 在GLM编程计划成员中**推出**(https://x.com/Zai_org/status/2065704919299235870),发布时间颇为不寻常。通常,如果AI模型在周末发布,往往是因为某种奇怪的原因(最著名的例子是**Llama 4**(https://www.interconnects.ai/p/llama-4))。¹ (https://www.interconnects.ai/p/glm-52-is-the-step-change-for-open#footnote-1)在这种情况下,Z.ai似乎是想利用"Anthropic反对开放科学"这一舆论风向——他们对AI研究人员施加了沉默式安全防护。过去一两年,中国的开放权重实验室一直在抓住每一个这样的机会进行轻松的营销。 分享 (https://www.interconnects.ai/p/glm-52-is-the-step-change-for-open?utm_source=substack&utm_medium=email&utm_content=share&action=share) 按照行业常见的命名惯例,GLM-5.2看上去只是继流行的GLM-5.1之后的一次增量更新。此时,Moonshot AI(Kimi系列的开发者)和Z.ai(GLM系列的开发者)已经在声誉市场上占据了领先地位,成为AI研究人员中最受喜爱的开放权重模型。但随后发生的事情提供了一个常见教训:追踪AI模型时,有时小版本号的变化可能意味着模型跨越了意义重大的用户体验门槛。基准测试和训练中的小改动,足以打开一系列全新的用例。 接下来,围绕GLM-5.2的热议逐渐升温。官方**模型权重**(https://huggingface.co/zai-org/GLM-5.2)(采用MIT许可)和**发布博客**(https://z.ai/blog/glm-5.2)于6月16日(初始发布三天后)正式上线。我们可以罗列许多技术细节,比如强劲的基准测试成绩、Z.ai使用的非常流行的RL框架(SLIME (https://github.com/THUDM/slime))、以及始终建议在最大思考努力模式下使用该模型等等,但最初的发布博客通常不是关注的重点。你可以等待社区的反馈来判断它是否名副其实。毕竟,**基准测试如今已经半死不活了**(https://www.interconnects.ai/p/opus-46-vs-codex-53)。 img_v3_0212o_51684a16-c33f-4429-aea5-9f5f7cdfc30g (https://substackcdn.com/image/fetch/$s_!xhhJ!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7074458b-82aa-4658-95bb-9315549abb7f_4239x2799.png) 6月16日之后,涌现出一系列社区基准测试,显示GLM-5.2的表现超出预期。**Arena的智能体排行榜**(https://x.com/arena/status/2066943450914943025)显示,它是唯一一个能与OpenAI和Anthropic最新模型一较高下的开放模型(尤其值得注意的是,Opus 4.8的无思考模式与GLM-5.2的最大模式不相上下)。这是GLM-5.2在众多评估中击败Gemini的案例之一,但这是另一个话题了。在社区中(尤其是实际设计师中)看法褒贬不一的基准测试——**Design Arena**(https://x.com/Designarena/status/2066940737011560652),甚至显示GLM-5.2超越了Claude Fable本身——那个最近被封禁的炒作机器! 几乎所有我尊敬的AI评论家和研究人员在亲自使用后都对这款模型赞不绝口。社区如此集中地讨论一款开放模型,此前只有**DeepSeek R1**(https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1)发布时才出现过。这个比较并非轻易做出的,当我将**Kimi K2的发布**比作"DeepSeek时刻"(https://www.interconnects.ai/p/kimi-k2-and-when-deepseek-moments)时,GLM-5.2的表现已经远远超过了那个时刻。Kimi K2之所以令人印象深刻,是因为开放模型性能的大幅提升似乎可以来自中国的**任何地方**。而GLM-5.2迈出的这一步,更像是AI进步的一道单向门。 Anthropic在Claude Code支撑下的创纪录营收增长,很大程度上得益于它是最好的模型,也是唯一能真正胜任这项工作的模型。GLM-5.2是众多(即将推出的)开放权重模型中第一个提供可信替代方案的产品。这与DeepSeek R1曾证明开放权重实验室(仅用更少资源)也能复现OpenAI凭借o1所倡导的思维链推理模型的情形非常相似。随着AI系统变得越来越复杂、构建成本越来越高(涉及工具、集成框架和规模化模型权重),GLM-5.2这一时刻本不一定会到来。 关键在于:**GLM-5.2是在编码框架中作为通用智能体使用时,**感觉对了**(https://www.interconnects.ai/p/claude-code-hits-different?utm_source=publication-search)的开放权重模型**。**这是第一个。**我个人早就该尝试一些近期的同类模型,比如Kimi K2.7或GLM-5.1,但这次的热度让我无法忽视。我让它通过Fireworks的API在Claude Code中帮助我为我的**后训练课程**(https://github.com/natolambert/rlhf-book/pull/457)制作内容(**设置**(https://docs.fireworks.ai/ecosystem/fireconnect/claude-code)**非常**容易)。虽然有一些小麻烦,比如Claude Code框架/我的仓库文档试图向模型发送图像,这会导致Fireworks API会话崩溃——需要手动清除上下文。总体而言,模型的能力立刻让人感觉对了,在具体使用哪个框架和推理提供商方面,我还有一些调试工作要做。 更多好评可以看看:Z.ai创始人告诉Elon"开放权重的Fable能力将在2027年Q1之前到来(https://x.com/pmarca/status/2067640859957539104)",Vercel CEO**表示**(https://x.com/rauchg/status/2068517095818809770)"真心印象深刻,甚至有点震惊,@zai_org的GLM-5.2在编程方面太棒了。这改变了游戏规则。"还有**更多**(https://x.com/ArtificialAnlys/status/2067135640249209175)来自我**深表**(https://x.com/gneubig/status/2067936197888930263?s=20)**敬意**(https://x.com/_xjdr/status/2068422921249529916)的人,以及一些我**初次接触**(https://x.com/matvelloso/status/2067791546335019439?s=20)的人。 所以,这是一个好模型,但这给我们留下了什么? 这其中涉及许多趋势。首先,从开放-封闭能力差距入手。我曾写道,如果开放模型在Claude Code中跨过Opus 4.5的门槛(大约从2026年初开始),我预计会迎来"使用量的爆炸式增长(https://www.interconnects.ai/p/some-ideas-for-what-comes-next-may)"。现在我们做到了。Claude Opus 4.5于2025年11月24日发布,到GLM-5.2于2026年6月16日发布,时间间隔为204天——大约6.8个月。这正好落在许多人所说的美国封闭实验室与中国开放对应实验室之间约6-9个月的性能滞后区间内。 写下这些时,我颇感意外。随着美国实验室在过去一年左右迅速增加算力,我曾预期性能差距会随时间拉大。这一轨迹中一个非常重要的节点将是Claude Fable 5的发布——与Claude Opus系列相比,它更依赖于规模,因此也依赖于最先进的GPU。不过,这仍不能令人满意。继续解析这一轨迹需要更多细节,我无法在这篇指路性质的文章中充分展开。 这一事件的直接意义在于,给那些正在最大化Token消耗的组织带来了更为严重的定价压力,从而将Anthropic的收入推向新高。有人预测Anthropic将无法实现其预测的年化收入,但我认为这没有充分考虑到对这类模型的实际需求以及必然的增长。这款模型的存在对开放模型**经济**是一个巨大的利好。所有像Fireworks、Together、Thinky(通过Tinker)、Prime Intellect以及任何其他销售开放模型推理或微调服务的公司,都刚刚迎来了另一个拐点。 这些影响需要很长时间才能渗透到更广泛的经济和用例中。工作流程正变得越来越复杂,人们使用不同的模型进行规划、主要编码和子智能体调度。我预计这种热潮还会继续增长,而且,就在我写这篇文章的这个周日晚间,我预计周一的媒体和市场反应可能会像DeepSeek R1发布时那样轰动。在Anthropic(以及由此延伸的美国旗舰模型)仍被禁的情况下,这种渗透是一记沉重的经济匕首。GLM-5.2获得了时间,在前沿实验室想向更高利润、更高收入领域(只有绝对前沿模型才能实现)推进时,蚕食其经济底层。 这种经济上的担忧与AI领域多次被讲述的故事相似,因此尚不清楚它何时会成为共识。 而关乎AI发展轨迹的核心讨论,则是对开放模型的监管与控制。我认为廉价智能广泛扩散是一件经济上的好事,我们的默认立场应该是为开放模型喝彩,但这款模型的发布日期将使它永远与Claude Fable——进而与Claude Mythos——在AI权力结构的心智地图中联系在一起。我们已经到了这样一个节点:美国政府认为Mythos级别的模型能力不适合发布,而中国的模型制造者却在为所有人提供的能力方面高歌猛进。 这些趋势线之间未必有因果关系,因为我们不知道GLM-5.2与其前代产品在网络性能方面的对比,但能力肯定是相关的。如果不做任何改变,这指向一种可能性:美国政府可能认定某个特定开放权重的中国模型对公众不安全。当然,这里还有许多其他潜在情景,但明确的是,我们有很多工作要做:勾勒这些情景、准备基础设施并向社会传达信息。 需要更多像我这样的人来想象并向决策者传达一个世界,让他们学会如何管理日益强大的开放模型。² (https://www.interconnects.ai/p/glm-52-is-the-step-change-for-open#footnote-2)我们还有多年的AI进步之路要走,英伟达的下一代芯片已经量产,算法也在不断进步。对于开放模型倡导者来说,这条路似乎很窄,但我们必须找到让它们可行的方式,这样巨大的性能飞跃才不会只局限于封闭模型。 我完全可以理解,想象一个开放获取的Mythos级别模型有多么可怕,但如果现在开放模型被禁,而未来两年只有一家或两家公司手中的封闭模型进步10倍或100倍,我认为届时我们将面临更大的问题。

相似文章

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

Hacker News Top

智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。

GLM-5.2 可能是目前最强大的纯文本开放权重大语言模型

Simon Willison's Blog

中国AI实验室Z.ai发布了GLM-5.2,这是一个拥有7530亿参数的开放权重大语言模型,支持100万token的上下文窗口,采用MIT许可证。该模型在Artificial Analysis Intelligence Index上获得最高分,并在Code Arena WebDev排行榜上排名第二。

zai-org/GLM-5.1

Hugging Face Models Trending

GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。