GLM 5.1 战略思考,数据中心反抗加剧,当有用的LLM变得无用时,人形机器人开始工作
摘要
Andrew Ng 讨论了编码代理如何以不同速度加速不同类型的软件工作,其中前端开发受益最大,研究受益最小。
The Batch AI新闻与洞察:编码代理正在以不同程度加速不同类型的软件工作。
查看缓存全文
缓存时间: 2026/05/08 06:24
# GLM 5.1 战略思考,数据中心反抗升级,当有用的LLM变得无用,以及更多……
来源:https://www.deeplearning.ai/the-batch/issue-350/
亲爱的朋友们,
编程智能体正在以不同程度加速不同类型的软件工作。当我们组建团队时,理解这些差异有助于我们设定现实的期望。将功能按加速程度从最高到最低排序,我的顺序是:前端开发、后端开发、基础设施和研究。
**前端开发**——例如,为一个电商网站构建展示产品描述的网页——速度大幅提升,因为编程智能体精通流行的前端语言如TypeScript和JavaScript,以及像React和Angular这样的框架。此外,通过观察它们通过操作网络浏览器构建的内容,编程智能体现在非常擅长闭环并迭代自己的实现。诚然,当前的LLM在视觉设计方面仍然薄弱,但给定一个设计(或者如果精美的设计不重要),实现速度非常快!
**后端开发**——例如,构建API来响应查询请求产品数据——则更难。人类开发者需要付出更多努力来引导现代模型思考可能导致细微错误或安全漏洞的边缘情况。此外,后端错误可能导致非直观的连锁效应,比如数据库损坏偶尔返回错误结果,这比典型的前端错误更难调试。最后,虽然使用编程智能体进行数据库迁移可能更容易,但仍然很困难,需要小心处理以防止数据丢失。虽然后端开发因编程智能体而快得多,但加速程度较低,经验丰富的开发者设计实现的后端仍然远优于使用编程智能体的缺乏经验的开发者。
**基础设施**。智能体在诸如将电商网站扩展到1万活跃用户同时保持99.99%可靠性等任务上效率更低。LLMs在基础设施以及优秀工程师必须做出的复杂权衡方面知识仍然相对有限,因此我很少信任它们来处理关键的基础设施决策。构建良好的基础设施通常需要一段测试和实验期,编程智能体可以帮助实现这一点,但最终这是一个显著的瓶颈,快速AI编码帮助不大。最后,寻找基础设施错误——例如,微妙的网络配置错误——可能非常困难,需要深厚的工程专业知识。因此,我发现编程智能体对关键基础设施的加速程度甚至低于后端开发。
插图展示了带有标注赛车的竞赛动态,突出显示了各种软件开发阶段。**研究**。编程智能体对研究工作的加速作用更小。研究涉及思考新想法、提出假设、运行实验、解读结果以可能修改假设,并迭代直至得出结论。编程智能体可以加快我们编写研究代码的速度。(我也使用编程智能体来帮助编排和跟踪实验,这使得单个研究人员更容易管理更多的实验。)但研究工作中除了编码还有很多其他工作,而当前的智能体对研究的帮助微乎其微。
将软件工作分为前端、后端、基础设施和研究是一种极端的简化,但对于不同任务加速程度的简单心智模型,对于我如何组织软件团队非常有用。例如,我现在要求前端团队实现产品的速度比一年前快得多,但我对研究团队的期望变化不大。
我对如何组织软件团队使用编程智能体来实现速度感到着迷,并将在未来的信件中继续分享我的发现。
继续构建!
Andrew
---
## 来自DeepLearning.AI的消息
宣传横幅:“构建多模态数据管道” (https://www.deeplearning.ai/short-courses/building-multimodal-data-pipelines)在“构建多模态数据管道”中,你将学习构建端到端处理图像、音频和视频的管道。你将把非结构化数据转换为可查询的形式。免费注册 (https://www.deeplearning.ai/short-courses/building-multimodal-data-pipelines)
## 新闻
GLM-5.1 在 SWE-Bench Pro 和 Terminal-Bench 2.0 中表现出色,在编码和推理测试中领先。### GLM 5.1 瞄准长时间运行任务
Z.ai 发布了其旗舰级开源大语言模型的更新版本,使其能够自主执行单个任务长达八小时。
**新特性:**GLM-5.1 (https://z.ai/blog/glm-5.1?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4) 专为编码和智能体任务设计。Z.ai 表示,该模型可以尝试一种方法,评估结果,如果结果不理想则修改其策略,重复这一循环数百次,而不是过早放弃。
- **输入/输出:**文本输入(最多 200,000 个 token),文本输出(最多 128,000 个 token)
- **架构:**混合专家 Transformer,总参数 7540 亿,每个 token 激活 400 亿参数
- **特性:**推理、函数调用、结构化输出
- **性能:**在 Artificial Analysis Intelligence Index 上得分最高的开源模型,在 Arena Code 排行榜上排名第三,在 SWE-Bench Pro 中领先(根据 Z.ai 的测试)
- **可用性/价格:**权重可通过HuggingFace (https://huggingface.co/zai-org/GLM-5.1?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)获取,用于商业和非商业用途,采用MIT许可证,API (https://docs.z.ai/guides/overview/pricing?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)价格:每百万输入/缓存/输出 token $1.40/$0.26/$4.40,编码计划每季度 $48.60 到 $432
- **未披露:**具体架构、训练数据和方法。
**工作原理:**Z.ai 尚未发布针对 GLM-5.1 的技术报告,它似乎遵循GLM-5 (https://www.deeplearning.ai/the-batch/z-ais-glm-5-model-boasts-top-open-weights-intelligence-index-score/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4) 的基本架构、注意力机制、预训练和输入/输出大小限制。关键改进在于长时间运行任务中的持续生产力。
- 在 GLM-5 和许多其他模型在某个 token 预算内或直到它们确定进一步推理不会改变结果时产生最终输出时,GLM-5.1 会循环进行规划、执行、中间结果评估以及方法评估,直到它判断任务完成。如果它发现当前方法不理想,会切换策略,在 Z.ai 的测试中有时会跨多个小时使用数千次工具调用。
- 该公司表示已优化 (https://docs.z.ai/guides/llm/glm-5.1?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)GLM-5.1 用于智能体编码,但未具体说明方式。
**性能:**GLM-5.1 在开源模型中取得了强劲的编码结果,但在推理和数学测试中落后于闭源模型。
- 在 Artificial Analysis 的 Intelligence Index(一项包含 10 个经济有用任务测试的综合指标)中,GLM-5.1 设置为推理模式(51 分)在开源模型中得分最高,但落后于专有模型 Gemini 3.1 Pro Preview 设置为推理和 GPT-5.4 设置为 xhigh 推理模式(并列 57 分)以及 Claude Opus 4.6 设置为最大推理模式(53 分)。
- 在Arena (https://arena.ai/leaderboard/code?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)的 Code 排行榜(基于盲测一对一比较对模型进行排名)上,GLM-5.1 在发布后几天内达到 1530 Elo,排名第三,仅次于 Claude Opus 4.6(1542 Elo)和 Claude Opus 4.6 设置为推理模式(1548 Elo)。
- 在 Z.ai 自己的测试中,GLM-5.1在 (https://docs.z.ai/guides/llm/glm-5.1?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)SWE-Bench Pro 上领先(一项源自 GitHub 的真实世界软件工程问题测试),达到 58.4%,而 GPT-5.4 为 57.7%,Claude Opus 4.6 为 57.3%,Gemini 3.1 Pro 为 54.2%。
- 在测试网络安全推理的 CyberGym 上,GLM-5.1(68.7)在 Z.ai 测试的模型中得分最高——在Claude Mythos (https://www.deeplearning.ai/the-batch/why-claudes-advanced-mythos-preview-model-will-be-limited-release-only/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)出现之前(Anthropic 报告为 83.1)——包括 Claude Opus 4.6(66.6)和 GPT-5.4(66.3)。Gemini 3.1 Pro 和 GPT-5.4 出于安全原因拒绝执行某些任务,这可能降低了它们的指标。
- 在衡量模型在图形处理单元上加速机器学习代码运行能力的 KernelBench Level 3 上,Z.ai 测得 GLM-5.1(3.6 倍)落后于 Claude Opus 4.6(4.2 倍)。
- GLM-5.1 在推理和数学测试中以更大幅度落后于专有模型。例如,在 GPQA Diamond(研究生级别科学问题)上,GLM-5.1(准确率 86.2%)低于 Gemini 3.1 Pro(准确率 94.3%)。在 AIME 2026(竞赛数学问题)上,GLM-5.1(95.3%)落后于 GPT-5.4(98.7%)。
**价格上涨:**Z.ai 对 GLM-5.1 的定价显著高于其前代产品。其 API token 价格大约高出 40%,编码计划订阅费用大约翻倍。其 API 仍然比类似的专有模型便宜(每百万输入 token $1.40 对 Claude Opus 4.6 的 $5),但差距正在缩小。
**为何重要:**自主工作数小时而不是几分钟的能力是 LLM 竞争的一个日益增长的领域。AI 代理自主完成任务的时长大约每七个月翻一番,根据 (https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)独立测试组织 METR 的数据,而 Anysphere 的 Cursor 集成开发环境运行 (https://fortune.com/2026/01/23/cursor-built-web-browser-with-swarm-ai-agents-powered-openai/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)了一个智能体群持续一周。然而,旨在测试持续性能的基准测试,如SWE-EVO (https://arxiv.org/abs/2512.18470?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4),显示即使是顶级模型在长时间编码任务上的成功率也仅为 25% 左右。
**我们的思考:**如果 GLM-5.1 在长时间会话中识别死胡同并转方向的能力在独立测试中得到证实,这表明一个当前基准测试未捕捉到的训练目标:认识到何时放弃失败的方法。
---
一个带有青色和白色元素的类人机器人在工厂地板上处理金属部件到货箱中。### 类人机器人在工厂车间工作
少数类人机器人已进入工业环境,其成本大致与人类劳动力相当,并推动一些工人转向更高层级的角色。
**新动态:**总部位于俄勒冈州的 Agility Robotics 正在向德国汽车零部件制造商 Schaeffler 提供类人机器人,这是类人机器人的首次实际部署,*华尔街日报*报道 (https://www.wsj.com/business/south-carolina-schaeffler-plant-robots-d56c91d0?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)。Agility 的 Digit 机器人在 Schaeffler 位于南卡罗来纳州的工厂中搬运装有新鲜制造零件的货箱——这项工作以前由一名人类工人完成,该工人已被提升到监督职位。两家公司均未透露目前使用的 Digit 数量,但 Schaeffler 表示计划在 2030 年前在其美国和欧洲的工厂部署数百台。
**工作原理:**在 Schaeffler 工厂,Digit (https://www.agilityrobotics.com/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4) 将重 25 磅的篮子从冲压机运送到传送带,每次行程大约需要 1 分钟。该机器人未配备检测附近人类的能力——Agility 计划明年实施这一功能——因此在有机玻璃屏障后面运行。它工作两个四小时班次,中间休息充电。该公司透露的细节很少 (https://cdn.prod.website-files.com/672aa4455c7532b497ba15be/682cf7c4114e7650cebe42c9_Agility%20Robotics%20-%20Spec%20Sheet.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwjHJ2R2-bvAxCZFI3BEKBgQltJ4)包括其处理硬件和 AI 模型、数据集或训练方法。
- Digit 按人体比例建造(5 英尺 9 英寸,143 磅),腿部带有反向膝盖便于抬升;手臂设计用于搬运包裹和保持平衡;四指夹具;躯干容纳处理器、电池和传感器;以及 LED “眼睛”朝向当前的焦点。它基于 Cassie,这是一种大约 2016 年与俄勒冈州立大学合作开发的双足机器人研究平台,没有躯干、头部或感知系统。
- 机器人的传感器可包括 RGB 深度相机、LiDAR、运动感知惯性测量单元(IMU)以及用于测量关节位置和速度的未指定编码器。
- 行走控制是动态的,以应对不平坦地形、从干扰中恢复以及爬楼梯和斜坡。
- Agility 工程师在部署前对工作环境进行地图绘制,并在现场配置特定任务。任务被构建为结构化工作流程,而不是关节电机指令,指定诸如取货地点、卸货地点和物体类型等变量。
- Agility 未透露 Digit 的价格,但表示每个机器人的成本为每小时 10 到 25 美元,而 Schaeffler 工厂的入门级工作每小时支付 20 美元。
**新闻背景:**目前,类人机器人在实际工业中的应用仅限于仓库和工厂中少数早期、狭窄的部署,它们协助完成特定的、定义明确的任务。行业中大多数其他类人系统仍处于试点或试验阶段。总体而言,目前大约有 200 台类人机器人在工厂工作,根据一位告诉 *华尔街日报* 的麦肯锡顾问的说法,他预计到 2040 年这个数字将增长到 500 万,而不会造成制造业劳动力的显著减少。一般来说,研究 (https://arxiv.org/abs/2204.01296?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_nL5ib0NsfgmQCxVV_PeNPUPldG309ewtFC9uYn5aSRwj
相似文章
GLM-5: 从 Vibe Coding 到 Agentic Engineering
GLM-5 引入了 DSA 以降低成本,采用异步强化学习实现对齐,并增强了编码能力,在基准测试和现实软件工程任务上取得了最先进的性能。
顶级科技公司在内部如何真正使用大语言模型,而不仅仅是基础的编码辅助?
这篇文章探讨了谷歌、Meta 和 OpenAI 等主要科技公司如何在内部运用先进的大语言模型工作流,重点关注智能体任务、人在回路系统以及超越基础编码的实际应用。它旨在寻找实际的用例和操作流程,供小型初创公司和团队借鉴,以提高生产力和效率。
GLM-5.2 是本地人工智能的一次胜利
GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。
LLMs 与表演式生产力
一位开发者反思使用 AI 代理的经历,并质疑表面上的生产力提升是真实的还是仅仅是表演性的,指出虽然任务完成得更快,但深层理解和真正价值可能会丢失。
GLM-5.2 快速评测(附:审查问题回答)
一位用户对通过 API 调用的 GLM-5.2 进行了详细评测,称赞其长上下文连贯性、自适应推理能力以及与 GPT-5.5 相当的前沿文本性能,同时指出缺乏原生视觉能力且本地计算需求较高。