@sydneyrunkle: https://x.com/sydneyrunkle/status/2066928783534289358

X AI KOLs Following 工具

摘要

这篇博客文章由Sydney Runkle撰写,解释了使用LangChain原语构建可靠LLM代理的循环工程艺术,涵盖了四种循环级别:代理循环、验证循环、事件驱动循环和爬山循环。

https://t.co/0rSDtJGB9T
查看原文
查看缓存全文

缓存时间: 2026/06/16 17:38

循环工程的艺术

智能体之所以有用,是因为它们能通过在现实世界中采取行动来帮助我们自动化工作。但要让智能体可靠地完成有价值的任务,需要的远不止一个好的模型:还需要一个精心设计的、适配特定任务集的“缰绳”。

核心的智能体算法很简单:给LLM提供上下文,让它在一个循环中调用工具,直到任务完成。这是最基本的循环。但它远非驱动智能体的唯一循环。@swyx 最近写了一篇关于“循环工艺:叠加循环的艺术”的好文章,其核心思想是你可以通过叠加和扩展循环来构建更有效的智能体。

以下是我们如何看待这个循环堆栈,以及如何使用 LangChain 原语来对每一层进行仪表化(instrument)。

循环 1:智能体

核心上,智能体只是一个在一个循环中反复调用工具直到任务完成的模型。

这就是 LangChain 的 create_agent 给你带来的。选择任意模型,接入工具,你就得到了一个可运行的智能体循环。工具赋予了智能体在现实世界中采取行动的能力。

以我们内部的文档智能体为例(我们将在本文中将其作为贯穿的示范案例)。在第一个循环层面,它收到一个文档改进请求,模型进行规划并起草修改,同时使用工具来克隆仓库、读取文件、撰写文档、发起拉取请求等。

第 2 层:验证循环

智能体循环可以完成任务,但第一次执行时不一定总能产生正确或一致的结果。当一致性很重要时,通常值得将其包装在一个验证循环中,该循环检查输出并在不符合要求时将反馈发送回模型。

验证循环增加了一个评分器(grader):它根据评分标准检查智能体的输出,如果输出不合格,则将结果连同反馈一起送回。评分器既可以是确定性的,也可以是智能体式的(LLM 作为裁判是一个经典例子,见此处)。

RubricMiddleware 处理这种模式,你也可以通过 create_agent 上的 after_agent 钩子来配置它。

以我们的文档编写器为例,评分器在每次尝试后运行测试,检查所有链接是否可解析、所有 CI 检查是否通过、以及代码变更范围是否仅限于实际请求的内容。无需人工审查就能捕获这些类型的错误。

一个权衡:增加验证会提高每次运行的延迟和成本。当质量比速度更重要时,这是值得的,而这正是大多数生产用例的情况。

第 3 层:事件驱动循环

智能体开发最重要的部分之一是集成层:将你的智能体连接到生态系统,使其能够在后台运行。

事件驱动循环将智能体连接到你的生态系统。一个事件被触发——新文档落地、定时任务启动、Webhook 到达——智能体便开始运行。智能体不再是手动调用的东西,而是一个在更大系统中持续运行的组件。

LangSmith Deployment 支持触发器基础设施,包括对 Cron 定时任务和 Webhook 的支持。Cron 的一个流行应用案例是 openclaw 中的“心跳”(heartbeats),它能让你的智能体变成一个始终在线、主动助手的助手。

我们的文档智能体由 Fleet(我们的无代码智能体构建器)驱动。Fleet 的频道(channels)和定时任务(schedules)处理事件驱动和 Cron 风格的触发器。我们使用一个频道,每当在 #docs-plz Slack 频道中发送消息时,就会触发文档智能体。

第 4 层:爬山循环

前三个循环自动化工作。第四个(可以说是最重要的)循环自动化改进!

每次智能体运行都会产生一条追踪(trace):记录模型做了什么、调用了哪些工具、评分器反馈等。这些追踪包含了关于什么有效、什么无效的高价值信号。爬山循环对这些追踪运行一个分析智能体,并利用分析结果重写智能体缰绳(harness),采用改进的配置。这包括提示/工具的调整或评分器的调整。

在 LangSmith 中,你可以使用 Engine(我们的追踪分析智能体)来实现这第四个循环。

回到文档智能体的类比,我们对文档智能体的追踪运行 Engine 来检测任何问题。当多个追踪表明存在潜在问题时,就会发起一个问题(issue),请求修改有问题的提示或工具。

这里的关键之处在于,返回箭头不仅仅循环回顶部——它深入到内部,直接更新智能体循环。外层循环的每一次迭代都使内层循环更加有效。

展望未来: 提示和工具配置是最容易改进的,但它们不是唯一的选择。对于运行开放权重模型的团队,爬山循环可以反馈到强化学习微调中,使用追踪或评估结果作为训练信号来改进模型本身。辅助上下文(如记忆和检索到的技能)也可以用同样的方式改进。循环是模式;它优化什么由你决定。

人类监督与专业知识

自动化并不意味着将人类从循环中移除。在每个层面,都存在自然的人类监督可以增加价值的节点。一个自动评分器可以检查链接是否可解析;但需要人类才能注意到框架对于目标受众来说是错误的。那种源于上下文、经验和品味的判断力,正是人类审查的价值所在。

有些专业知识应该被编码到提示/工具本身中,但对于敏感操作(想想金融交易、数据库操作等),实时的人工审查至关重要。LangChain 使得在每个循环中仪表化这些接触点变得非常简单:

  • 在智能体循环中,在敏感操作/工具调用之前要求人工输入
  • 在验证循环中,人类可以在敏感工作流中扮演评分器的角色
  • 在应用循环中,人类可以在输出返回给最终用户之前批准输出
  • 在爬山循环中,缰绳的改进可以在部署之前经过人工审查

LangChain 的所有开源框架都将“人在环中”作为第一公民原语。

汇总

如果你更喜欢表格视图,以下是这四个循环如何叠加的概览:

循环功能影响LangChain 原语
1: 智能体循环(模型+工具)模型反复调用工具直到任务完成自动化工作create_agent,任何 LangChain 支持的模型
2: 验证循环(智能体+评分器)智能体运行,输出按评分标准评分,不通过则重新尝试并附带反馈确保质量RubricMiddleware
3: 事件循环(验证+系统)事件触发智能体运行,更新真实系统大规模工作LangSmith Deployment / Fleet 频道
4: 爬山循环(系统+引擎)生产追踪馈入分析智能体,改进缰绳配置持续改进LangSmith Engine

这就是循环工程——或者像 @swyx 所说的“循环工艺”——在实际中的样子。AI 领导者如 Steipete、Boris 和 Andrej 都得出了相同的结论:智能体的潜力在于你围绕它们构建的循环。

我们思考循环 1 和 2 已经有一段时间了。但重点应该转向循环 3 和 4,在这里价值通过将智能体嵌入你的生态系统并使其根据你的标准持续改进而实现复合增长。

Satya 阐述了组织层面的利害关系:那些尽早构建学习循环的公司——让人类判断和代币资本共同复合——将建立难以复制的优势。

致谢

感谢 @Vtrivedy10、@masondrxy、@hwchase17 和 @huntlovell 提供的深思熟虑的审阅。

参考

  • deepagents 快速入门
  • create_agent 文档
  • rubric 中间件
  • cron jobs、webhooks
  • langsmith engine
  • fleet channels

相似文章

@cellinlab: https://x.com/cellinlab/status/2064144608242679822

X AI KOLs Timeline

这篇文章介绍了 Loop Engineering 的概念——不再直接给 AI agent 写 prompt,而是设计一个系统(loop)来递归地让 agent 迭代工作,直到任务完成。文章详细对比了 Claude Code 和 Codex 在 automations、worktrees、skills、sub-agents 等五个构建块上的实现,认为这可能是未来与 coding agent 协作的趋势,但仍需警惕 token 成本和 AI slop 问题。