@LangChain:减少分类时间,更快修复,更早发现回归。介绍LangSmith Engine:一个能够自动工作的智能体……
摘要
LangChain 推出 LangSmith Engine 公测版,这是一个自主智能体,能够监控生产追踪、聚类故障、诊断根本原因,并提出修复和评估覆盖建议,以简化智能体开发。
查看缓存全文
缓存时间: 2026/05/13 20:25
花费更少时间分类故障,更快修复问题,更早发现回归。推出 LangSmith Engine:一个自主代理,能发现你代理中的失败模式。加速代理开发周期 → https://langchain.com/blog/introducing-langsmith-engine?utm_source=twitter&utm_medium=social…
推出 LangSmith Engine
来源:https://www.langchain.com/blog/introducing-langsmith-engine?utm_source=twitter&utm_medium=social 今天,我们正式发布 LangSmith Engine。
在此之前,改进你的代理一直是一个手动过程:阅读追踪记录、寻找模式、编写评估、创建修复方案。现在,LangSmith Engine 可以为你运行这个循环。它观察你的生产环境追踪记录,将失败聚类为命名问题,针对你的代码诊断根因,并提出修复方案和评估覆盖,以防止回归再次出现。你只需要审查并合并改进。
LangSmith Engine 现已公开测试。
尝试 LangSmith Engine (https://smith.langchain.com/)
每个代理团队都在运行这个循环
典型的代理开发周期如下所示:
- 追踪你的代理以了解其行为
- 识别失败模式或功能缺口
- 修改提示、工具、逻辑或结构
- 从生产环境追踪记录创建真实数据集
- 运行实验以确认改进并检查回归
- 发布并重复
LangSmith 已经为你提供了追踪视图、快速数据集创建和实验支持,以配合每个步骤。但我们不断从客户那里听到同样的痛点:
- 难以知道该修复什么,因为单独审查追踪记录无法揭示模式。
- 大规模查看某个错误在追踪记录中重复出现的频率很困难。
- 从生产数据中创建用于离线评估的真实样本既繁琐又容易被跳过。
- 一旦修复发布,通常没有针对性的评估器来捕捉同一问题是否复发。
Engine 在整个循环中工作。团队会看到按优先级排序的聚类故障列表,自动获得建议的修复方案,并为测试套件提供离线评估样本。
实际问题看起来是什么样的
假设你的代理是一个客服机器人。Engine 检测到一组追踪记录,其中用户询问取消订阅。你的代理做出了回应,但在线评估将回应评为失败,用户反馈也是负面的。延迟正常,因此没有系统警报触发。
Engine 将此呈现为一个命名问题:“Agent 在处理订阅取消请求时准确度不足”。它显示严重性(高,本周影响了 12% 的支持会话)、时间线(四天前开始,与最近一次部署相关),并链接到具体的追踪记录作为证据。
当你连接了代码仓库后,Engine 会读取相关代码并识别根因:取消工具的描述存在歧义,导致代理在用户仅询问选项时尝试执行取消操作。Engine 会起草一个 PR,针对工具描述进行修复。
为了持续跟踪此行为,Engine 会针对该问题提议一个自定义在线评估器。这样如果修复发布后失败模式再次出现,问题会自动重新浮现并显示更新后的详情。
Engine 还会将失败的追踪记录拉取到你的离线评估套件的数据集中,每个示例附带定义正确输出应包含内容的标准。那些进入生产环境但失败的案例会成为阻止它们再次发生的测试用例。
这就是完整的循环,自主运行并呈现供你审查。生产环境信号被聚类为一个问题,然后诊断根因、提出修复、并覆盖评估。
Engine 对每个问题采取的措施
对于它发现的每个问题,Engine 会提出三种解决方案。
打开一个 PR。 通过仓库访问权限,Engine 起草针对性的代码或提示更改,并针对你的仓库发起 PR。你负责审查和合并。
创建一个自定义在线评估器。 Engine 提议一个针对确切问题的评估器。如果问题再次触发,它会自动重新浮现并更新详情。
添加到你的离线评估套件。 Engine 将失败的生产追踪记录拉取到一个包含真实样本的数据集中,准备好在你现有的离线评估套件中运行。
每个已解决的问题都会同时改进你的评估覆盖。当你确认修复时,你也生成了一个评估器来监控未来表现。随着时间的推移,你已经解决的问题会使你的评估套件更加完整,从而使未来的改进更加稳健。
Engine 的工作原理
LangSmith Engine 由一个深度代理驱动,该代理可以访问你的追踪数据、评估器反馈以及你的代理源代码(如果连接到你的仓库)。
它监控多种信号类型的追踪记录:显式错误(工具调用失败、超时)、在线评估器失败、追踪异常(延迟飙升、令牌爆炸、意外的步骤数)、负面用户反馈,以及异常行为,比如用户提出代理未设计回答的问题。当 Engine 在多个追踪记录中发现模式时,它会将这些失败聚类成一个命名问题,而不是单独呈现每个失败。
LangSmith Engine 构建在 LangSmith 现有的追踪和评估基础设施之上。它使用你现有的评估器结果作为输入,因此你的评估器捕捉到的失败可以直接反馈到问题检测中。当 Engine 提议新的评估器时,是因为它检测到了你当前覆盖中的空白。当它创建数据集示例时,会直接放入你现有的离线评估工作流中。
客户的实际体验
像 Cogent、Harmonic 和 Campfire 这样的团队已经在使用 Engine 解决影响数千条追踪记录的问题。他们更早地发现回归,更快地发布修复,并且花更少的时间进行分类。
我们非常喜欢它。我们的 deepagent 追踪记录可能包含数十个或数百个回合,这使得审查和识别模式变得繁琐。LangSmith Engine 不仅识别出正在出现的失败模式,还主动建议评估和代码更改以快速解决它们,从而为我们的团队节省了几个小时的挖掘时间。 — Austin Berke,Harmonic 创始工程师
未来的方向
代理改进循环长时间以来一直是手动的,我们正在朝着一个更加自动化的未来努力:更多环节无需手动触发即可持续运行,已充分理解的问题类型无需人工审查即可解决,并且工具会随时间推移对你的特定智能体更加智能。LangSmith Engine 是第一步。
开始使用
LangSmith Engine 现已公开测试。连接一个追踪项目,可选地连接你的代码仓库,Engine 将自动从你的生产环境追踪记录中发现问题。
尝试 LangSmith Engine (https://smith.langchain.com/)
相似文章
@LangChain: 改进智能体 旧方法:手动读取追踪、寻找模式、编写评估、创建修复。更好的办法…
这条推文对比了改进AI智能体的旧手动方法与使用LangSmith Engine的新自动化方法,后者循环进行追踪、评估和修复。
@LangChain: https://x.com/LangChain/status/2060111005917577668
LangChain 的新闻通讯宣布了 Interrupt 2026 的重大产品发布:用于自动诊断和修复 Agent 故障的 LangSmith Engine,以及用于安全代码执行的 Sandboxes 正式版,同时还启动了新的 LangChain Labs 研究计划,并预告了即将举行的活动。
@hwchase17:发布:LangSmith Engine LangSmith Engine 是一个位于你的追踪数据之上的智能体,它在后台运行并…
LangSmith Engine 是一个位于追踪数据之上的智能体,能够自动识别问题,并主动建议代码更改或添加评估器等行动项。
@LangChain: 推出 LangSmith LLM Gateway:为你的智能体打造的运行时治理层。强制执行成本限制、检测 PII、违规处理……
LangChain 宣布推出 LangSmith LLM Gateway,这是一个面向 AI 智能体的运行时治理层,可强制执行成本限制、检测 PII,并直接在 LangSmith 内实施策略监控,现处于内测阶段。
@LangChain: 刚刚在 Interrupt! 大会上宣布!SmithDB。智能体追踪数据已经超出了现有数据库的承载能力。因此我们构建了……
LangChain 宣布推出 SmithDB,这是一款专为智能体可观测性而构建的分布式数据库,为 LangSmith 提供动力,针对复杂的智能体追踪数据提供卓越的性能和灵活性。