@Vtrivedy10: https://x.com/Vtrivedy10/status/2066571435871551655

X AI KOLs Timeline 论文

摘要

LangChain Labs与Fireworks AI联合研究表明,通过微调开源Qwen模型,可以创建一个能够检测生产轨迹中“感知错误”的轨迹判断器,且该模型在以最高降低100倍成本的同时达到前沿性能。该模型在两个内部数据集上进行了评估,并显示出跨应用的通用性。

https://t.co/fTgy9SS0h2
查看原文
查看缓存全文

缓存时间: 2026/06/15 19:08

用 Fireworks 打造成本降低百倍的追踪评估模型

@LangChain Labs 与 @FireworksAI_HQ 联合研究:微调开源模型以高效挖掘海量追踪数据中的信号

作者:@Vtrivedy10 (LangChain)、@jakebroekhuizen (LangChain)、@hwchase17 (LangChain)、@chahvivi (Fireworks)、Yi Su (Fireworks)

核心要点:

  • LangSmith 每天处理数十亿 token 的生产追踪数据。我们面临的核心挑战之一是高效挖掘这些追踪数据中的信号。

  • 我们与 Fireworks 合作,构建了一个高效的追踪评估模型(Trace Judge)。我们微调了 Qwen 模型,用于检测每条生产追踪中的“感知错误”(Perceived Error)。该模型性能达到或超越前沿模型,运行成本却低至原来的百分之一

  • 如果您希望提前测试这个“感知错误”模型,请在此处注册。

如今,智能体(Agent)生产了世界上大部分数据,并驱动着我们日常使用的许多应用。随着越来越多的智能体投入生产,追踪数据作为理解智能系统在真实用户面前行为的最丰富数据源之一,其重要性将与日俱增。

研究问题: 如何经济高效地从每一条追踪数据中挖掘重要信号,同时保持前沿级性能

为了回答这个问题,我们与 Fireworks 合作,微调了一个 Qwen 评判模型,用于从用户交互中检测“感知错误”。

什么是感知错误:

感知错误是指用户认为助手犯了错误,或产生了需要纠正的内容。感知错误并非判断客观正确性或用户满意度。例如,智能体可能给出了正确答案,但用户对信息本身感到不满(而非对智能体不满)。

我们通常鼓励团队构建特定于应用的评估器,因为判断追踪逻辑通常需要结合应用上下文。然而,我们认为“感知错误”是一种可以通用的评估器。它所要捕捉的信号在不同应用之间具有普遍性。

“感知错误”的通用性是一个关键问题。我们后续进行的一些实验正是为了测试这一指标的通用性。

我们通过追踪信号(如用户纠正、拒绝智能体操作、重复请求、助手承认错误等)来推断感知错误。感知错误评估器会以下列格式将信息丰富到追踪数据中:

{"perceived_error": true, "reason": "用户纠正了助手使用的会议日期。"}

我们如何创建数据集

应用于任务的智能体,其性能取决于训练它的数据。我们从内部使用的两个追踪数据集中获取数据:

chat-langchain

文档问答智能体,回答关于 LangChain 库和产品的问题。用户可能会提出概念性问题、调试问题,或寻求构建方面的帮助。这些交流通常技术性较强,且涉及大量细节。

Fleet

一个无代码工具,用于创建执行实际工作的智能体,如撰写文档和进行研究。用户可以使用 Fleet 完成各种任务,并可能调用许多不同的工具或技能。

我们从每个追踪数据集中选取了一部分追踪作为训练集和保留集。在筛选追踪池时,我们选择了多轮追踪,因为判断“感知错误”需要有人类对 AI 结果的响应(例如,纠正助手或重复请求)。

使用多个数据集的部分动机是为了测试“感知错误”的通用性。在一个数据集上训练用于检测感知错误的模型,能否迁移到第二个数据集?

数据集总示例数训练行数保留行数
chat-langchain885707178
Fleet911727184

数据准备

在准备训练和预测数据时,我们选择只包含人类和 AI 消息,忽略所有工具调用。我们这样做是因为假设我们关注的信号主要来自人类和 AI 消息。这是未来我们打算 experimenting 的杠杆。

我们还保留了所有消息的原样,没有修剪长内容。这也是未来我们打算 experimenting 的另一个杠杆。

标注

为了生成标注,我们结合了模型辅助标注和人工审核,为每条追踪创建简短的 JSON 标注和理由。具体来说,我们首先让一组模型判断一条追踪。如果它们都同意,我们就将其作为真实标注。如果它们意见不一致,我们将它们的所有标注和理由传递给另一组模型,要求它们判断谁是正确的。如果这组模型达成一致,我们就将其作为真实标注。如果仍然不一致,则进行人工标注。在整个数据集中,chat-langchain 和 Fleet 分别有 24% 和 18% 的追踪带有感知错误标注。

微调设置

在训练方面,我们在进行了一些小规模实验测试其他模型后,选择了 Qwen-3.5-35B 作为基础模型。更小的模型错误率很高,且推理能力不足以处理我们的多轮追踪。而使用 Qwen-3.5-35B,我们拥有一个强大、便宜的开源模型,并有望通过微调达到前沿性能。

我们仅在 chat-langchain 数据集上进行训练。这样做的目的是为了测试模型是否能迁移到完全不同的领域。

我们还在观察基础模型在小规模实验中的常见失败模式后,对输入提示进行了轻微优化。训练方面,我们在 Fireworks 上使用 LoRA 进行了托管 SFT 训练。

实验与结果

我们围绕三个问题组织了实验:

  • 微调能否将基线评估模型的质量提升到前沿模型水平?
  • 学习到的评估模型能否跨数据集迁移?
  • 部署微调模型是否经济高效?

微调开源模型可以超越或媲美前沿模型

模型chat-langchain 准确率Fleet 准确率
基础 Qwen90.5%83.2%
chat-langchain SFT96.1%90.8%
Fleet SFT92.7%91.3%
Claude Opus91.6%90.2%
GPT-5.598.9%89.1%

我们发现,经过良好提示的基础 Qwen 在感知错误分类方面开箱即用表现强劲,但落后于前沿模型的分类准确率。在两个数据集上,运行 LoRA SFT 任务将基础模型提升到接近或超越前沿性能。

除了与前沿模型对比,我们还与更小、更便宜的模型进行了比较。运行高流量、低成本推理工作负载的常见策略是使用最小的封闭前沿模型,如 Haiku。但我们 consistently 发现,强大的开源模型开箱即用表现优于 Haiku,同时运行成本低得多。

微调后的评估模型能很好地迁移到未见数据

我们初步结果显示,Fleet 对所有模型来说都是一个更具挑战性的数据集。在 chat-langchain 上微调后,我们测试了该模型在未经过任何 Fleet 特定训练的情况下迁移到 Fleet 数据的效果。在 chat-langchain 数据上训练的模型在 Fleet 数据上的表现超越了所有前沿模型。

然后,我们尝试专门在 Fleet 数据上训练模型。这相比我们 chat-langchain SFT 模型仅有小幅提升。

这一结果很重要,因为:

  • 它表明我们的感知错误模型能够迁移到其他领域,并保持前沿级性能(在本例中略高)。
  • 对于希望在其自有数据集上进一步提升感知错误(或其他微调评估模型)性能的构建者,他们可以选择在特定于应用的追踪数据上进行微调,以获得进一步的性能提升。

微调模型运行成本低得多

微调模型达到了前沿准确率,并且大规模运行成本低得多——根据追踪量和模型选择,成本可降低 10 到 100 倍。随着追踪量的增长,微调模型的成本节省会持续增加。而在性能方面,微调的 Qwen 模型优于所有规模的 Haiku、Sonnet 和 Opus(以及 gpt-5.5)。

追踪理解方面的未来研究

解决持续学习问题将涉及围绕追踪理解的大规模数据挖掘任务。总体而言,我们很高兴能推动构建专用、经济高效的模型以更好地理解追踪数据的方法。

开源模型已经跨越了智能门槛,现在成为许多任务中开箱即用、经济高效的分类器。借助 Fireworks 易于使用的训练和推理基础设施,我们能够将开源模型推向前沿性能,同时运行成本数量级更低。

未来的研究方向包括帮助团队设计良好的训练目标和评估标准,以构建他们自己的智能体追踪评估模型。我们越能理解自己的智能体追踪,就越能在改进智能体时做出更明智的决策。

试用我们的感知错误模型

我们将在未来几周内向部分选定客户推出我们的微调感知错误模型,并于一两个月后进行更广泛的上线。如果您有兴趣测试这个感知错误评估模型并提供反馈,请在此处注册。

同时发布于 LangChain 博客。

相似文章