@Vtrivedy10: 有一个非常令人兴奋的未来智能体配方,用于构建低成本到无需计量的智能,应用于提取信…

X AI KOLs Following 论文

摘要

该帖子概述了一个未来智能体配方,通过微调高效、专业化的开源模型,在LLM-as-a-judge任务上超越前沿性能,并将其应用于从追踪数据中提取信号以实现持续学习。LangChain Labs 和 FireworksAI 发布了展示这一方法的新工作。

有一个非常令人兴奋的未来智能体配方,用于构建成本低到无需计量的智能,应用于从每个智能体产生的追踪数据中提取信号。 它包括: 1. 微调高效、专业化的开源模型,使其在狭窄但重要的任务上达到前沿性能。 2. 大规模理解追踪数据,以便我们能够提取信号来长期改进每个智能体 —— 将持续学习视为数据挖掘问题。 我们很高兴发布来自 LangChain Labs 与 @FireworksAI_HQ 的出色团队(感谢 @chahvivi 和那里的优秀团队)合作的新成果。 我们发现,通过良好的数据设计和 SFT,开发者可以在 LLM-as-a-judge 任务上超越前沿性能,这些任务读取每个智能体产生的追踪数据,并通过评分规则从中提取信号。 如果其中任何内容引起你的兴趣,或者你想微调自己的评判模型以大规模处理每个追踪数据,请联系我们。
查看原文
查看缓存全文

缓存时间: 2026/06/16 19:39

有一个非常令人兴奋的未来代理配方,用于打造成本极低的智能,并将其应用于从每个代理产生的 Trace 数据中提取信号。

它包括:

  1. 微调高效、专门化的开源模型,使其在狭窄但重要的任务上达到前沿性能

  2. 大规模理解 Trace 数据,从而能够提取信号,以在长时间跨度内改进每个代理 —— 将持续学习视为一个数据挖掘问题

我们很高兴发布来自 LangChain Labs 的新成果,与 @FireworksAI_HQ 的杰出团队合作(特别感谢 @chahvivi 和那里的优秀团队)

我们发现,通过良好的数据设计 + SFT,构建者可以在 LLM-as-a-judge 任务上超越前沿性能,这些任务会读取每个代理产生的 Trace,并通过评分标准从中提取信号

如果你对此感兴趣,或者想要微调自己的评判模型以大规模处理每个 Trace,请联系我们

相似文章

@Vtrivedy10: https://x.com/Vtrivedy10/status/2066571435871551655

X AI KOLs Timeline

LangChain Labs与Fireworks AI联合研究表明,通过微调开源Qwen模型,可以创建一个能够检测生产轨迹中“感知错误”的轨迹判断器,且该模型在以最高降低100倍成本的同时达到前沿性能。该模型在两个内部数据集上进行了评估,并显示出跨应用的通用性。

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

X AI KOLs Timeline

对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。