@hwchase17:检测生产环境代理追踪中的问题很困难。你必须低成本地进行(因为数据量大),同时也要准确(否则噪音太多)……
摘要
Harrison Chase宣布了一个用于检测生产环境代理追踪问题的后训练模型,声称其准确性达到SOTA水平,而成本仅为前沿模型的1/10到1/100。
检测生产环境代理追踪中的问题很困难。你必须低成本地进行(因为数据量大),同时也要准确(否则噪音太多)。我们为此后训练了自己的模型。SOTA准确性,成本仅为前沿模型的约10-100倍更低。试试看:https://airtable.com/appWdRBlSecNOgErA/pagAEfUlHu4F35opm/form…
相似文章
@Vtrivedy10: https://x.com/Vtrivedy10/status/2066571435871551655
LangChain Labs与Fireworks AI联合研究表明,通过微调开源Qwen模型,可以创建一个能够检测生产轨迹中“感知错误”的轨迹判断器,且该模型在以最高降低100倍成本的同时达到前沿性能。该模型在两个内部数据集上进行了评估,并显示出跨应用的通用性。
当你的智能体在生产环境中出错时,如何定位哪一步出了问题?
一位开发者分享了在多步骤智能体生产调试中遇到的挑战——由于复杂的工具使用和自信的错误回答,失败难以追踪,并向社区寻求更好的监控和回归检测方法。
Signals:无需 LLM 评审即可找出最具信息量的智能体轨迹 [R]
Katanemo Labs 推出了 'Signals',这是一种轻量级方法,可在不使用 LLM 评审或 GPU 的情况下识别出具有高信息量的智能体轨迹,从而在轨迹分析中实现更高的效率。
AI Agent智能工具 - 事件调试与成本突增检测
构建一个用于AI Agent事件调试和成本突增检测的工具,无需额外检测工具,涵盖提示注入、推理循环、数据泄露等问题。询问生产环境中的客户,这是否是一个值得付费的痛点。
使用 Fireworks 构建成本降低 100 倍的轨迹评判器(7 分钟阅读)
LangChain 和 Fireworks 微调了 Qwen 模型,用于检测代理轨迹中的“感知错误”,实现了 100 倍成本降低,同时保持前沿性能。该评判器模型旨在用错误信号丰富轨迹,以监控代理系统。