TraceGraph:用于诊断和改进智能体轨迹的共享决策景观

arXiv cs.AI 论文

摘要

TraceGraph是一个基于图的框架,它从多模型智能体轨迹中构建共享决策景观,从而能够诊断故障区域并通过陷阱感知恢复流水线进行改进。

arXiv:2605.31308v1 公告类型:新 摘要:智能体基准测试越来越多地记录丰富的交互轨迹,但评估往往将每次运行简化为通过率或奖励分数。我们引入了TraceGraph,这是一个基于图的框架,将发布的多模型智能体轨迹转化为共享决策景观。对于每个任务,TraceGraph在引入模型身份之前,从汇聚的运行中构建可观测的动作-观察状态图。然后,它叠加结果导向的生产核心和陷阱区域,并通过三个事件总结每次运行:访问、陷阱暴露和修复。跨五个基准测试分区的轨迹显示,TraceGraph的配置文件揭示了被聚合分数隐藏的导航差异,并显示不同分区在奖励避免陷阱还是从陷阱中恢复方面存在差异。同样的TraceGraph景观还为SWE-bench激发了一个陷阱感知恢复流水线:一个运行时检测器在与历史陷阱区域匹配的状态上触发,然后从相同前缀评估轻量级延续策略。在触发状态上,最佳汇聚的单因素策略将每个提供商标的触发子集上的官方解决率从40.4%提高到43.5%,在共同触发的实例上从41.0%提高到44.8%,并具有特定提供商的活跃组件。总体而言,TraceGraph提供了一个过程词汇,用于询问智能体基准测试测试了什么,模型在共享景观上在哪里分歧,以及故障区域如何指导下游改进。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:27

# TraceGraph:用于诊断和改进智能体轨迹的共享决策景观
来源:https://arxiv.org/abs/2605.31308
查看 PDF(https://arxiv.org/pdf/2605.31308)

> 摘要:智能体基准测试越来越频繁地记录丰富的交互轨迹,然而评估往往仅将每次运行简化为通过率或奖励分数。我们提出了 TraceGraph,这是一个基于图的框架,它将发布的多模型智能体轨迹转化为共享决策景观。对于每个任务,TraceGraph 在引入模型身份之前,利用收集到的多模型运行结果,构建一个包含可观察的动作-状态节点的图。然后,它在图上叠加基于结果信息的生产核心和陷阱区域,并用三个事件概括每条轨迹:进入(Access)、陷阱暴露(Trap exposure)和修复(Repair)。跨越五个基准测试分区的轨迹中,TraceGraph 的剖析图揭示了被聚合分数掩盖的导航差异,并表明不同分区在奖励避免陷阱还是从陷阱中恢复方面存在差异。同一个 TraceGraph 景观还启发了一种针对 SWE-bench 的陷阱感知恢复流水线:一个运行时检测器在状态匹配历史陷阱区域时触发,然后从相同前缀出发评估轻量级的延续策略。在触发状态下,针对每个提供者的触发子集,最佳的单一因子池化策略将官方解决率从 40.4% 提升到 43.5%;在共同触发实例上,从 41.0% 提升到 44.8%,并包含提供者特定的活跃组件。总体而言,TraceGraph 提供了一套过程词汇,用于询问智能体基准测试究竟在测试什么、模型在共享景观上的分歧点在哪里,以及故障区域如何指导后续改进。

## 提交历史

来自:Junje Nian [查看电子邮件(https://arxiv.org/show-email/23d7ba74/2605.31308)] **[v1]** 2026年5月29日星期五 13:40:31 UTC(1,139 KB)

相似文章

AgentAtlas:超越LLM代理的结果排行榜

arXiv cs.AI

本文介绍了AgentAtlas框架,该框架超越仅基于结果的LLM代理排行榜,通过提出六状态控制决策分类法和九类别轨迹故障分类法,更全面地评估代理行为。

GraphBit:一种基于图的非线性代理编排框架

arXiv cs.AI

GraphBit是一种基于图的代理框架,采用Rust引擎实现确定性DAG编排,消除了幻觉和无限循环。在GAIA基准测试中,它达到了67.6%的准确率,且零框架诱导错误、低延迟。

StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。