回溯式工具链优化:通过轨迹回滚上的自我偏好改进LLM智能体
摘要
回溯式工具链优化(RHO)是一种自监督方法,仅利用历史轨迹即可提升LLM智能体性能,在SWE-Bench Pro上实现78%的通过率,无需外部评分。
查看缓存全文
缓存时间: 2026/06/10 05:44
论文页面 - 回顾式工具集优化:通过轨迹展开的自偏好提升LLM智能体性能
来源:https://huggingface.co/papers/2606.05922
摘要
回顾式工具集优化(RHO)是一种自监督方法,通过多样化的任务选择、并行重解和自验证技术,仅利用过往轨迹来优化智能体工具集,从而提升AI智能体性能。
AI智能体依赖技能、工具和工作流程组成的工具集来解决复杂问题。持续改进这一工具集对于适应新任务至关重要。然而,现有的优化方法通常需要基于真值验证集,但在实际部署场景中获取此类标注数据十分困难。为解决这一问题,我们提出了回顾式工具集优化(RHO),这是一种自监督方法,仅利用过往轨迹来优化智能体工具集。具体而言,RHO从过往轨迹中选取一个多样化的核心任务子集,并并行重解这些任务。智能体通过自验证和自一致性分析这些展开结果,然后生成候选工具集更新,并通过自身的成对自偏好机制选择最有效的更新。我们在软件工程、技术工作和知识工作三个不同领域对RHO进行了评估。值得注意的是,仅一轮优化就将SWE-Bench Pro上的通过率从59%提升至78%,且无需任何外部评分。此外,我们的分析表明,RHO有效针对了先前的失败模式。因此,优化后的工具集改变了智能体的行为模式,并在长周期会话中保持了更高的准确率。
查看arXiv页面 (https://arxiv.org/abs/2606.05922)查看PDF (https://arxiv.org/pdf/2606.05922)项目页面 (https://paper-rho.wenbo.io/)GitHub (https://github.com/wbopan/retro-harness)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05922)
在你的智能体中获取这篇论文:
hf papers read 2606.05922
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
在模型README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。
引用此论文的数据集0
无数据集关联此论文
在数据集README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。
引用此论文的Spaces0
无Space关联此论文
在Space README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加至收藏集 (https://huggingface.co/new-collection)即可从此页面链接。
相似文章
面向LLM智能体训练的回顾性进度感知自我精炼
本文介绍了RePro,一个通过“先执行再反思”的展开范式训练LLM智能体自我生成进度信号的框架,在WebShop、ALFWorld和Sokoban基准测试上实现了高达12%的绝对成功率提升。
@omarsar0: // 自我束具:能自我改进的束具 // (收藏这个)我们今天依赖的大多数智能体框架…
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
Bayesian-Agent:后验引导的LLM代理技能进化框架
Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。
面向执行轨迹的推理时对齐框架
本文研究LLM智能体的框架设计,将其分解为任务拆解和引导执行,并展示了更精细的框架并非一致更好;它揭示了失败模式,并提出了部分框架的有效性。
停止在不公开执行框架的情况下比较LLM智能体
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。