回溯式工具链优化:通过轨迹回滚上的自我偏好改进LLM智能体

Hugging Face Daily Papers 论文

摘要

回溯式工具链优化(RHO)是一种自监督方法,仅利用历史轨迹即可提升LLM智能体性能,在SWE-Bench Pro上实现78%的通过率,无需外部评分。

AI智能体依赖由技能、工具和工作流构成的工具链来解决复杂问题。持续改进这一工具链对于适应新任务至关重要。然而,现有的优化方法通常需要真实标注的验证集,而在实际部署场景中获取此类标注数据十分困难。为解决这一问题,我们提出了回溯式工具链优化(RHO),这是一种仅利用历史轨迹即可优化智能体工具链的自监督方法。具体而言,RHO从历史轨迹中选取一个多样化的核心困难任务集,并并行重新求解。智能体通过自我验证和自我一致性分析这些回滚结果,随后生成候选工具链更新方案,并通过自身的成对自我偏好选择最有效的方案。我们在三个不同领域(涵盖软件工程、技术工作和知识工作)评估了RHO。值得注意的是,单次优化轮次将SWE-Bench Pro上的通过率从59%提升至78%,且无需任何外部评分。此外,我们的分析表明,RHO有效针对了先前的失败模式。最终,优化后的工具链改变了智能体的行为模式,并在长时间交互中保持更高的准确率。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:44

论文页面 - 回顾式工具集优化:通过轨迹展开的自偏好提升LLM智能体性能

来源:https://huggingface.co/papers/2606.05922

摘要

回顾式工具集优化(RHO)是一种自监督方法,通过多样化的任务选择、并行重解和自验证技术,仅利用过往轨迹来优化智能体工具集,从而提升AI智能体性能。

AI智能体依赖技能、工具和工作流程组成的工具集来解决复杂问题。持续改进这一工具集对于适应新任务至关重要。然而,现有的优化方法通常需要基于真值验证集,但在实际部署场景中获取此类标注数据十分困难。为解决这一问题,我们提出了回顾式工具集优化(RHO),这是一种自监督方法,仅利用过往轨迹来优化智能体工具集。具体而言,RHO从过往轨迹中选取一个多样化的核心任务子集,并并行重解这些任务。智能体通过自验证和自一致性分析这些展开结果,然后生成候选工具集更新,并通过自身的成对自偏好机制选择最有效的更新。我们在软件工程、技术工作和知识工作三个不同领域对RHO进行了评估。值得注意的是,仅一轮优化就将SWE-Bench Pro上的通过率从59%提升至78%,且无需任何外部评分。此外,我们的分析表明,RHO有效针对了先前的失败模式。因此,优化后的工具集改变了智能体的行为模式,并在长周期会话中保持了更高的准确率。

查看arXiv页面 (https://arxiv.org/abs/2606.05922)查看PDF (https://arxiv.org/pdf/2606.05922)项目页面 (https://paper-rho.wenbo.io/)GitHub (https://github.com/wbopan/retro-harness)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05922)

在你的智能体中获取这篇论文:

hf papers read 2606.05922

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。

引用此论文的数据集0

无数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。

引用此论文的Spaces0

无Space关联此论文

在Space README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

相似文章

Bayesian-Agent:后验引导的LLM代理技能进化框架

Hugging Face Daily Papers

Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。

面向执行轨迹的推理时对齐框架

arXiv cs.LG

本文研究LLM智能体的框架设计,将其分解为任务拆解和引导执行,并展示了更精细的框架并非一致更好;它揭示了失败模式,并提出了部分框架的有效性。

停止在不公开执行框架的情况下比较LLM智能体

arXiv cs.AI

这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。