回溯式工具链优化：通过轨迹回滚上的自我偏好改进LLM智能体

Hugging Face Daily Papers 2026/06/04 09:26 论文

llm-agents self-supervised harness-optimization trajectory-rollouts ai-agents swe-bench

摘要

回溯式工具链优化（RHO）是一种自监督方法，仅利用历史轨迹即可提升LLM智能体性能，在SWE-Bench Pro上实现78%的通过率，无需外部评分。

AI智能体依赖由技能、工具和工作流构成的工具链来解决复杂问题。持续改进这一工具链对于适应新任务至关重要。然而，现有的优化方法通常需要真实标注的验证集，而在实际部署场景中获取此类标注数据十分困难。为解决这一问题，我们提出了回溯式工具链优化（RHO），这是一种仅利用历史轨迹即可优化智能体工具链的自监督方法。具体而言，RHO从历史轨迹中选取一个多样化的核心困难任务集，并并行重新求解。智能体通过自我验证和自我一致性分析这些回滚结果，随后生成候选工具链更新方案，并通过自身的成对自我偏好选择最有效的方案。我们在三个不同领域（涵盖软件工程、技术工作和知识工作）评估了RHO。值得注意的是，单次优化轮次将SWE-Bench Pro上的通过率从59%提升至78%，且无需任何外部评分。此外，我们的分析表明，RHO有效针对了先前的失败模式。最终，优化后的工具链改变了智能体的行为模式，并在长时间交互中保持更高的准确率。

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:44

论文页面 - 回顾式工具集优化：通过轨迹展开的自偏好提升LLM智能体性能

来源：https://huggingface.co/papers/2606.05922

摘要

回顾式工具集优化（RHO）是一种自监督方法，通过多样化的任务选择、并行重解和自验证技术，仅利用过往轨迹来优化智能体工具集，从而提升AI智能体性能。

AI智能体依赖技能、工具和工作流程组成的工具集来解决复杂问题。持续改进这一工具集对于适应新任务至关重要。然而，现有的优化方法通常需要基于真值验证集，但在实际部署场景中获取此类标注数据十分困难。为解决这一问题，我们提出了回顾式工具集优化（RHO），这是一种自监督方法，仅利用过往轨迹来优化智能体工具集。具体而言，RHO从过往轨迹中选取一个多样化的核心任务子集，并并行重解这些任务。智能体通过自验证和自一致性分析这些展开结果，然后生成候选工具集更新，并通过自身的成对自偏好机制选择最有效的更新。我们在软件工程、技术工作和知识工作三个不同领域对RHO进行了评估。值得注意的是，仅一轮优化就将SWE-Bench Pro上的通过率从59%提升至78%，且无需任何外部评分。此外，我们的分析表明，RHO有效针对了先前的失败模式。因此，优化后的工具集改变了智能体的行为模式，并在长周期会话中保持了更高的准确率。

查看arXiv页面 (https://arxiv.org/abs/2606.05922)查看PDF (https://arxiv.org/pdf/2606.05922)项目页面 (https://paper-rho.wenbo.io/)GitHub (https://github.com/wbopan/retro-harness)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05922)

在你的智能体中获取这篇论文：

hf papers read 2606.05922

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。

引用此论文的数据集0

无数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。

引用此论文的Spaces0

无Space关联此论文

在Space README.md中引用arxiv.org/abs/2606.05922即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

回溯式工具链优化：通过轨迹回滚上的自我偏好改进LLM智能体

论文页面 - 回顾式工具集优化：通过轨迹展开的自偏好提升LLM智能体性能

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

面向LLM智能体训练的回顾性进度感知自我精炼

@omarsar0: // 自我束具：能自我改进的束具 // （收藏这个）我们今天依赖的大多数智能体框架…

Bayesian-Agent：后验引导的LLM代理技能进化框架

面向执行轨迹的推理时对齐框架

停止在不公开执行框架的情况下比较LLM智能体

提交意见反馈