基于策略的内在知识边界增强的高效智能体强化学习

Hugging Face Daily Papers 论文

摘要

本文提出AKBE,一种用于LLM智能体强化学习的在策略方法,能够动态判断何时需要使用工具以及何时内部知识足够,平均准确率提升+1.85,工具调用次数相比标准智能体RL减少18%。

智能体强化学习(Agentic RL)已被证明能有效训练具有外部工具使用能力的基于LLM的智能体。然而,我们发现智能体RL训练会导致工具调用冗余增加,并使模型的内在知识边界变得模糊——模型难以区分何时需要工具,何时参数化知识足以胜任。现有的基于奖励塑形的方法提供了粗粒度的优化目标,倾向于激励无差别的工具调用抑制,从而导致奖励篡改。本文提出AKBE(Agentic Knowledge Boundary Enhancement,智能体知识边界增强),一种在策略方法,通过在训练期间进行双路径(有工具和无工具) rollout 动态探测模型的内在知识边界。我们将知识边界定义为每个实例是否需要工具以及所需的最小工具调用次数。通过比较不同路径的正确性,AKBE对轨迹进行分类并构建针对性的监督信号,以指导每个问题的高效工具使用模式。这些信号无缝集成到智能体RL训练循环中。在七个QA基准上的实验表明,AKBE在标准智能体RL基础上,平均任务准确率提升+1.85,工具调用次数减少18%,工具生产效率提高25%,且无准确率-效率权衡。进一步分析表明其在不同RL算法间的即插即用兼容性以及每个信号类别的作用机制。我们的代码开源在 https://github.com/CuSO4-Chen/AKBE。
查看原文
查看缓存全文

缓存时间: 2026/05/27 02:47

论文页面 - 利用同策略内在知识边界增强的高效代理强化学习

来源:https://huggingface.co/papers/2605.26952

摘要

AKBE 通过动态判断何时需要使用工具、何时仅凭内部知识即可完成,提升了 LLM 智能体的训练效果,借助定向监督信号提高了准确性并减少了不必要的工具调用。

代理强化学习(https://huggingface.co/papers?q=Agentic%20reinforcement%20learning)(RL)已被证明能有效训练具备外部工具使用能力(https://huggingface.co/papers?q=tool-use%20capabilities)的基于 LLM 的智能体。然而,我们发现代理强化学习训练会导致冗余工具调用增加,并模糊模型的内在知识边界(https://huggingface.co/papers?q=knowledge%20boundary),即模型无法区分何时需要工具、何时参数化知识已足够。现有基于奖励塑形(https://huggingface.co/papers?q=reward%20shaping)的方法提供了粗粒度的优化目标,往往导致不加区分地抑制工具调用,从而引发奖励破解(https://huggingface.co/papers?q=reward%20hacking)。本文提出了 AKBE(智能体知识边界(https://huggingface.co/papers?q=Knowledge%20Boundary)增强),一种同策略方法(https://huggingface.co/papers?q=on-policy%20method),在训练过程中通过双路径(带工具与不带工具)展开来动态探测模型的内在知识边界(https://huggingface.co/papers?q=knowledge%20boundary)。我们将知识边界(https://huggingface.co/papers?q=knowledge%20boundary)定义为:每个实例是否需要工具的判断,以及所需的最小工具调用次数。通过比较不同路径的正确性,AKBE 对轨迹进行分类,并构建定向的监督信号(https://huggingface.co/papers?q=supervisory%20signals),为每个问题引导高效的工具使用模式。这些信号无缝集成到代理强化学习的训练循环中。在七个问答基准上的实验表明,与标准代理强化学习相比,AKBE 使任务准确率(https://huggingface.co/papers?q=task%20accuracy)平均提升 +1.85%,并将工具调用减少 18%,实现工具生产力(https://huggingface.co/papers?q=tool%20productivity)提升 25%,且无需权衡准确性与效率。进一步分析表明,该方法在不同强化学习算法之间具有即插即用的兼容性,并揭示了各类信号分类的机制。我们的代码可在 https://github.com/CuSO4-Chen/AKBE 获取。

查看 arXiv 页面(https://arxiv.org/abs/2605.26952) 查看 PDF(https://arxiv.org/pdf/2605.26952) GitHub(https://github.com/CuSO4-Chen/AKBE) 添加到收藏夹(https://huggingface.co/login?next=%2Fpapers%2F2605.26952)

在您的智能体中获取这篇论文:

hf papers read 2605\.26952

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.26952 以链接至此页面。

引用本论文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.26952 以链接至此页面。

引用本论文的 Space0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.26952 以链接至此页面。

包含本论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以链接至此页面。

相似文章

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。