基于策略的内在知识边界增强的高效智能体强化学习
摘要
本文提出AKBE,一种用于LLM智能体强化学习的在策略方法,能够动态判断何时需要使用工具以及何时内部知识足够,平均准确率提升+1.85,工具调用次数相比标准智能体RL减少18%。
查看缓存全文
缓存时间: 2026/05/27 02:47
论文页面 - 利用同策略内在知识边界增强的高效代理强化学习
来源:https://huggingface.co/papers/2605.26952
摘要
AKBE 通过动态判断何时需要使用工具、何时仅凭内部知识即可完成,提升了 LLM 智能体的训练效果,借助定向监督信号提高了准确性并减少了不必要的工具调用。
代理强化学习(https://huggingface.co/papers?q=Agentic%20reinforcement%20learning)(RL)已被证明能有效训练具备外部工具使用能力(https://huggingface.co/papers?q=tool-use%20capabilities)的基于 LLM 的智能体。然而,我们发现代理强化学习训练会导致冗余工具调用增加,并模糊模型的内在知识边界(https://huggingface.co/papers?q=knowledge%20boundary),即模型无法区分何时需要工具、何时参数化知识已足够。现有基于奖励塑形(https://huggingface.co/papers?q=reward%20shaping)的方法提供了粗粒度的优化目标,往往导致不加区分地抑制工具调用,从而引发奖励破解(https://huggingface.co/papers?q=reward%20hacking)。本文提出了 AKBE(智能体知识边界(https://huggingface.co/papers?q=Knowledge%20Boundary)增强),一种同策略方法(https://huggingface.co/papers?q=on-policy%20method),在训练过程中通过双路径(带工具与不带工具)展开来动态探测模型的内在知识边界(https://huggingface.co/papers?q=knowledge%20boundary)。我们将知识边界(https://huggingface.co/papers?q=knowledge%20boundary)定义为:每个实例是否需要工具的判断,以及所需的最小工具调用次数。通过比较不同路径的正确性,AKBE 对轨迹进行分类,并构建定向的监督信号(https://huggingface.co/papers?q=supervisory%20signals),为每个问题引导高效的工具使用模式。这些信号无缝集成到代理强化学习的训练循环中。在七个问答基准上的实验表明,与标准代理强化学习相比,AKBE 使任务准确率(https://huggingface.co/papers?q=task%20accuracy)平均提升 +1.85%,并将工具调用减少 18%,实现工具生产力(https://huggingface.co/papers?q=tool%20productivity)提升 25%,且无需权衡准确性与效率。进一步分析表明,该方法在不同强化学习算法之间具有即插即用的兼容性,并揭示了各类信号分类的机制。我们的代码可在 https://github.com/CuSO4-Chen/AKBE 获取。
查看 arXiv 页面(https://arxiv.org/abs/2605.26952) 查看 PDF(https://arxiv.org/pdf/2605.26952) GitHub(https://github.com/CuSO4-Chen/AKBE) 添加到收藏夹(https://huggingface.co/login?next=%2Fpapers%2F2605.26952)
在您的智能体中获取这篇论文:
hf papers read 2605\.26952
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.26952 以链接至此页面。
引用本论文的数据集0
无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.26952 以链接至此页面。
引用本论文的 Space0
无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.26952 以链接至此页面。
包含本论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以链接至此页面。
相似文章
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
面向长视界语言智能体的里程碑引导策略学习
本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。
PolicyBank:为LLM智能体演进策略理解
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
通过经验知识整合与激活推动LLM工具调用的极限
本文对将经验知识整合到LLM工具调用中进行了系统研究,提出了KATE框架,该框架结合了知识增强数据、宽度扩展推理和知识感知训练,在BFCL-V3和AppWorld基准上取得了一致的改进。