APPO: 智能体过程策略优化

Hugging Face Daily Papers 2026/06/10 17:47 论文

reinforcement-learning agentic-rl tool-use credit-assignment policy-optimization language-model hf-paper

摘要

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配，从而提升LLM智能体的多轮工具使用能力，在13个基准测试中比基线高出近4个百分点。

近期智能体强化学习（RL）的进展显著提升了大规模语言模型智能体的多轮工具使用能力。然而，现有大多数方法在粗粒度启发式单元（如工具调用边界或固定工作流）上分配信用，使得难以识别哪些中间决策影响下游结果。在本工作中，我们从两个角度研究智能体RL：在哪里分支以及分支后如何分配信用。我们的初步分析表明，有影响力的决策点广泛分布在生成的序列中，而非集中在工具调用处，而仅凭令牌熵无法可靠反映它们对最终结果的影响。受这些观察启发，我们提出了智能体过程策略优化（APPO），它将分支和信用分配从粗粒度交互单元转移到序列中的细粒度决策点。APPO使用分支得分来选择分支位置，该得分结合了令牌不确定性和后续延续的策略诱导似然增益，从而在过滤掉虚假高熵位置的同时实现更定向的探索。它还引入了过程级优势缩放，以便更好地在分支展开中分配信用。在13个基准测试上的实验表明，APPO在保持高效工具调用和行为可解释性的同时，将强智能体RL基线一致提升了近4个百分点。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:03

Paper page - APPO：智能体过程策略优化

来源：https://huggingface.co/papers/2606.12384

摘要

一种智能体强化学习方法，通过细粒度决策点和过程级优势缩放优化分支决策与信用分配，从而提升多轮工具使用能力。

近期智能体强化学习（https://huggingface.co/papers?q=agentic%20Reinforcement%20Learning）方面的进展显著提升了大语言模型智能体的多轮工具使用能力（https://huggingface.co/papers?q=tool-use%20capabilities）。然而，现有方法大多基于粗粒度的启发式单元（如工具调用边界或固定工作流）进行信用分配，这使得识别哪些中间决策影响下游结果变得困难。本文从两个角度研究智能体强化学习：在何处分支，以及分支后如何分配信用。我们的预分析表明，有影响力的决策点广泛分布于生成的整个序列中，而非集中在工具调用处；同时，仅凭token熵并不能可靠地反映其对最终结果的影响。基于这些发现，我们提出了智能体过程策略优化（APPO），该方法将分支和信用分配（https://huggingface.co/papers?q=credit%20assignment）从粗粒度的交互单元转移到序列中的细粒度决策点。APPO 使用分支评分（https://huggingface.co/papers?q=Branching%20Score）来选择分支位置（https://huggingface.co/papers?q=branching%20locations），该评分结合了token不确定性（https://huggingface.co/papers?q=token%20uncertainty）与后续续写的策略诱导似然增益（https://huggingface.co/papers?q=policy-induced%20likelihood%20gains），从而能够进行更具针对性的探索，同时过滤掉虚假的高熵位置。APPO 还引入了过程级优势缩放（https://huggingface.co/papers?q=procedure-level%20advantage%20scaling），以在分支回滚中更好地分配信用。在13个基准测试上的实验表明，APPO 在保持高效工具调用和行为可解释性的同时，一致地将强基线智能体强化学习方法提升了近4个百分点。

查看arXiv页面（https://arxiv.org/abs/2606.12384）查看PDF（https://arxiv.org/pdf/2606.12384）GitHub46（https://github.com/AMAP-ML/APPO）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.12384）

在你的智能体中获取该论文：

hf papers read 2606\.12384

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 (0)

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.12384 以从本页关联。

引用此论文的数据集 (0)

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.12384 以从本页关联。

引用此论文的Spaces (0)

暂无Space关联此论文

请在Space README.md 中引用 arxiv.org/abs/2606.12384 以从本页关联。

包含此论文的收藏集 (0)

暂无收藏集包含此论文

请将此论文添加到一个收藏集（https://huggingface.co/new-collection）中以从本页关联。

APPO: 智能体过程策略优化

Paper page - APPO：智能体过程策略优化

摘要

引用此论文的模型 (0)

引用此论文的数据集 (0)

引用此论文的Spaces (0)

包含此论文的收藏集 (0)

相似文章

GAGPO：广义优势分组策略优化

IAPO：面向小规模多模态智能体工具使用的输入归因感知策略优化

近端策略优化

A^2TGPO：具有自适应回合级裁剪的代理回合组策略优化

SocraticPO：通过交互式指导的策略优化

提交意见反馈