APPO: 智能体过程策略优化
摘要
APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。
查看缓存全文
缓存时间: 2026/06/15 09:03
Paper page - APPO:智能体过程策略优化
来源:https://huggingface.co/papers/2606.12384
摘要
一种智能体强化学习方法,通过细粒度决策点和过程级优势缩放优化分支决策与信用分配,从而提升多轮工具使用能力。
近期智能体强化学习(https://huggingface.co/papers?q=agentic%20Reinforcement%20Learning)方面的进展显著提升了大语言模型智能体的多轮工具使用能力(https://huggingface.co/papers?q=tool-use%20capabilities)。然而,现有方法大多基于粗粒度的启发式单元(如工具调用边界或固定工作流)进行信用分配,这使得识别哪些中间决策影响下游结果变得困难。本文从两个角度研究智能体强化学习:在何处分支,以及分支后如何分配信用。我们的预分析表明,有影响力的决策点广泛分布于生成的整个序列中,而非集中在工具调用处;同时,仅凭token熵并不能可靠地反映其对最终结果的影响。基于这些发现,我们提出了智能体过程策略优化(APPO),该方法将分支和信用分配(https://huggingface.co/papers?q=credit%20assignment)从粗粒度的交互单元转移到序列中的细粒度决策点。APPO 使用分支评分(https://huggingface.co/papers?q=Branching%20Score)来选择分支位置(https://huggingface.co/papers?q=branching%20locations),该评分结合了token不确定性(https://huggingface.co/papers?q=token%20uncertainty)与后续续写的策略诱导似然增益(https://huggingface.co/papers?q=policy-induced%20likelihood%20gains),从而能够进行更具针对性的探索,同时过滤掉虚假的高熵位置。APPO 还引入了过程级优势缩放(https://huggingface.co/papers?q=procedure-level%20advantage%20scaling),以在分支回滚中更好地分配信用。在13个基准测试上的实验表明,APPO 在保持高效工具调用和行为可解释性的同时,一致地将强基线智能体强化学习方法提升了近4个百分点。
查看arXiv页面(https://arxiv.org/abs/2606.12384)查看PDF(https://arxiv.org/pdf/2606.12384)GitHub46(https://github.com/AMAP-ML/APPO)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12384)
在你的智能体中获取该论文:
hf papers read 2606\.12384
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 (0)
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.12384 以从本页关联。
引用此论文的数据集 (0)
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.12384 以从本页关联。
引用此论文的Spaces (0)
暂无Space关联此论文
请在Space README.md 中引用 arxiv.org/abs/2606.12384 以从本页关联。
包含此论文的收藏集 (0)
暂无收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从本页关联。
相似文章
GAGPO:广义优势分组策略优化
GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。
IAPO:面向小规模多模态智能体工具使用的输入归因感知策略优化
本文介绍了IAPO,一种通过将输入归因与更强大的教师模型对齐,来提升多模态小语言模型工具调用能力的强化学习算法。在Qwen2.5-VL-3B上的实验表明,在六个测试集上,视觉问答准确率平均提升了3%。
近端策略优化
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
A^2TGPO:具有自适应回合级裁剪的代理回合组策略优化
本文介绍了 A^2TGPO,这是一种针对代理式大语言模型(LLMs)的强化学习方法,它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。
SocraticPO:通过交互式指导的策略优化
SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。