A^2TGPO:具有自适应回合级裁剪的代理回合组策略优化

Hugging Face Daily Papers 论文

摘要

本文介绍了 A^2TGPO,这是一种针对代理式大语言模型(LLMs)的强化学习方法,它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。

针对代理式大语言模型(LLMs)的强化学习通常依赖于稀疏的轨迹级结果奖励,这使得在多轮交互中评估单个工具调用的贡献变得困难。现有的过程信用分配方法要么依赖于引入额外开销的独立外部过程奖励模型,要么依赖于仅重新分配结果信号并限制轨迹多样性的基于树的结构性 rollout。一种更有前景的替代方案是利用策略对真实情况预测概率的逐轮变化,即信息增益(Information Gain, IG),作为一种无需外部评估者的内在过程信号。然而,先前关于在 RL 训练循环中利用 IG 信号的研究面临三个系统性挑战:归一化面临不同位置上下文的各回合可能会扭曲单个回合的相对地位;累积可变数量的项会导致优势量随轨迹深度漂移;固定的裁剪范围对具有截然不同 IG 信号的回合进行相同的策略更新。在本文中,我们提出了 A^2TGPO(具有自适应回合级裁剪的代理回合组策略优化),它保留 IG 作为内在信号,但重新设计了其归一化、累积和使用方式:(i) 回合组归一化:在每个(提示词,回合索引)组内对 IG 进行归一化,使得每个回合仅与相同交互深度的同伴进行比较;(ii) 方差重缩放折扣累积:将累积的归一化 IG 除以累积项的平方根,以保持不同回合位置的优势量具有可比性;(iii) 自适应回合级裁剪:根据归一化的 IG 调节每个回合的裁剪范围,扩大信息丰富回合的更新区域,缩小信息匮乏回合的更新区域。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:09

论文页面 - A^2TGPO:具有自适应回合级裁剪的智能体回合组策略优化

来源: https://huggingface.co/papers/2605.06200

摘要

用于智能体大型语言模型(LLM)的强化学习受到稀疏奖励和信用分配挑战的影响,A2TGPO 通过适应信息增益的归一化、累积和裁剪来改善策略优化。

用于智能体大型语言模型(LLM)的强化学习通常依赖于稀疏的轨迹级结果奖励,这使得在多轮交互中评估单个工具调用的贡献变得困难。现有的此类过程信用分配方法要么依赖于引入额外开销的独立外部过程奖励模型,要么采用仅重新分配结果信号同时限制轨迹多样性的基于树的结构性 rollout。一个有前景的替代方案利用策略对真实值预测概率的每轮变化,称为信息增益(IG),作为无需外部评估者的内在过程信号。然而,先前在 RL 训练循环中利用 IG 信号的工作面临三个系统性挑战:在面临不同位置上下文的多轮之间进行归一化可能会扭曲单个回合的相对地位,累积可变数量的项会导致优势幅度随轨迹深度漂移,而固定的裁剪范围对具有截然不同 IG 信号的回合以相同方式控制策略更新。在本文中,我们提出了 A^2TGPO(具有自适应回合级裁剪的智能体回合组策略优化),它保留 IG 作为内在信号,但重新设计了其归一化、累积和使用方式:(i) 回合组归一化:在每个(prompt,回合索引)组内对 IG 进行归一化,以便每个回合仅与相同交互深度的同级比较;(ii) 方差重缩折扣累积:将累积归一化 IG 除以累积项的平方根,以保持不同回合位置的优势幅度可比;以及 (iii) 自适应回合级裁剪:根据每个回合的归一化 IG 调节其裁剪范围,扩大信息丰富回合的更新区域并缩小信息贫乏回合的更新区域。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06200) 查看 PDF (https://arxiv.org/pdf/2605.06200) GitHub1 (https://github.com/CuSO4-Chen/A-TGPO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06200)

在您的智能体中获取此论文:

hf papers read 2605\.06200

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06200 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06200 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.06200 以从此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

GAGPO:广义优势分组策略优化

arXiv cs.AI

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

APPO: 智能体过程策略优化

Hugging Face Daily Papers

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。

用于离散策略优化的引导对比Token信用分配

Hugging Face Daily Papers

本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。