AEM:用于多轮智能体强化学习的自适应熵调制

Hugging Face Daily Papers 论文

摘要

本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。

强化学习(RL)显著提升了大型语言模型(LLM)智能体与环境交互及解决多轮任务的能力。然而,有效的智能体RL仍然面临挑战:稀疏的仅结果奖励为长交互轨迹中各个步骤的信用分配提供的指导有限。现有方法通常引入密集的中间监督,如过程奖励模型或辅助自监督信号,这增加了监督和调优的复杂性,并可能限制跨任务和领域的泛化能力。我们提出了AEM,一种无监督的信用分配方法,通过在RL训练期间自适应地调制熵动态来改善探索与利用之间的平衡。由于在智能体RL中,环境通常受完整响应而非单个标记的影响,我们的分析将熵动态从标记级别提升到响应级别,将不确定性估计与LLM智能体的有效动作粒度对齐,并降低了对标记级别采样噪声的敏感性。我们进一步表明,在自然梯度更新下,熵漂移受采样响应优势及其相对意外性之间相互作用的支配。受这一结果的启发,AEM导出了一个实用的响应级不确定性代理,并利用它重新缩放优势,利用正负样本之间不断变化的平衡,自然地从探索过渡到利用。在ALFWorld、WebShop和SWE-bench-Verified上进行的大量实验,涉及从1.5B到32B的模型,表明AEM consistently 改进了强大的RL基线,包括在集成到最先进的软件工程RL训练框架时获得的+1.4%提升。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:19

论文页面 - AEM: 多轮智能体强化学习中的自适应熵调制

来源: https://huggingface.co/papers/2605.00425 作者:

,

,

,

,

,

,

,

,

,

,

摘要

一种新颖的、无需监督的信用分配方法,用于语言模型智能体的强化学习,通过在响应级别自适应调整熵动态来改善探索与利用之间的权衡以及任务性能。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning)(RL) 极大地提升了大型语言模型 (LLM) 智能体与环境交互及解决多轮任务的能力。然而,有效的智能体强化学习仍面临挑战:稀疏的仅基于结果奖励为长交互轨迹中各个步骤的信用分配提供的指导有限。现有方法通常引入密集的中间监督,例如过程奖励模型或辅助自监督信号,这增加了监督和调优的复杂性,并可能限制跨任务和领域的泛化能力。我们提出了 AEM,这是一种无需监督的信用分配 (https://huggingface.co/papers?q=credit%20assignment) 方法,它通过在 RL 训练期间自适应地调制熵动态 (https://huggingface.co/papers?q=entropy%20dynamics) 来改善探索与利用的权衡 (https://huggingface.co/papers?q=exploration-exploitation%20trade-off)。由于在智能体 RL 中,环境通常受完整响应的影响,而非单个 token,我们的分析将熵动态 (https://huggingface.co/papers?q=entropy%20dynamics) 从 token 级别提升到响应级别,使不确定性估计与 LLM 智能体的有效动作粒度对齐,并降低对 token 级别采样噪声的敏感性。我们还表明,在自然梯度更新 (https://huggingface.co/papers?q=natural-gradient%20updates) 下的熵漂移受采样响应优势及其相对意外性之间相互作用的支配。受此结果启发,AEM 导出了一个实用的响应级别不确定性 (https://huggingface.co/papers?q=response-level%20uncertainty) 代理,并用于重新缩放优势,利用正负样本之间不断变化的平衡自然地从探索过渡到利用。在 ALFWorld、WebShop 和 SWE-bench-Verified 上进行的广泛实验,使用从 1.5B 到 32B 的模型,证明了 AEM 始终能改进强大的 RL 基线,包括整合到最先进的软件工程 RL 训练框架中时获得 +1.4% 的提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.00425) 查看 PDF (https://arxiv.org/pdf/2605.00425) 项目页面 (https://baidubce.github.io/blogs/qianfan/index_en.html) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.00425)

在你的智能体中获取这篇论文:

hf papers read 2605\.00425

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.00425 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.00425 以从此页面链接它。

引用此论文的空间 0

没有链接到此论文的空间

在 Space README.md 中引用 arxiv.org/abs/2605.00425 以从此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

最大熵如何使强化学习更加稳健

ML at Berkeley

本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。

关于通过元强化学习学习探索的一些思考

OpenAI Blog

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。

AHD Agent:用于自动启发式设计的代理强化学习

arXiv cs.AI

本文介绍了 AHD Agent,这是一个利用代理强化学习(Agentic Reinforcement Learning)的框架,使大型语言模型(LLMs)能够通过动态交互求解环境,自主地为组合优化问题设计启发式方法。