AEM:用于多轮智能体强化学习的自适应熵调制
摘要
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。
查看缓存全文
缓存时间: 2026/05/11 07:19
论文页面 - AEM: 多轮智能体强化学习中的自适应熵调制
来源: https://huggingface.co/papers/2605.00425 作者:
,
,
,
,
,
,
,
,
,
,
摘要
一种新颖的、无需监督的信用分配方法,用于语言模型智能体的强化学习,通过在响应级别自适应调整熵动态来改善探索与利用之间的权衡以及任务性能。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning)(RL) 极大地提升了大型语言模型 (LLM) 智能体与环境交互及解决多轮任务的能力。然而,有效的智能体强化学习仍面临挑战:稀疏的仅基于结果奖励为长交互轨迹中各个步骤的信用分配提供的指导有限。现有方法通常引入密集的中间监督,例如过程奖励模型或辅助自监督信号,这增加了监督和调优的复杂性,并可能限制跨任务和领域的泛化能力。我们提出了 AEM,这是一种无需监督的信用分配 (https://huggingface.co/papers?q=credit%20assignment) 方法,它通过在 RL 训练期间自适应地调制熵动态 (https://huggingface.co/papers?q=entropy%20dynamics) 来改善探索与利用的权衡 (https://huggingface.co/papers?q=exploration-exploitation%20trade-off)。由于在智能体 RL 中,环境通常受完整响应的影响,而非单个 token,我们的分析将熵动态 (https://huggingface.co/papers?q=entropy%20dynamics) 从 token 级别提升到响应级别,使不确定性估计与 LLM 智能体的有效动作粒度对齐,并降低对 token 级别采样噪声的敏感性。我们还表明,在自然梯度更新 (https://huggingface.co/papers?q=natural-gradient%20updates) 下的熵漂移受采样响应优势及其相对意外性之间相互作用的支配。受此结果启发,AEM 导出了一个实用的响应级别不确定性 (https://huggingface.co/papers?q=response-level%20uncertainty) 代理,并用于重新缩放优势,利用正负样本之间不断变化的平衡自然地从探索过渡到利用。在 ALFWorld、WebShop 和 SWE-bench-Verified 上进行的广泛实验,使用从 1.5B 到 32B 的模型,证明了 AEM 始终能改进强大的 RL 基线,包括整合到最先进的软件工程 RL 训练框架中时获得 +1.4% 的提升。
查看 arXiv 页面 (https://arxiv.org/abs/2605.00425) 查看 PDF (https://arxiv.org/pdf/2605.00425) 项目页面 (https://baidubce.github.io/blogs/qianfan/index_en.html) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.00425)
在你的智能体中获取这篇论文:
hf papers read 2605\.00425
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.00425 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.00425 以从此页面链接它。
引用此论文的空间 0
没有链接到此论文的空间
在 Space README.md 中引用 arxiv.org/abs/2605.00425 以从此页面链接它。
包含此论文的集合 0
没有包含此论文的集合
将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
重新审视熵正则化:自适应系数释放其在LLM强化学习中的潜力
本文提出自适应熵正则化(AER)框架,通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用,解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。
最大熵如何使强化学习更加稳健
本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。
关于通过元强化学习学习探索的一些思考
OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。
AHD Agent:用于自动启发式设计的代理强化学习
本文介绍了 AHD Agent,这是一个利用代理强化学习(Agentic Reinforcement Learning)的框架,使大型语言模型(LLMs)能够通过动态交互求解环境,自主地为组合优化问题设计启发式方法。
通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题
本文介绍了 Entrocraft,这是一种用于强化学习的拒绝采样方法,通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命,使较小规模的模型能够超越较大的基线模型。