通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

Hugging Face Daily Papers 论文

摘要

本文介绍了 Entrocraft,这是一种用于强化学习的拒绝采样方法,通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命,使较小规模的模型能够超越较大的基线模型。

强化学习(RL)为大语言模型(LLMs)赋予了复杂的推理能力。然而,大多数强化学习算法都遭受性能饱和的困扰,阻碍了随着强化学习训练规模扩大而带来的持续性能提升。这个问题可以通过熵的崩溃来表征,熵是衡量强化学习中探索行为的一个关键指标。现有的尝试主要集中在通过正则化或截断来防止熵崩溃。然而,由此产生的熵曲线往往在长期表现出不稳定性,从而阻碍了性能的提升。在本文中,我们介绍了 Entrocraft,这是一种简单的拒绝采样方法,通过偏置优势分布来实现用户自定义的熵调度。Entrocraft 无需目标正则化,且与优势估计器无关。在理论上,我们在最小假设下将每步熵的变化与优势分布联系起来。这解释了现有强化学习和熵保持方法的行为。Entrocraft 还使对熵调度的系统性研究成为可能,研究表明,从高起始值衰减到略低目标值的线性退火效果最好。在经验上,Entrocraft 解决了性能饱和问题,显著改善了泛化能力、输出多样性以及长期训练效果。它使 4B 模型能够超越 8B 基线模型,在达到平台期前将改进持续时间延长了多达 4 倍,并将 pass@K 指标比基线提高了 50%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 00:20

论文页面 - 通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题

来源:https://huggingface.co/papers/2604.26326

摘要

Entrocraft 是一种用于强化学习的拒绝采样方法,它通过定制熵调度计划并改善泛化能力和训练持久性,来解决大语言模型(LLM)中的性能饱和问题。

强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(RL)赋予了大语言模型(LLM)复杂的推理能力。然而,大多数 RL 算法都遭受性能饱和(https://huggingface.co/papers?q=performance%20saturation)之苦,导致随着 RL 训练规模的扩大,性能无法持续提升。这一问题可以通过熵的崩溃来表征,熵是衡量 RL 中探索行为的关键诊断指标。现有的尝试主要集中于通过正则化或裁剪来防止熵崩溃(https://huggingface.co/papers?q=entropy%20collapse)。然而,它们产生的熵曲线在长期来看往往表现出不稳定性,从而阻碍了性能的提升。在本文中,我们引入了 Entrocraft,这是一种简单的拒绝采样(https://huggingface.co/papers?q=rejection-sampling)方法,它通过偏差化优势分布(https://huggingface.co/papers?q=advantage%20distributions)来实现用户定制的熵调度计划(https://huggingface.co/papers?q=entropy%20schedule)。Entrocraft 无需目标正则化,且与优势估计器无关(https://huggingface.co/papers?q=advantage-estimator-agnostic)。理论上,我们在最小假设下将每步熵的变化与优势分布联系起来。这解释了现有 RL 和熵保持方法的行为。Entrocraft 还使熵调度计划(https://huggingface.co/papers?q=entropy%20schedule)的系统性研究成为可能,研究发现,从高起始值衰减到稍低目标值的线性退火策略表现最佳。在实证研究中,Entrocraft 解决了性能饱和(https://huggingface.co/papers?q=performance%20saturation)问题,显著改善了泛化能力(https://huggingface.co/papers?q=generalization)、输出多样性(https://huggingface.co/papers?q=output%20diversity)和长期训练效果。它使 4B 模型能够超越 8B 基线模型,在性能趋于平稳前将改进持续时间延长了多达 4 倍,并将 pass@K 提高了 50%。

查看 arXiv 页面 (https://arxiv.org/abs/2604.26326) 查看 PDF (https://arxiv.org/pdf/2604.26326) 项目页面 (https://lblaoke.github.io/demo/entrocraft) GitHub2 (https://github.com/lblaoke/entrocraft) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.26326)

在您的 Agent 中获取此论文:

hf papers read 2604\.26326

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2604.26326 以从此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2604.26326 以从此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2604.26326 以从此页面建立链接。

包含此论文的集合 1

相似文章

AEM:用于多轮智能体强化学习的自适应熵调制

Hugging Face Daily Papers

本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。

最大熵如何使强化学习更加稳健

ML at Berkeley

本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。