通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

Hugging Face Daily Papers 2026/05/10 00:00 论文

摘要

本文介绍了 Entrocraft，这是一种用于强化学习的拒绝采样方法，通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命，使较小规模的模型能够超越较大的基线模型。

强化学习（RL）为大语言模型（LLMs）赋予了复杂的推理能力。然而，大多数强化学习算法都遭受性能饱和的困扰，阻碍了随着强化学习训练规模扩大而带来的持续性能提升。这个问题可以通过熵的崩溃来表征，熵是衡量强化学习中探索行为的一个关键指标。现有的尝试主要集中在通过正则化或截断来防止熵崩溃。然而，由此产生的熵曲线往往在长期表现出不稳定性，从而阻碍了性能的提升。在本文中，我们介绍了 Entrocraft，这是一种简单的拒绝采样方法，通过偏置优势分布来实现用户自定义的熵调度。Entrocraft 无需目标正则化，且与优势估计器无关。在理论上，我们在最小假设下将每步熵的变化与优势分布联系起来。这解释了现有强化学习和熵保持方法的行为。Entrocraft 还使对熵调度的系统性研究成为可能，研究表明，从高起始值衰减到略低目标值的线性退火效果最好。在经验上，Entrocraft 解决了性能饱和问题，显著改善了泛化能力、输出多样性以及长期训练效果。它使 4B 模型能够超越 8B 基线模型，在达到平台期前将改进持续时间延长了多达 4 倍，并将 pass@K 指标比基线提高了 50%。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 00:20

论文页面 - 通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题

来源：https://huggingface.co/papers/2604.26326

摘要

Entrocraft 是一种用于强化学习的拒绝采样方法，它通过定制熵调度计划并改善泛化能力和训练持久性，来解决大语言模型（LLM）中的性能饱和问题。

强化学习（https://huggingface.co/papers?q=Reinforcement%20learning）（RL）赋予了大语言模型（LLM）复杂的推理能力。然而，大多数 RL 算法都遭受性能饱和（https://huggingface.co/papers?q=performance%20saturation）之苦，导致随着 RL 训练规模的扩大，性能无法持续提升。这一问题可以通过熵的崩溃来表征，熵是衡量 RL 中探索行为的关键诊断指标。现有的尝试主要集中于通过正则化或裁剪来防止熵崩溃（https://huggingface.co/papers?q=entropy%20collapse）。然而，它们产生的熵曲线在长期来看往往表现出不稳定性，从而阻碍了性能的提升。在本文中，我们引入了 Entrocraft，这是一种简单的拒绝采样（https://huggingface.co/papers?q=rejection-sampling）方法，它通过偏差化优势分布（https://huggingface.co/papers?q=advantage%20distributions）来实现用户定制的熵调度计划（https://huggingface.co/papers?q=entropy%20schedule）。Entrocraft 无需目标正则化，且与优势估计器无关（https://huggingface.co/papers?q=advantage-estimator-agnostic）。理论上，我们在最小假设下将每步熵的变化与优势分布联系起来。这解释了现有 RL 和熵保持方法的行为。Entrocraft 还使熵调度计划（https://huggingface.co/papers?q=entropy%20schedule）的系统性研究成为可能，研究发现，从高起始值衰减到稍低目标值的线性退火策略表现最佳。在实证研究中，Entrocraft 解决了性能饱和（https://huggingface.co/papers?q=performance%20saturation）问题，显著改善了泛化能力（https://huggingface.co/papers?q=generalization）、输出多样性（https://huggingface.co/papers?q=output%20diversity）和长期训练效果。它使 4B 模型能够超越 8B 基线模型，在性能趋于平稳前将改进持续时间延长了多达 4 倍，并将 pass@K 提高了 50%。

查看 arXiv 页面 (https://arxiv.org/abs/2604.26326) 查看 PDF (https://arxiv.org/pdf/2604.26326) 项目页面 (https://lblaoke.github.io/demo/entrocraft) GitHub2 (https://github.com/lblaoke/entrocraft) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.26326)

在您的 Agent 中获取此论文：

hf papers read 2604\.26326

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2604.26326 以从此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2604.26326 以从此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2604.26326 以从此页面建立链接。

通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

论文页面 - 通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 1

相似文章

重新审视熵正则化：自适应系数释放其在LLM强化学习中的潜力

AEM：用于多轮智能体强化学习的自适应熵调制

ResRL：通过负样本投影残差强化学习提升大语言模型的推理能力

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

最大熵如何使强化学习更加稳健

提交意见反馈