STARE:惊奇度引导的令牌级优势重加权实现策略熵稳定性
摘要
STARE 通过引入惊奇度引导的令牌级优势重加权和目标熵调节,解决了基于GRPO的大语言模型强化学习中的策略熵崩溃问题,在AIME基准上实现了4%-8%的准确率提升。
查看缓存全文
缓存时间: 2026/06/18 11:56
论文页面 - STARE: 基于惊异度引导的令牌级优势重加权以实现策略熵稳定性
来源:https://huggingface.co/papers/2606.19236
摘要
GRPO算法在训练过程中面临策略熵崩溃的问题,STARE通过惊异度引导的令牌级优势重加权和目标熵调节来解决此问题,从而为大语言模型保持稳定的强化学习。
基于可验证奖励的强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 算法,如GRPO (https://huggingface.co/papers?q=GRPO),已成为大语言模型复杂推理的主流后训练范式,但它们在训练过程中常遭受策略熵崩溃 (https://huggingface.co/papers?q=policy%20entropy%20collapse) 的问题。我们对GRPO (https://huggingface.co/papers?q=GRPO) 下的令牌级熵动力学 (https://huggingface.co/papers?q=token-level%20entropy%20dynamics) 进行了一阶梯度分析 (https://huggingface.co/papers?q=first-order%20gradient%20analysis),并识别出一个令牌级信用分配错配:每个令牌的熵变化可分解为轨迹级优势 (https://huggingface.co/papers?q=trajectory-level%20advantage) 与下一个令牌分布上的熵敏感函数 (https://huggingface.co/papers?q=entropy%20sensitivity%20function) 的乘积,从而产生一个优势-惊异度四象限结构以及近乎临界性的性质。受此启发,我们提出了STARE(基于惊异度引导的令牌级优势重加权 (https://huggingface.co/papers?q=Surprisal-guided%20Token-level%20Advantage%20Reweighting) 以实现策略熵稳定性 (https://huggingface.co/papers?q=policy%20Entropy%20stability)),该方法通过批次内部惊异度分位数识别熵关键令牌子集,选择性地重加权其有效优势,并纳入目标熵闭环门控 (https://huggingface.co/papers?q=target-entropy%20closed-loop%20gate) 以实现稳定的熵调节。在从1.5B到32B的模型规模以及三个任务族(短CoT、长CoT和多轮工具使用)中,STARE在数千步训练中保持稳定的强化学习训练,同时将策略熵维持在目标带宽内。在AIME24 (https://huggingface.co/papers?q=AIME24) 和AIME25 (https://huggingface.co/papers?q=AIME25) 上,STARE的平均准确率比DAPO和其他竞争基线高出4%-8%,同时反思令牌和响应长度同步增长,表明持续的探索-利用平衡进一步释放了强化学习训练潜力。代码可在 https://github.com/hp-luo/STARE 获取。
查看arXiv页面 (https://arxiv.org/abs/2606.19236) 查看PDF (https://arxiv.org/pdf/2606.19236) 项目页面 (https://github.com/hp-luo/STARE) GitHub (https://github.com/hp-luo/STARE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19236)
在您的智能体中获取这篇论文:
hf papers read 2606.19236
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
暂无模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2606.19236 即可从此页面链接。
引用本论文的数据集0
暂无数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.19236 即可从此页面链接。
引用本论文的Space0
暂无Space链接本论文
在Space README.md 中引用 arxiv.org/abs/2606.19236 即可从此页面链接。
包含本论文的收藏集0
暂无收藏集包含本论文
将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
驾驭极端 Token:基于高斯核优势重权重的协方差感知 GRPO
本文提出了一种协方差感知的组相对策略优化(GRPO)变体,该方法利用高斯核优势重权重技术来稳定训练熵,并提升大语言模型的推理性能。
选择性优势熵自适应范围GRPO:用于语言模型高效强化学习的非对称令牌级折扣
本文介绍了GRPO的自适应范围和选择性优势变体,这些变体使用基于熵的令牌级折扣来稳定训练并提高数学推理任务的性能,以更低的方差实现了更强的结果。
重新审视熵正则化:自适应系数释放其在LLM强化学习中的潜力
本文提出自适应熵正则化(AER)框架,通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用,解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。
StepPO:面向智能体强化学习的步骤对齐策略优化
StepPO 引入了一种面向智能体强化学习的步骤中心范式,该范式将策略优化与智能体决策粒度对齐,在多轮交互任务中优于以令牌为中心的方法。
RLVR稳定性与Winner Advantage Policy Optimization的梯度视角
本文分析了RLVR训练中的token级梯度动态,揭示了优势符号与token概率如何共同影响更新稳定性,并提出了Winner Advantage Policy Optimization(WAPO),该方法仅在正优势的完成序列上执行裁剪更新,以提高稳定性。