STARE:惊奇度引导的令牌级优势重加权实现策略熵稳定性

Hugging Face Daily Papers 论文

摘要

STARE 通过引入惊奇度引导的令牌级优势重加权和目标熵调节,解决了基于GRPO的大语言模型强化学习中的策略熵崩溃问题,在AIME基准上实现了4%-8%的准确率提升。

像GRPO这样的可验证奖励强化学习算法已成为大语言模型复杂推理的主要后训练范式,但通常在训练过程中会出现策略熵崩溃。我们进行了在GRPO下的令牌级熵动态的一阶梯度分析,并识别出令牌级信用分配不匹配:每个令牌的熵变分解为轨迹级优势与下一个令牌分布上的熵敏感度函数的乘积,产生了一个优势-惊奇度四象限结构和一个近临界性质。受此启发,我们提出了STARE(惊奇度引导的令牌级优势重加权实现策略熵稳定性),它通过批次内的惊奇度分位数识别熵关键令牌子集,选择性地重新加权其有效优势,并引入目标熵闭环门以实现稳定的熵调节。在从1.5B到32B的模型规模上以及三个任务族(短链思维、长链思维和多轮工具使用)中,STARE在数千步内保持稳定的强化学习训练,同时将策略熵维持在目标范围内。在AIME24和AIME25上,STARE在平均准确率上以4%-8%的优势超过DAPO和其他竞争基线,同时反思令牌和响应长度同步增长,表明持续的探索-利用平衡进一步释放了强化学习训练潜力。代码可在 https://github.com/hp-luo/STARE 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/18 11:56

论文页面 - STARE: 基于惊异度引导的令牌级优势重加权以实现策略熵稳定性

来源:https://huggingface.co/papers/2606.19236

摘要

GRPO算法在训练过程中面临策略熵崩溃的问题,STARE通过惊异度引导的令牌级优势重加权和目标熵调节来解决此问题,从而为大语言模型保持稳定的强化学习。

基于可验证奖励的强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 算法,如GRPO (https://huggingface.co/papers?q=GRPO),已成为大语言模型复杂推理的主流后训练范式,但它们在训练过程中常遭受策略熵崩溃 (https://huggingface.co/papers?q=policy%20entropy%20collapse) 的问题。我们对GRPO (https://huggingface.co/papers?q=GRPO) 下的令牌级熵动力学 (https://huggingface.co/papers?q=token-level%20entropy%20dynamics) 进行了一阶梯度分析 (https://huggingface.co/papers?q=first-order%20gradient%20analysis),并识别出一个令牌级信用分配错配:每个令牌的熵变化可分解为轨迹级优势 (https://huggingface.co/papers?q=trajectory-level%20advantage) 与下一个令牌分布上的熵敏感函数 (https://huggingface.co/papers?q=entropy%20sensitivity%20function) 的乘积,从而产生一个优势-惊异度四象限结构以及近乎临界性的性质。受此启发,我们提出了STARE(基于惊异度引导的令牌级优势重加权 (https://huggingface.co/papers?q=Surprisal-guided%20Token-level%20Advantage%20Reweighting) 以实现策略熵稳定性 (https://huggingface.co/papers?q=policy%20Entropy%20stability)),该方法通过批次内部惊异度分位数识别熵关键令牌子集,选择性地重加权其有效优势,并纳入目标熵闭环门控 (https://huggingface.co/papers?q=target-entropy%20closed-loop%20gate) 以实现稳定的熵调节。在从1.5B到32B的模型规模以及三个任务族(短CoT、长CoT和多轮工具使用)中,STARE在数千步训练中保持稳定的强化学习训练,同时将策略熵维持在目标带宽内。在AIME24 (https://huggingface.co/papers?q=AIME24) 和AIME25 (https://huggingface.co/papers?q=AIME25) 上,STARE的平均准确率比DAPO和其他竞争基线高出4%-8%,同时反思令牌和响应长度同步增长,表明持续的探索-利用平衡进一步释放了强化学习训练潜力。代码可在 https://github.com/hp-luo/STARE 获取。

查看arXiv页面 (https://arxiv.org/abs/2606.19236) 查看PDF (https://arxiv.org/pdf/2606.19236) 项目页面 (https://github.com/hp-luo/STARE) GitHub (https://github.com/hp-luo/STARE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19236)

在您的智能体中获取这篇论文:

hf papers read 2606.19236

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

暂无模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2606.19236 即可从此页面链接。

引用本论文的数据集0

暂无数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.19236 即可从此页面链接。

引用本论文的Space0

暂无Space链接本论文

在Space README.md 中引用 arxiv.org/abs/2606.19236 即可从此页面链接。

包含本论文的收藏集0

暂无收藏集包含本论文

将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

RLVR稳定性与Winner Advantage Policy Optimization的梯度视角

Hugging Face Daily Papers

本文分析了RLVR训练中的token级梯度动态,揭示了优势符号与token概率如何共同影响更新稳定性,并提出了Winner Advantage Policy Optimization(WAPO),该方法仅在正优势的完成序列上执行裁剪更新,以提高稳定性。