DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡
摘要
# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:
查看缓存全文
缓存时间: 2026/04/21 07:21
论文页面 - DiPO:基于困惑度的解耦策略优化,实现细粒度探索-利用权衡
来源:https://huggingface.co/papers/2604.13902
作者:,,,,,,,,,,
摘要
一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡难题。
可验证奖励强化学习(RLVR)极大推动了大型语言模型(LLM)推理能力的提升,但如何有效平衡探索与利用仍是关键挑战。本文深入剖析训练过程中极难与极易样本所面临的探索-利用困境,提出一种细粒度权衡机制。具体而言,我们引入困惑度空间解耦策略,将样本空间划分为独立的探索(高困惑度)与利用(低困惑度)子空间,从而挖掘需要探索-利用权衡的细粒度样本。随后,提出双向奖励分配机制,在最小化对验证奖励影响的前提下,实现困惑度引导的探索与利用,使策略优化更加稳定。最后,我们在数学推理与函数调用两大主流任务上评估该方法,实验结果验证了其优越性,确认通过细粒度探索-利用权衡可显著提升 LLM 性能。
查看 arXiv 页面(https://arxiv.org/abs/2604.13902)
查看 PDF(https://arxiv.org/pdf/2604.13902)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.13902)
在智能体中获取该论文:
hf papers read 2604.13902
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用
在模型 README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集引用
在数据集 README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 引用
在 Space README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。
包含该论文的合集 0
暂无合集包含
将该论文添加到合集即可在此页面显示链接。
相似文章
xi-DPO:通过比率奖励边际的直接偏好优化
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
近端策略优化
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
列表式策略优化:基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影
本文介绍了列表式策略优化(LPO),这是一种用于 RLVR 的方法,通过在响应单纯形上进行散度最小化来显式处理目标投影,从而提高大语言模型(LLM)的训练稳定性和性能。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。