DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers 论文

摘要

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:

可验证奖励强化学习(RLVR)极大推动了大语言模型(LLM)推理能力的提升。然而,如何有效平衡探索与利用仍是关键挑战。本文深入分析了训练中极难与极易样本所带来的探索-利用困境,并提出一种细粒度权衡机制。具体而言,我们引入困惑度空间解耦策略,将样本空间划分为探索区(高困惑度)与利用区(低困惑度),从而挖掘需精细权衡的样本。随后,提出双向奖励分配机制,在最小扰动可验证奖励的前提下,实现困惑度引导的探索与利用,带来更稳定的策略优化。最后,我们在数学推理与函数调用两大主流任务上评估该方法,实验结果验证其优越性,确认通过细粒度探索-利用权衡可显著提升 LLM 性能。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - DiPO:基于困惑度的解耦策略优化,实现细粒度探索-利用权衡

来源:https://huggingface.co/papers/2604.13902
作者:,,,,,,,,,,

摘要

一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡难题。

可验证奖励强化学习(RLVR)极大推动了大型语言模型(LLM)推理能力的提升,但如何有效平衡探索与利用仍是关键挑战。本文深入剖析训练过程中极难与极易样本所面临的探索-利用困境,提出一种细粒度权衡机制。具体而言,我们引入困惑度空间解耦策略,将样本空间划分为独立的探索(高困惑度)与利用(低困惑度)子空间,从而挖掘需要探索-利用权衡的细粒度样本。随后,提出双向奖励分配机制,在最小化对验证奖励影响的前提下,实现困惑度引导的探索与利用,使策略优化更加稳定。最后,我们在数学推理与函数调用两大主流任务上评估该方法,实验结果验证了其优越性,确认通过细粒度探索-利用权衡可显著提升 LLM 性能。

查看 arXiv 页面(https://arxiv.org/abs/2604.13902)
查看 PDF(https://arxiv.org/pdf/2604.13902)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.13902)

在智能体中获取该论文:

hf papers read 2604.13902

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用

在数据集 README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。

包含该论文的合集 0

暂无合集包含

将该论文添加到合集即可在此页面显示链接。

相似文章

xi-DPO:通过比率奖励边际的直接偏好优化

arXiv cs.LG

本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

近端策略优化

OpenAI Blog

# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。