DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

Hugging Face Daily Papers 2026/04/15 00:00 论文

摘要

# 论文页面 - DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡来源：[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者：,,,,,,,,,, ## 摘要一种面向大语言模型的新型强化学习方法，通过基于困惑度的样本划分与双向奖励分配机制，解决探索-利用权衡问题。[强化学习](https:

可验证奖励强化学习（RLVR）极大推动了大语言模型（LLM）推理能力的提升。然而，如何有效平衡探索与利用仍是关键挑战。本文深入分析了训练中极难与极易样本所带来的探索-利用困境，并提出一种细粒度权衡机制。具体而言，我们引入困惑度空间解耦策略，将样本空间划分为探索区（高困惑度）与利用区（低困惑度），从而挖掘需精细权衡的样本。随后，提出双向奖励分配机制，在最小扰动可验证奖励的前提下，实现困惑度引导的探索与利用，带来更稳定的策略优化。最后，我们在数学推理与函数调用两大主流任务上评估该方法，实验结果验证其优越性，确认通过细粒度探索-利用权衡可显著提升 LLM 性能。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - DiPO：基于困惑度的解耦策略优化，实现细粒度探索-利用权衡

来源：https://huggingface.co/papers/2604.13902
作者：,,,,,,,,,,

摘要

一种面向大语言模型的新型强化学习方法，通过基于困惑度的样本划分与双向奖励分配机制，解决探索-利用权衡难题。

可验证奖励强化学习（RLVR）极大推动了大型语言模型（LLM）推理能力的提升，但如何有效平衡探索与利用仍是关键挑战。本文深入剖析训练过程中极难与极易样本所面临的探索-利用困境，提出一种细粒度权衡机制。具体而言，我们引入困惑度空间解耦策略，将样本空间划分为独立的探索（高困惑度）与利用（低困惑度）子空间，从而挖掘需要探索-利用权衡的细粒度样本。随后，提出双向奖励分配机制，在最小化对验证奖励影响的前提下，实现困惑度引导的探索与利用，使策略优化更加稳定。最后，我们在数学推理与函数调用两大主流任务上评估该方法，实验结果验证了其优越性，确认通过细粒度探索-利用权衡可显著提升 LLM 性能。

查看 arXiv 页面（https://arxiv.org/abs/2604.13902）
查看 PDF（https://arxiv.org/pdf/2604.13902）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.13902）

在智能体中获取该论文：

hf papers read 2604.13902

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用

在数据集 README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2604.13902 即可在此页面显示链接。

包含该论文的合集 0

暂无合集包含

将该论文添加到合集即可在此页面显示链接。

DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

论文页面 - DiPO：基于困惑度的解耦策略优化，实现细粒度探索-利用权衡

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 0

相似文章

xi-DPO：通过比率奖励边际的直接偏好优化

基于梯度外推的策略优化

近端策略优化

列表式策略优化：基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

提交意见反馈