提示引导的多样化策略优化用于LLM推理

arXiv cs.CL 2026/06/03 04:00 论文

llm-reasoning reinforcement-learning policy-optimization hint-guided diversified-solutions rlvr

摘要

本文介绍了提示引导的多样化策略优化（HDPO），这是一个两阶段强化学习框架，鼓励LLMs首先生成多个候选解决方案大纲（提示），然后选择最可靠的一个进行详细推理，从而提升推理的多样性和可靠性。

arXiv:2606.03021v1 公告类型：新摘要：近期大型语言模型（LLMs）的发展展示了令人印象深刻的推理能力，其中带有可验证奖励的强化学习（RLVR）是一种有前景的增强策略。然而，现有的奖励机制局限于结果层级的正确性，缺乏明确的信号来引导模型考虑多样化的解决方案。相比之下，人类解决问题通常会评估多种潜在方法并选择最可靠的方案，而当前的RLVR框架并未明确激励这种认知过程。受此启发，我们提出了提示引导的多样化策略优化（HDPO），允许模型首先列出所有潜在候选解决方案大纲作为提示，然后选择最可靠的一个进行进一步推理。HDPO包含两个阶段：Cold Start for Structured Reasoning 和 Hint-Guided Diversified Reinforcement Learning，以激励模型遵循“propose-select-think”轨迹生成多样且可靠的解决方案。实验结果表明，HDPO有效提升了LLM的推理能力，增强了候选解决方案的多样性以及LLM识别可靠解决方案的能力。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:36

# 提示引导的多样化策略优化用于大语言模型推理  
来源：https://arxiv.org/html/2606.03021  

Zhiyu Cao¹, Kaixin Wu², Mingjie Zhong², Peifeng Li¹, Xiaobo Li², Can Ye², Qiaoming Zhu¹  
¹苏州大学计算机科学与技术学院，中国苏州  
²蚂蚁集团，中国杭州  
[email protected], {pfli, qmzhu}@suda.edu.cn  

###### 摘要  
近期，大型语言模型（LLMs）在推理能力方面展现出令人瞩目的进展，其中“基于可验证奖励的强化学习”（RLVR）被认为是一种有前景的增强策略。然而，现有的奖励机制仅限于结果层面的正确性，缺乏明确的信号来引导模型考虑多样化的解决方案。相比之下，人类在解决问题时通常会对多种潜在方法进行评估，并选择最可靠的方案，这一认知过程在当前 RLVR 框架中并未得到明确激励。受此启发，我们提出了“提示引导的多样化策略优化”（HDPO），该模型首先列出所有潜在候选方案的概要作为提示，然后选择最可靠的一个进行进一步推理。HDPO 包含两个阶段：**冷启动的结构化推理**和**提示引导的多样化强化学习**，旨在激励模型按照“提出-选择-思考”的轨迹生成多样化且可靠的解决方案。实验结果表明，HDPO 有效提升了 LLM 的推理能力，增强了候选解决方案的多样性，并提高了模型识别可靠方案的能力。  

# 提示引导的多样化策略优化用于大语言模型推理  
Zhiyu Cao¹††感谢在蚂蚁集团完成的工作。， Kaixin Wu²， Mingjie Zhong²， Peifeng Li¹††通讯作者。， Xiaobo Li²， Can Ye²， Qiaoming Zhu¹  
¹苏州大学计算机科学与技术学院，中国苏州  
²蚂蚁集团，中国杭州  
[email protected], {pfli, qmzhu}@suda.edu.cn  

## 1 引言  
近年来，在增强大型语言模型（LLM）推理能力方面取得了显著进展，例如 OpenAI-o1（Jaech 等人，2024）、DeepSeek-R1（Guo 等人，2025）和 Kimi-1.5（Team 等人，2025），尤其是在复杂数学问题求解方面。这些改进的关键基础之一是采用“基于可验证奖励的强化学习”（RLVR）（Liu 等人，2025b；Yan 等人，2025；Zhang 等人，2025a）作为核心训练范式。在此框架内，策略优化算法被广泛用于微调 LLM，其中“组相对策略优化”（GRPO）（Shao 等人，2024）是该方法的典型实例。  

![参见图注](图1：在 Olympiad-Bench 上不同尝试次数下 HDPO 和 GRPO 的命中率。)  
为确保复杂推理的可信度，RLVR 中采用结果级奖励（Cobbe 等人，2021；Shao 等人，2024）来评估整个推理轨迹的正确性。然而，这种方法没有考虑过程的合理性，其稀疏奖励可能导致奖励的同质化，无法提供全面的监督。因此，近期研究（Zhang 等人，2025b, a；Luo 等人，2025b）通过提供更细致的反馈（例如自然语言反馈和过程监督）来增强模型的推理能力。  

![参见图注](图2：HDPO 的“提出-选择-思考”推理过程（左）与传统推理过程（右）的对比。更多案例研究见附录 K。)  
我们注意到，尽管上述方法取得了显著成功，但它们仅基于正确性提供奖励，因此未能鼓励探索多样化的解决方案。结果，如果模型陷入错误的解决方案，可能难以恢复并找到正确答案，从而降低了推理的容错性。如图1所示，我们评估了 Qwen3-4B 在不同采样尝试次数下的 Hit@N 准确率。结果显示，当尝试次数有限时，GRPO 的性能显著较低，而 HDPO 即使在较少尝试次数下也能持续获得更高的准确率。这表明，经过 GRPO 训练的模型未能充分探索多样化的推理路径空间，从而限制了其在有限尝试中生成正确答案的能力。理想情况下，模型应该能够探索更广泛的解决方案，并选择最可靠的方案进行进一步细化。关键挑战在于设计既能激励多样化解产生、又能有效评估其可靠性的机制。  

为解决这一问题，我们提出了“提示引导的多样化策略优化”（HDPO），这是一种增强 LLM 推理多样性和可靠性的新方法。HDPO 基于“提出-选择-思考”推理轨迹构建，有效激励模型推理出多样的潜在解决方案。具体而言，我们的训练方法分两个阶段灌输这种能力：首先在冷启动阶段使用监督微调（SFT）建立模型遵循结构化推理轨迹的能力，然后通过强化学习（RL）培养能够生成多样且可靠解决方案的策略模型。在冷启动阶段，我们使用先进的 LLM 构建此类结构化推理轨迹，并基于正确性和可靠性过滤标准确保数据质量。在 RL 阶段，我们引入多样性调度策略和可靠性奖励，引导模型主动探索所有潜在解决方案。  

如图2所示，HDPO 采用的“提出-选择-思考”框架相较于传统方法具有显著优势。传统范式以暴力方式扩展给定条件并得出错误答案，而 HDPO 在进行详细推理之前先生成多个候选解决方案，从而促进对解空间的更广泛探索。这种初步探索使模型能够识别潜在对称性，这是得出正确答案的关键洞见。更重要的是，HDPO 通过**策略内化**和**联合优化**推进了现有范式。与推理时搜索方法（Wang 等人，2023；Yao 等人，2023）通过重复采样导致高延迟不同，HDPO 通过 RLVR 将“探索然后利用”机制内化到策略参数中，实现零开销的单次推理。此外，与仅关注准确性的 RLVR 不同，HDPO 通过联合优化调度的多样性奖励和基于置信度的可靠性奖励，直接缓解了解决方案的同质化和不可靠选择问题。  

总结来说，我们的贡献如下：  
- • 我们提出了 HDPO，一种基于“提出-选择-思考”结构化推理过程的新型框架，以增强 LLM 推理能力。  
- • 所提出的多样化调度策略和可靠性奖励使 LLM 能够主动探索多样且可靠的解决方案。  
- • 大量实验结果表明，HDPO 显著提升了模型的推理能力。  

## 2 相关工作  

#### 链式思考用于 LLM 推理。  
链式思考（Wei 等人，2022）推理在近年取得了显著进展。在此基础上，思维树（ToT）（Yao 等人，2023）将推理泛化为结构化思维序列，并通过自我评估确定下一步动作。Zhou 等人（2023）提出了“由易到难”提示方法，通过分解问题使语言模型能够解决比提示中更困难的问题。思维图（GoT）（Besta 等人，2024）将 LLM 推理建模为任意图，其中思维表示为顶点，思维之间的依赖关系表示为边。与 ToT/GoT 需要在推理时反复采样和启发式评分不同，HDPO 通过奖励塑造的 RL 将“提出-选择-思考”范式内化到策略权重中，实现零开销推理。通过结构化强化学习，模型学会在单次前向传播中生成多样化的候选提示并自主选择最可靠的轨迹。  

#### 强化学习用于 LLM 推理。  
近期强化学习（RL）的进展（Shao 等人，2024；Yue 等人，2025；Liu 等人，2025a）在增强复杂推理方面取得了重大进展，从表面级别的响应生成转向复杂的解决问题。Ouyang 等人（2022）利用偏好数据训练奖励模型，并应用近端策略优化（PPO）（Schulman 等人，2017）对 LLM 进行强化学习，以与人类偏好对齐。随后，许多方法采用强化学习使 LLM 与人类偏好对齐（Lee 等人，2024；Ryu 等人，2024；Xie 等人，2024）。DeepSeekMath（Shao 等人，2024）提出了 GRPO 算法，简化了强化学习的训练过程，并通过 RL 显著提升了 LLM 在数学领域的性能。在此基础上，Dr.GRPO（Liu 等人，2025b）提出了一种无偏优化方法，在保持推理性能的同时提高了 token 效率。Aggarwal and Welleck（2025）使用长度约束确保推理语言模型遵循用户指定的长度。为确保序列级奖励和优化的一致性，组序列策略优化（GSPO）（Zheng 等人，2025）基于序列似然定义重要性比率。  

![参见图注](图3：提示引导的多样化策略优化概览，包含两个阶段：(1) **冷启动的结构化推理**，通过先进 LLM 构建经过正确性和可靠性过滤的“提出-选择-思考”轨迹；(2) **提示引导的多样化强化学习**，通过多样性调度和可靠性奖励优化策略，以促进解决方案探索。)  

## 3 方法  

### 3.1 预备知识  
我们使用 GRPO（Shao 等人，2024）算法优化策略模型 πθ。GRPO 以组相对方式估计优势。给定提示 p，旧策略 πθ_old 生成 G 个响应 {x₁, ..., x_G}，奖励为 {r₁, ..., r_G}，这些奖励经过组归一化计算每个响应的优势：  
Âᵢ = (rᵢ - mean(r₁, ..., r_G)) / (std(r₁, ..., r_G) + ε_norm),   (1)  
其中 ε_norm 是用于稳定性的小常数。然后使用裁剪代理目标对策略进行优化，并通过 KL 项约束策略漂移（ε 和 β 是超参数）：  
L_GRPO(θ) = -1/G ∑_{i=1}^G min( (πθ(xᵢ)/πθ_old(xᵢ)) Âᵢ, clip(πθ(xᵢ)/πθ_old(xᵢ), 1-ε, 1+ε) Âᵢ ) + β KL(πθ ‖ πθ_old).   (2)  
GRPO 通过奖励具有正相对优势的响应并限制策略偏差，实现了 RLVR 原则，从而提高 LLM 的推理和生成质量。  

### 3.2 概述  
如图3所示，HDPO 建立了两阶段优化策略。为使模型首先提出候选解决方案，然后选择最可靠的方案进行思考，我们在第一阶段进行**冷启动的结构化推理**。具体来说，我们从先进 LLM 中蒸馏出“提出-选择-思考”推理轨迹的数据，并进行 SFT。为确保这些轨迹的有效性，我们基于正确性和可靠性对蒸馏数据进行过滤。在第二阶段，我们提出**提示引导的多样化强化学习**，通过在策略优化过程中引入多样性调度策略和可靠性奖励，提升模型推理质量。  

### 3.3 冷启动的结构化推理  
以往的推理 LLM（Liu 等人，2025b；Yan 等人，2025；Zhang 等人，2025a）通常直接从给定问题生成单一解决方案，这种范式缺乏明确的机制来鼓励探索多样化的解空间。因此，我们试图教会模型遵循“提出-选择-思考”推理轨迹。具体而言，模型首先生成一个包含多个候选解决方案的概述，每个方案用几句话描述，然后选择最可靠的候选方案作为引导提示，用于后续思考。  

为满足策略模型遵循“提出-选择-思考”推理模式的需求，我们从先进的教师 LLM 中蒸馏此类轨迹数据。给定问题 q，教师模型被提示生成符合“提出-选择-思考”框架的结构化推理轨迹。结构化推理的提示详见附录 A。每个轨迹的形式为 τ = {s₁, s₂, ..., s_m, c, o}，其中 sᵢ、c 和 o 分别表示第 i 个提出的候选解决方案、选择的最可靠方案以及思考过程。为确保生成数据的合理性，我们应用双重重过滤标准：(1) 正确性过滤：最终答案必须正确；(2) 可靠性过滤：所选候选方案应具有较高的置信度或可验证性。

提示引导的多样化策略优化用于LLM推理

相似文章

超越轨迹模仿：面向大模型推理的Strategy-Guided Policy Optimization

PPO-HSC：一种基于广域策略覆盖优化的探索性强化学习框架

推理还是记忆？LLM强化学习中的方向感知多样性探索

RLearner-LLM：通过混合直接偏好优化平衡大语言模型的逻辑基础与流畅性

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

提交意见反馈