@TheTuringPost: 2026年重要的15种策略优化和偏好优化技术 GRPO DPO REINFORCE++ DAPO(动态采样…
摘要
全面指南:2026年重要的15种策略优化和偏好优化技术,包括GRPO、DPO、REINFORCE++及众多新变体,描绘推理强化学习方法论的图景。
查看缓存全文
缓存时间: 2026/06/08 23:34
2026年重要的15种策略优化与偏好优化技术
GRPO
DPO
REINFORCE++
DAPO(动态采样)
Dr. GRPO
GSPO(组序列)
DHPO(动态混合)
EP-GRPO(熵-进度对齐)
TR-GRPO(Token调节)
DPPO(动态剪枝)
ARPO(自主强化)
VPO(向量PO)
InSPO(内在自反思偏好优化)
TI-DPO(Token重要性引导DPO)
RAPPO(偏好PO的可靠对齐)
将这份列表作为2026年最相关的策略优化方法的快速参考保存:https://turingpost.com/p/reasoning-rl-in-2026…
2026年的推理强化学习:GRPO、DPO、RLVR、自主PO及更多
来源:https://www.turingpost.com/p/reasoning-rl-in-2026 2026年,强化学习(https://www.turingpost.com/p/rlguide)已经是一个完整的行业,产生了大量方法帮助AI模型保持正确方向并进行正确推理。新的格局主要由GRPO(组相对策略优化)、RLVR(基于可验证奖励的强化学习)、无批评器优化、DPO(直接偏好优化)变体、自主策略优化以及测试时多样性方法塑造。
本指南梳理了用于训练模型进行推理、验证、搜索、自我纠正并在每一步优化中改进的经典基线方法和最新2026年方法。
太长不看版:现代推理RL正从昂贵的PPO风格流水线转向更便宜、无批评器、组相对和基于偏好的方法。GRPO、DPO、DAPO、GSPO、ARPO、VPO以及更新的DPO变体定义了2026年强化学习、自主训练和推理优化的工具箱。
现在来看列表!
| 方法 | 状态 | 为何重要 | 用途 |
|---|---|---|---|
| GRPO – 组相对策略优化 | 2024–2026,主流 | 无批评器的PPO替代方案;核心RLVR基线 | 推理RL,数学/代码,可验证奖励 |
| DPO – 直接偏好优化 | 2023–2026,经典 | 无需奖励模型RL的直接偏好训练 | 离线对齐,选择/拒绝数据集 |
| REINFORCE++ | 2025–2026,实用 | 带归一化优势的简单无批评器RL | 轻量级RLHF/RLVR基线 |
| DAPO – 动态采样策略优化 | 2025–2026,热门 | 更稳定的GRPO,带动态采样和裁剪修复 | 长链思维和大规模推理RL |
| Dr. GRPO | 2025–2026,修正性 | 修复GRPO在损失归一化中的长度偏差 | 高效的Token长推理训练 |
| GSPO – 组序列策略优化 | 2025–2026,重要 | 优化序列级比率,而非Token级比率 | 序列奖励,混合专家RL稳定性 |
| DHPO – 动态混合策略优化 | 2026,新 | 融合Token级GRPO和序列级GSPO | 混合推理RL优化 |
| EP-GRPO – 熵-进度对齐的GRPO | 2026,新 | 使用熵-进度信号重新加权Token | 更好的推理信用分配 |
| TR-GRPO – Token调节的GRPO | 2025–2026,新 | 根据奖励相关性调节Token贡献 | 数学、逻辑、自主推理 |
| DPPO – 动态剪枝策略优化 | 2026,效率导向 | 使用无偏修正剪枝冗余的迭代生成 | 更快的GRPO风格训练 |
| ARPO – 自主增强策略优化 | 2025-2026,自主 | 自主PO,优化多轮智能体步骤 | 工具使用和自主LLM |
| VPO – 向量策略优化 | 2026,新 | 使用奖励向量训练多样化解集 | 测试时搜索,best@k/pass@k |
| InSPO – 内在自反思偏好优化 | 2025-2026,DPO家族 | 为偏好优化添加自我反思 | 反思式DPO风格对齐 |
| TI-DPO – Token重要性引导的DPO | 2025-2026,值得注意 | 为DPO添加Token重要性权重 | 细粒度偏好学习 |
| RAPPO – 偏好PO的可靠对齐 | 2026,可靠 | 过滤损害DPO泛化的模糊对 | 噪声偏好数据集 |
核心RL基线:GRPO、DPO、REINFORCE++
GRPO
RLVR和推理RL浪潮的基础:无批评器、组相对优势,比经典PPO(近端策略优化)更便宜。到2026年,它是核心参考点。GRPO(组相对策略优化)(https://www.turingpost.com/p/gpro)是一种在组内比较响应的方法,无需单独的价值批评器,有助于降低计算成本。→ 阅读更多 (https://arxiv.org/abs/2402.03300)
DPO
DPO(直接偏好优化)(https://www.turingpost.com/p/rlhfvariants)已经是一种经典的方法,称为“无需完整RL的RLHF”,因为它使用人类偏好数据但避免使用单独的奖励模型。DPO直接在偏好对上训练模型——同一提示下的选择响应vs.拒绝响应。它更新模型使得选择响应更可能,同时使模型接近原始的监督微调模型。现在DPO是主要的离线偏好优化参考点,因为它简单、稳定,并且也比PPO风格的RLHF更便宜。→ (https://arxiv.org/abs/2305.18290) 阅读更多 (https://arxiv.org/abs/2305.18290)
REINFORCE++
它的重要性在于它是一种“简单即强”的方法:无批评器策略优化,基于完整生成响应的奖励更新模型,通过归一化优势强化更成功的轨迹。它常常与GRPO和RLOO并列,作为没有PPO级别复杂度的简单RLVR/RLHF基线。→ 阅读更多 (https://arxiv.org/abs/2501.03262)
2026年的GRPO变体:DAPO、GSPO、DHPO等
DAPO
**DAPO(动态采样策略优化)**是主要GRPO后继方法之一。它修复了GRPO的几个实际问题:保持GRPO风格的组比较工作流,但通过分离裁剪行为、过滤和采样更具信息量的提示,以及调整多个迭代级别细节,使训练更加稳定。DAPO在使用Qwen2.5-32B时在AIME 2024上获得了50分,并附带一个开源的大规模RL系统。→ 阅读更多 (https://arxiv.org/abs/2503.14476)
Dr. GRPO
它的重要性在于它是“做正确的GRPO”并修复Token效率问题:Dr. GRPO修正了GRPO的长度相关偏差,通过纠正跨Token和响应的优势和归一化计算方式。它使用固定的最大长度或完成长度进行归一化,因此较短的答案不会获得人为放大的更新,较长的推理轨迹也不会不公平地受到惩罚。→ 阅读更多 (https://arxiv.org/abs/2503.20783)
GSPO
GSPO(组序列策略优化)将重要性比率计算在整个生成序列上,然后裁剪并优化这个序列级比率,使得更新更直接地与最终的响应级奖励对齐。这对于混合专家(MoE)(https://www.turingpost.com/p/moe)RL训练尤其稳定。→ 阅读更多 (https://arxiv.org/abs/2507.18071)
DHPO
一个非常新的2026年方法:**DHPO(动态混合策略优化)**结合了GRPO的Token级比率以指导局部修正,以及GSPO的序列级重要性比率以保持整体响应优化与最终奖励对齐。最终,GRPO提供了细粒度的信用分配,GSPO更好地匹配序列级奖励,而DHPO试图获得两者的最佳效果。→ 阅读更多 (https://arxiv.org/abs/2601.05607)
EP-GRPO
一个新鲜的GRPO变体。它针对GRPO的一些信用分配失败:均匀的Token级粒度、推理步骤上的错误极性以及零方差崩溃。**EP-GRPO(熵-进度对齐的GRPO)**跟踪推理步骤中的熵变化,并使用这个“进度”信号重新加权Token优势,使得更新更关注那些真正推动解决方案前进的Token,而不是平等对待每个Token。→ 阅读更多 (https://arxiv.org/abs/2605.04960v1)
TR-GRPO
另一个GRPO变体,调节Token贡献。**TR-GRPO(Token调节的GRPO)**根据Token对最终奖励的估计贡献分配不同的权重。这减少了噪声或无帮助的Token更新,同时保留了重要推理/动作Token的更强学习信号。→ 阅读更多 (https://arxiv.org/abs/2511.00066v1)
DPPO
这是一个新鲜的高效关注方法,用于基于组的PO。**DPPO(动态剪枝策略优化)**通过动态剪枝使GRPO风格训练更快。它在基于组的训练期间剪枝低价值或冗余的迭代生成,然后使用重要性采样修正,使得更快的更新仍然无偏地估计原始GRPO风格梯度。→ 阅读更多 (https://arxiv.org/abs/2603.04135)
自主与测试时方法:ARPO、VPO
ARPO
对于自主和工具使用模型非常重要。**ARPO(自主增强策略优化)**提出了一种专门为多轮LLM智能体设计的RL算法。ARPO在智能体步骤级别进行采样和优化——跨中间工具调用、观察和决策——模型学习哪些动作能改善整个多轮轨迹,而不仅仅是奖励最终答案。→ 阅读更多 (https://arxiv.org/abs/2507.19849)
VPO
这是最有趣的新VPO方法之一。**VPO(向量策略优化)**训练模型在不同奖励向量下产生多样化解集,这对于测试时搜索、best@k和pass@k很重要。→ 阅读更多 (https://arxiv.org/abs/2605.22817)
*在X上,我们每天呈现重要的AI研究并解释背后的思想。关注我们(https://x.com/TheTuringPost)以便及时了解最新进展!
偏好优化方法:DPO变体
InSPO
**InSPO(内在自反思偏好优化)**在概念上很有趣:它将自我反思直接引入偏好优化,通过使策略不仅依赖上下文,还依赖一个替代响应。它是DPO家族算法的即插即用增强。→ 阅读更多 (https://arxiv.org/abs/2512.23126)
TI-DPO
**TI-DPO(Token重要性引导的DPO)**是最值得注意的DPO变体之一。DPO过于粗粒度,因为并非所有Token都同等重要。因此TI-DPO引入了Token重要性权重和一个三元组损失,使得模型可以更侧重响应中真正驱动偏好的部分。→ 阅读更多 (https://arxiv.org/abs/2505.19653)
RAPPO
一个好的新鲜DPO变体,使用顺序感知的偏好学习——“保留最好的,忘记其余的”。**RAPPO(偏好PO的可靠对齐)**按偏好顺序对多个候选响应进行排名,保留最强的作为主要正信号,并降低权重或丢弃较弱的替代。→ 阅读更多 (https://openreview.net/forum?id=LrHfYPFTtg)
❝
如果你觉得这份列表有价值,请免费订阅我们的newsletter。
常见问题
强化学习中的GRPO是什么?
GRPO,或称组相对策略优化,是一种无批评器的强化学习方法,其中同一提示下的多个响应在组内进行比较。GRPO不训练单独的价值模型,而是使用组相对奖励来估计优势,使得推理RL和RLVR比PPO风格训练更便宜。
RLVR是什么?
RLVR代表基于可验证奖励的强化学习。它训练模型处理答案可以自动检查的任务,如数学、编程、逻辑或结构化推理问题。RLVR不依赖人类偏好标签,而是使用基于规则或编程验证来奖励正确的推理结果。
GRPO vs PPO:有什么区别?
PPO在强化学习中通常依赖价值批评器来估计优势。GRPO移除了单独批评器,而是比较采样组内的响应。这使得GRPO在大语言模型推理训练中更简单且通常更便宜,尤其是当奖励可验证时。
GRPO、DPO、RLVR、DAPO、GSPO、ARPO和VPO用于什么?
GRPO用于更便宜的无批评器推理RL;DPO用于离线偏好对齐;RLVR用于具有可验证答案的任务如数学或编程;DAPO用于更稳定的GRPO风格训练;GSPO用于序列级奖励;ARPO用于多轮智能体和工具使用;VPO用于多样化的测试时搜索。
为什么RLVR方法对推理模型重要?
RLVR方法重要是因为它们帮助模型在具有客观可检查答案的任务上改进。它们对于训练更强的推理模型用于数学、编程、工具使用和多步问题解决至关重要,因为模型不仅需要听起来合理,还需要得到正确的结果。
相似文章
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
SocraticPO:通过交互式指导的策略优化
SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。
近端策略优化
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。