信任区域Q伴随匹配
摘要
信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。
查看缓存全文
缓存时间: 2026/06/05 18:09
论文页面 - Trust Region Q-Adjoint Matching
来源:https://huggingface.co/papers/2605.27079
摘要
Trust Region Q-Adjoint Matching (TRQAM) 通过投影对偶下降自适应地控制路径空间 KL 散度,解决了离策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。
基于预训练流策略的离策略强化学习(https://huggingface.co/papers?q=Off-policy%20reinforcement%20learning)仍然具有挑战性,因为多步采样过程会导致优化不稳定。最近,Q-learning with Adjoint Matching (https://huggingface.co/papers?q=Q-learning%20with%20Adjoint%20Matching) (QAM) 通过将问题重新表述为一个带有学习到的评论家的无记忆随机最优控制(https://huggingface.co/papers?q=stochastic%20optimal%20control)(SOC) 问题解决了这一问题。然而,QAM 继承了评论家引导改进(https://huggingface.co/papers?q=critic-guided%20improvement)的一个根本弱点:当评论家条件不佳时,微小的评论家误差会被放大,常常导致模型崩溃(https://huggingface.co/papers?q=model%20collapse)。本文提出了 Trust Region Q-Adjoint Matching (https://huggingface.co/papers?q=Trust%20Region%20Q-Adjoint%20Matching) (TRQAM),一种稳定的离策略微调算法,通过投影对偶下降(https://huggingface.co/papers?q=projected%20dual%20descent)自适应地控制与预训练流策略(https://huggingface.co/papers?q=pretrained%20flow%20policies)之间的路径空间 KL。具体来说,我们优化 SOC 动态中的信任区域参数 λ,并从理论上证明路径空间 KL 可以由 λ 的封闭形式函数表示。因此,我们的方法可以精确控制与预训练流策略(https://huggingface.co/papers?q=pretrained%20flow%20policies)的确切偏离,实现稳定的离策略强化学习。通过在 50 个 OGBench 任务上的实验,TRQAM 在离线强化学习和离线到在线强化学习方面均持续优于先前的工作。特别是,TRQAM 在离线强化学习中实现了 68% 的总体成功率,大幅超越了最强基线(46%)。
查看 arXiv 页面 (https://arxiv.org/abs/2605.27079)查看 PDF (https://arxiv.org/pdf/2605.27079)项目页面 (https://yonghdong.github.io/blog/trqam/)GitHub5 (https://github.com/yonghdong/trqam)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27079)
在您的 agent 中获取此论文:
hf papers read 2605\.27079
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.27079 即可从本页链接该模型。
引用此论文的数据集0
没有数据集链接到此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.27079 即可从本页链接该数据集。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.27079 即可从本页链接该 Space。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接它。
相似文章
信任域逆强化学习:利用局部策略更新进行显式对偶上升
本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。
面向在线策略蒸馏的信任区域行为融合
信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
Trust Region On-Policy Distillation
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。
超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。