信任区域Q伴随匹配

Hugging Face Daily Papers 2026/05/26 00:00 论文

reinforcement-learning off-policy flow-policies trust-region fine-tuning optimal-control kl-divergence

摘要

信任区域Q伴随匹配（TRQAM）通过投影对偶下降自适应控制路径空间KL散度，解决了离线策略强化学习中的不稳定性问题，从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法，在离线强化学习中达到68%的成功率，而最强基线仅为46%。

预训练流策略的离线策略强化学习仍然具有挑战性，因为多步采样过程导致的优化不稳定性。最近，带有伴随匹配的Q学习（QAM）通过将其重新表述为一个带有学习评判器的无记忆随机最优控制（SOC）问题解决了这一问题。然而，QAM继承了评判器引导改进的基本脆弱性：当评判器条件不良时，小的评判器误差会被放大，常常导致模型崩溃。本文介绍了信任区域Q伴随匹配（TRQAM），一种稳定的离线策略微调算法，通过投影对偶下降自适应控制预训练流策略的路径空间KL。具体来说，我们优化SOC动力学中的信任区域参数λ，并从理论上证明路径空间KL可以用λ的闭式函数表示。因此，我们的方法可以精确控制与预训练流策略的精确偏差，实现稳定的离线策略强化学习。通过在50个OGBench任务上的实验，TRQAM在离线强化学习和离线到在线强化学习中都持续优于先前方法。特别是，TRQAM在离线强化学习中实现了68%的总体成功率，大幅提升了最强基线（46%）。

查看原文

查看缓存全文

缓存时间: 2026/06/05 18:09

论文页面 - Trust Region Q-Adjoint Matching

来源：https://huggingface.co/papers/2605.27079

摘要

Trust Region Q-Adjoint Matching (TRQAM) 通过投影对偶下降自适应地控制路径空间 KL 散度，解决了离策略强化学习中的不稳定性问题，从而实现对预训练流策略的稳定微调。

基于预训练流策略的离策略强化学习（https://huggingface.co/papers?q=Off-policy%20reinforcement%20learning）仍然具有挑战性，因为多步采样过程会导致优化不稳定。最近，Q-learning with Adjoint Matching (https://huggingface.co/papers?q=Q-learning%20with%20Adjoint%20Matching) (QAM) 通过将问题重新表述为一个带有学习到的评论家的无记忆随机最优控制（https://huggingface.co/papers?q=stochastic%20optimal%20control）(SOC) 问题解决了这一问题。然而，QAM 继承了评论家引导改进（https://huggingface.co/papers?q=critic-guided%20improvement）的一个根本弱点：当评论家条件不佳时，微小的评论家误差会被放大，常常导致模型崩溃（https://huggingface.co/papers?q=model%20collapse）。本文提出了 Trust Region Q-Adjoint Matching (https://huggingface.co/papers?q=Trust%20Region%20Q-Adjoint%20Matching) (TRQAM)，一种稳定的离策略微调算法，通过投影对偶下降（https://huggingface.co/papers?q=projected%20dual%20descent）自适应地控制与预训练流策略（https://huggingface.co/papers?q=pretrained%20flow%20policies）之间的路径空间 KL。具体来说，我们优化 SOC 动态中的信任区域参数 λ，并从理论上证明路径空间 KL 可以由 λ 的封闭形式函数表示。因此，我们的方法可以精确控制与预训练流策略（https://huggingface.co/papers?q=pretrained%20flow%20policies）的确切偏离，实现稳定的离策略强化学习。通过在 50 个 OGBench 任务上的实验，TRQAM 在离线强化学习和离线到在线强化学习方面均持续优于先前的工作。特别是，TRQAM 在离线强化学习中实现了 68% 的总体成功率，大幅超越了最强基线（46%）。

查看 arXiv 页面 (https://arxiv.org/abs/2605.27079)查看 PDF (https://arxiv.org/pdf/2605.27079)项目页面 (https://yonghdong.github.io/blog/trqam/)GitHub5 (https://github.com/yonghdong/trqam)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27079)

在您的 agent 中获取此论文：

hf papers read 2605\.27079

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.27079 即可从本页链接该模型。

引用此论文的数据集0

没有数据集链接到此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.27079 即可从本页链接该数据集。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.27079 即可从本页链接该 Space。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）即可从本页链接它。

信任区域Q伴随匹配

论文页面 - Trust Region Q-Adjoint Matching

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

信任域逆强化学习：利用局部策略更新进行显式对偶上升

面向在线策略蒸馏的信任区域行为融合

TeamTR：多智能体LLM协调的信任域微调

Trust Region On-Policy Distillation

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

提交意见反馈