恢复扩散策略中的隐藏奖励

Hugging Face Daily Papers 论文

摘要

本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。

本文介绍了 EnergyFlow,这是一个通过将标量能量函数参数化(其梯度为去噪场)来统一生成式动作建模与逆强化学习的框架。我们证明,在最大熵最优性下,通过去噪分数匹配学习到的分数函数能够恢复专家软 Q 函数的梯度,从而无需对抗训练即可提取奖励。形式化地,我们证明了将学习到的场约束为保守场可以降低假设复杂度,并收紧分布外泛化界限。我们进一步表征了恢复奖励的可辨识性,并界定了分数估计误差向动作偏好传播的程度。在实证研究中,EnergyFlow 在各种操作任务中达到了最先进的模仿性能,同时为下游强化学习提供了有效的奖励信号,其表现优于基于对抗的逆强化学习方法以及基于似然的替代方法。这些结果表明,有效奖励提取所需的结构性约束同时作为有益的归纳偏差,促进了策略的泛化。代码可用地址为 https://github.com/sotaagi/EnergyFlow。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:12

论文页面 - 在基于扩散的策略中恢复隐藏奖励

来源: https://huggingface.co/papers/2605.00623 在您的智能体中获取这篇论文:

hf papers read 2605\.00623

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文0的模型

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。

引用此论文0的数据集

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。

引用此论文0的 Space

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。

包含此论文0的合集

没有包含此论文的合集

将此论文添加至合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

面向奖励引导扩散的分层变分策略

arXiv cs.LG

提出了面向奖励引导扩散的分层变分策略框架,在降低推理成本的同时实现高质量采样。在超分辨率等任务上展现了优异的质量-速度权衡。

面向掩码扩散的自适应顺序策略

arXiv cs.LG

提出使用轻量级策略网络学习掩码扩散模型中的去掩码顺序,通过加权损失在组合任务和蛋白质设计上优于启发式方法。

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

SafeDiffusion-R1: 在线奖励引导的安全扩散后训练

Hugging Face Daily Papers

SafeDiffusion-R1 引入了一个基于 GRPO 和引导奖励机制的在线强化学习框架,用于提升扩散模型的安全性,无需监督数据或奖励调优,在多个有害类别上实现了最先进的性能。