恢复扩散策略中的隐藏奖励

Hugging Face Daily Papers 2026/05/01 00:00 论文

摘要

本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法，旨在提高此类模型的对齐程度或效率。

本文介绍了 EnergyFlow，这是一个通过将标量能量函数参数化（其梯度为去噪场）来统一生成式动作建模与逆强化学习的框架。我们证明，在最大熵最优性下，通过去噪分数匹配学习到的分数函数能够恢复专家软 Q 函数的梯度，从而无需对抗训练即可提取奖励。形式化地，我们证明了将学习到的场约束为保守场可以降低假设复杂度，并收紧分布外泛化界限。我们进一步表征了恢复奖励的可辨识性，并界定了分数估计误差向动作偏好传播的程度。在实证研究中，EnergyFlow 在各种操作任务中达到了最先进的模仿性能，同时为下游强化学习提供了有效的奖励信号，其表现优于基于对抗的逆强化学习方法以及基于似然的替代方法。这些结果表明，有效奖励提取所需的结构性约束同时作为有益的归纳偏差，促进了策略的泛化。代码可用地址为 https://github.com/sotaagi/EnergyFlow。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:12

论文页面 - 在基于扩散的策略中恢复隐藏奖励

来源: https://huggingface.co/papers/2605.00623 在您的智能体中获取这篇论文:

hf papers read 2605\.00623

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文0的模型

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。

引用此论文0的数据集

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。

引用此论文0的 Space

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。

包含此论文0的合集

没有包含此论文的合集

将此论文添加至合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

恢复扩散策略中的隐藏奖励

论文页面 - 在基于扩散的策略中恢复隐藏奖励

引用此论文0的模型

引用此论文0的数据集

引用此论文0的 Space

包含此论文0的合集

相似文章

面向奖励引导扩散的分层变分策略

面向掩码扩散的自适应顺序策略

@svlevine: 一种使用扩散进行离策略强化学习的新方法：如果我们有离策略数据，我们需要找出扩散后期…

通过扩散策略优化扩展世界模型强化学习

SafeDiffusion-R1: 在线奖励引导的安全扩散后训练

提交意见反馈