恢复扩散策略中的隐藏奖励
摘要
本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。
查看缓存全文
缓存时间: 2026/05/08 07:12
论文页面 - 在基于扩散的策略中恢复隐藏奖励
来源: https://huggingface.co/papers/2605.00623 在您的智能体中获取这篇论文:
hf papers read 2605\.00623
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文0的模型
没有链接此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。
引用此论文0的数据集
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。
引用此论文0的 Space
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.00623 即可从此页面建立链接。
包含此论文0的合集
没有包含此论文的合集
将此论文添加至合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
面向奖励引导扩散的分层变分策略
提出了面向奖励引导扩散的分层变分策略框架,在降低推理成本的同时实现高质量采样。在超分辨率等任务上展现了优异的质量-速度权衡。
面向掩码扩散的自适应顺序策略
提出使用轻量级策略网络学习掩码扩散模型中的去掩码顺序,通过加权损失在组合任务和蛋白质设计上优于启发式方法。
@svlevine: 一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出扩散后期…
一种新的离策略强化学习方法,使用扩散模型,通过反转扩散过程来处理离策略数据。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
SafeDiffusion-R1: 在线奖励引导的安全扩散后训练
SafeDiffusion-R1 引入了一个基于 GRPO 和引导奖励机制的在线强化学习框架,用于提升扩散模型的安全性,无需监督数据或奖励调优,在多个有害类别上实现了最先进的性能。