生成对抗网络、逆强化学习和基于能量模型之间的联系

OpenAI Blog 2016/11/11 08:00 论文

摘要

本文建立了生成对抗网络 (GAN)、逆强化学习 (IRL) 和基于能量的模型 (EBM) 之间的数学等价性，证明了某些 IRL 方法等价于具有可评估生成器密度的 GAN。这项工作连接了三个研究社区，促进知识转移，有助于开发更稳定和可扩展的算法。

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:45

# 生成对抗网络、逆强化学习和基于能量模型之间的联系来源：https://openai.com/index/a-connection-between-generative-adversarial-networks-inverse-reinforcement-learning-and-energy-based-models/ ## 摘要生成对抗网络（GAN）是一类最近提出的生成模型，其中生成器被训练来优化一个由判别器同时学习的成本函数。虽然学习成本函数的想法在生成建模领域相对较新，但学习成本在控制和强化学习（RL）领域已被长期研究，通常用于从演示数据进行模仿学习。在这些领域中，学习观察行为背后的成本函数被称为逆强化学习（IRL）或逆最优控制。虽然乍看之下 RL 中的成本学习和生成建模中的成本学习之间的联系可能只是表面上的，但我们在本文中表明某些 IRL 方法实际上在数学上等价于 GAN。特别地，我们演示了最大熵 IRL 的样本采集算法与 GAN 之间的等价性，其中生成器的密度可以被评估，并作为额外输入提供给判别器。有趣的是，最大熵 IRL 是基于能量模型的特殊情况。我们讨论了将 GAN 解释为训练基于能量模型的算法的观点，并将这一解释与其他寻求连接 GAN 和 EBM 的最近工作相关联。通过正式突出 GAN、IRL 和 EBM 之间的联系，我们希望这三个社区中的研究人员能够更好地识别和应用可从一个领域转移到另一个领域的想法，特别是为了开发更稳定和可扩展的算法：这是所有三个领域面临的主要挑战。

生成对抗网络、逆强化学习和基于能量模型之间的联系

相似文章

基于能量的模型的隐式生成和泛化方法

能量生成建模：基于Lyapunov能量匹配的视角

使用能量函数学习概念

生成式模型

AEM：用于多轮智能体强化学习的自适应熵调制

提交意见反馈