变分选项发现算法

OpenAI Blog 论文

摘要

OpenAI研究人员提出了VALOR,这是一种用于选项发现的变分推断方法,它将选项学习与变分自编码器联系起来,并提出了一种课程学习方法,通过动态增加上下文复杂性来稳定训练。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:55

# 变分选项发现算法 来源:https://openai.com/index/variational-option-discovery-algorithms/ OpenAI ## 摘要 我们探索基于变分推断的选项发现方法,并做出两项算法贡献。首先:我们强调了变分选项发现方法与变分自编码器之间的紧密联系,并引入了通过强化学习进行变分自编码选项学习(VALOR),这是从该联系中衍生出的新方法。在VALOR中,策略将来自噪声分布的上下文编码为轨迹,解码器从完整轨迹中恢复上下文。其次:我们提出了一种课程学习方法,当代理在当前上下文集上的性能足够强时(由解码器衡量),代理看到的上下文数量就会增加。我们展示了这个简单的技巧可以稳定VALOR和先前变分选项发现方法的训练,使单个代理能够学习比固定上下文分布下更多的行为模式。最后,我们研究了与变分选项发现相关的其他话题,包括该方法的基本局限性和学习选项对下游任务的适用性。

相似文章

变分有损自编码器

OpenAI Blog

# 变分有损自编码器 来源: [https://openai.com/index/variational-lossy-autoencoder/](https://openai.com/index/variational-lossy-autoencoder/) ## 摘要 表示学习旨在将观测数据的某些方面暴露在学习表示中,这种表示便于分类等下游任务。例如,对于二维图像,一个好的表示可能是只描述全局结构并丢弃有关详细纹理信息的表示。在本文中,我们提出