变分选项发现算法

OpenAI Blog 2018/07/26 07:00 论文

摘要

OpenAI研究人员提出了VALOR，这是一种用于选项发现的变分推断方法，它将选项学习与变分自编码器联系起来，并提出了一种课程学习方法，通过动态增加上下文复杂性来稳定训练。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:55

# 变分选项发现算法来源：https://openai.com/index/variational-option-discovery-algorithms/ OpenAI ## 摘要我们探索基于变分推断的选项发现方法，并做出两项算法贡献。首先：我们强调了变分选项发现方法与变分自编码器之间的紧密联系，并引入了通过强化学习进行变分自编码选项学习（VALOR），这是从该联系中衍生出的新方法。在VALOR中，策略将来自噪声分布的上下文编码为轨迹，解码器从完整轨迹中恢复上下文。其次：我们提出了一种课程学习方法，当代理在当前上下文集上的性能足够强时（由解码器衡量），代理看到的上下文数量就会增加。我们展示了这个简单的技巧可以稳定VALOR和先前变分选项发现方法的训练，使单个代理能够学习比固定上下文分布下更多的行为模式。最后，我们研究了与变分选项发现相关的其他话题，包括该方法的基本局限性和学习选项对下游任务的适用性。

变分选项发现算法

相似文章

变分有损自编码器

快速与慢速变分持续学习

通过变分策略蒸馏从语言反馈中学习

DVAO：多奖励强化学习中的动态方差自适应优势优化

向量策略优化：面向多样性的训练提升测试时搜索性能

提交意见反馈