变分选项发现算法

OpenAI Blog 2018/07/26 07:00 论文

摘要

OpenAI研究人员提出了VALOR，这是一种用于选项发现的变分推断方法，它将选项学习与变分自编码器联系起来，并提出了一种课程学习方法，通过动态增加上下文复杂性来稳定训练。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:55

# 变分选项发现算法来源：https://openai.com/index/variational-option-discovery-algorithms/ OpenAI ## 摘要我们探索基于变分推断的选项发现方法，并做出两项算法贡献。首先：我们强调了变分选项发现方法与变分自编码器之间的紧密联系，并引入了通过强化学习进行变分自编码选项学习（VALOR），这是从该联系中衍生出的新方法。在VALOR中，策略将来自噪声分布的上下文编码为轨迹，解码器从完整轨迹中恢复上下文。其次：我们提出了一种课程学习方法，当代理在当前上下文集上的性能足够强时（由解码器衡量），代理看到的上下文数量就会增加。我们展示了这个简单的技巧可以稳定VALOR和先前变分选项发现方法的训练，使单个代理能够学习比固定上下文分布下更多的行为模式。最后，我们研究了与变分选项发现相关的其他话题，包括该方法的基本局限性和学习选项对下游任务的适用性。

变分选项发现算法

相似文章

变分有损自编码器

超越神经网络的数据驱动变分基学习：一种用于自适应基发现的非神经网络框架

理解 VQ-VAE（DALL-E 原理解析第一部分）

OpenSearch-VL：一种用于前沿多模态搜索智能体的开源训练配方

在线规划，离线学习：通过基于模型的控制实现高效学习和探索

提交意见反馈