变分选项发现算法

OpenAI Blog 论文

摘要

OpenAI研究人员提出了VALOR,这是一种用于选项发现的变分推断方法,它将选项学习与变分自编码器联系起来,并提出了一种课程学习方法,通过动态增加上下文复杂性来稳定训练。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:55

# 变分选项发现算法 来源:https://openai.com/index/variational-option-discovery-algorithms/ OpenAI ## 摘要 我们探索基于变分推断的选项发现方法,并做出两项算法贡献。首先:我们强调了变分选项发现方法与变分自编码器之间的紧密联系,并引入了通过强化学习进行变分自编码选项学习(VALOR),这是从该联系中衍生出的新方法。在VALOR中,策略将来自噪声分布的上下文编码为轨迹,解码器从完整轨迹中恢复上下文。其次:我们提出了一种课程学习方法,当代理在当前上下文集上的性能足够强时(由解码器衡量),代理看到的上下文数量就会增加。我们展示了这个简单的技巧可以稳定VALOR和先前变分选项发现方法的训练,使单个代理能够学习比固定上下文分布下更多的行为模式。最后,我们研究了与变分选项发现相关的其他话题,包括该方法的基本局限性和学习选项对下游任务的适用性。

相似文章

变分有损自编码器

OpenAI Blog

# 变分有损自编码器 来源: [https://openai.com/index/variational-lossy-autoencoder/](https://openai.com/index/variational-lossy-autoencoder/) ## 摘要 表示学习旨在将观测数据的某些方面暴露在学习表示中,这种表示便于分类等下游任务。例如,对于二维图像,一个好的表示可能是只描述全局结构并丢弃有关详细纹理信息的表示。在本文中,我们提出

快速与慢速变分持续学习

arXiv cs.LG

本文介绍了持续IVON(CoVON)优化器,它将快速和慢速适应整合到变分持续学习中,以平衡稳定性和可塑性,在领域增量学习、持续预训练以及大型语言模型的微调中优于现有方法。

通过变分策略蒸馏从语言反馈中学习

Hugging Face Daily Papers

变分策略蒸馏(VPD)将语言反馈学习形式化为一个变分期望最大化问题,通过协同训练教师网络和学生网络,改进基于可验证奖励的强化学习中的策略学习。在代码生成和科学推理任务上,该方法相较于基线方法表现出持续改进。

向量策略优化:面向多样性的训练提升测试时搜索性能

Reddit r/LocalLLaMA

本文介绍了一种名为向量策略优化(Vector Policy Optimization, VPO)的强化学习算法,该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案,与标量强化学习基线相比,显著提升了测试时搜索性能。