用于分层强化学习的随机神经网络
摘要
OpenAI 研究人员提出了一个使用随机神经网络进行分层强化学习的框架,该框架通过代理奖励引导预训练有用的技能,然后利用这些技能在稀疏奖励或长期视界的下游任务中加速学习。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:56
# 用于分层强化学习的随机神经网络
来源: https://openai.com/index/stochastic-neural-networks-for-hierarchical-reinforcement-learning/
OpenAI
## 摘要
深度强化学习近年来取得了许多令人印象深刻的成果。然而,稀疏奖励或长期视野的任务仍然构成重大挑战。为了解决这些重要问题,我们提出了一个通用框架,该框架首先在预训练环境中学习有用的技能,然后利用所获得的技能在下游任务中更快地学习。我们的方法结合了内在动机和分层方法的一些优势:有用技能的学习由单个代理奖励指导,其设计仅需要关于下游任务的最少领域知识。随后在这些技能基础上训练高级策略,显著改善了探索能力,使得能够处理下游任务中的稀疏奖励问题。为了高效地预训练大范围的技能,我们使用了随机神经网络结合信息论正则化器。我们的实验表明,这种组合在以样本高效的方式学习大范围可解释技能方面是有效的,并且可以在各种下游任务中显著提升学习性能。
相似文章
学习层级结构
OpenAI 研究提出分层强化学习方法,其中智能体将复杂任务分解为高级操作序列而非低级操作,通过将搜索复杂度从数千步降低到数十步,显著提高长视野任务的效率。
利用局部动态规律实现离线分层强化学习中的可复用技能
本文介绍了CARL,一种利用局部动态规律学习可复用技能的离线分层强化学习方法。该方法将需要相似动作序列的状态-目标对进行聚类,从而实现更有效的技能复用,并在复杂的人形机器人任务上提升了性能。
先素描后绘制:面向扩散多模态大语言模型的层次化强化学习
本文提出HT-GRPO,一种面向扩散多模态大语言模型的层次化强化学习方法,它采用先素描后绘制的训练方案和层次化信用分配机制,以提升图像生成质量和奖励对齐效果。
基于约束流形控制的安全且可泛化的分层多智能体强化学习
本文提出了一种分层多智能体强化学习框架,该框架通过低层的约束流形强制执行硬安全约束,同时通过高层策略学习实现有效协调,提供了理论上的安全保障,并实现了近乎完美的安全率和良好的泛化能力。
从多个稀疏数据集中学习动力系统:一种分层贝叶斯建模方法
提出了一种分层贝叶斯框架,用于从多个稀疏、含噪声的数据集中对动力系统进行元学习,利用基于梯度的MCMC与嵌入的ODE求解器,对共享参数和数据集特定参数进行高效的后验推断。