RL²：通过缓慢强化学习实现快速强化学习

OpenAI Blog 2016/11/09 08:00 论文

摘要

RL²将快速强化学习算法编码为循环神经网络的权重，通过缓慢的通用强化学习来学习，使智能体能够像生物学习一样通过少量试验快速适应新任务。该方法在小规模老虎机问题和大规模基于视觉的导航任务上都展现了强大性能。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:43

# RL2：通过慢强化学习实现快速强化学习来源：https://openai.com/index/rl2/ ## 摘要深度强化学习（深度 RL）在自动学习复杂行为方面已取得成功；然而，学习过程需要大量的试验。相比之下，动物可以通过利用他们的先验知识在仅仅几次试验中学习新任务。本论文致力于弥合这一差距。我们不设计一个"快速"强化学习算法，而是提议将其表示为循环神经网络（RNN），并从数据中学习它。在我们提议的方法 RL2 中，算法被编码在 RNN 的权重中，这些权重通过通用的（"慢"）RL 算法缓慢学习。RNN 接收典型 RL 算法会接收的所有信息，包括观测值、动作、奖励和终止标志；在给定马尔可夫决策过程（MDP）中它保持跨剧集的状态。RNN 的激活值存储了当前（以前未见过的）MDP 上"快速"RL 算法的状态。我们在小规模和大规模问题上对 RL2 进行了实验评估。在小规模方面，我们训练它来解决随机生成的多臂老虎机问题和有限 MDP。RL2 训练后，它在新 MDP 上的性能接近具有最优性保证的人工设计算法。在大规模方面，我们在基于视觉的导航任务上测试了 RL2，并展示了它能够扩展到高维问题。

RL²：通过缓慢强化学习实现快速强化学习

相似文章

使用 Prime-RL 后训练构建快速准确的智能体（22 分钟阅读）

EasyVideoR1：让视频理解的强化学习更简单

从仿真泛化

RAD-2：在生成器-判别器框架中扩展强化学习

基于预测奖励的强化学习

提交意见反馈