量化强化学习中的泛化能力

OpenAI Blog 2018/12/06 08:00 论文

摘要

# 量化强化学习中的泛化能力来源: [https://openai.com/index/quantifying-generalization-in-reinforcement-learning/](https://openai.com/index/quantifying-generalization-in-reinforcement-learning/) 我们训练了9个智能体来玩CoinRun，每个智能体都有不同数量的可用训练关卡。前8个智能体分别在包含100到16,000个关卡的数据集上进行训练。最后一个智能体在不受限制的关卡集合上进行训练，因此该智能体永远不会看到相同的关卡两次。

我们发布了CoinRun，这是一个训练环境，它为智能体将经验迁移到新情况的能力提供了衡量标准，并且已经帮助澄清了强化学习中的一个长期存在的难题。CoinRun在复杂性上取得了理想的平衡：该环境比Sonic the Hedgehog等传统平台游戏更简单，但仍然对最先进的算法构成了有价值的泛化挑战。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:55

# 强化学习中的泛化量化来源：https://openai.com/index/quantifying-generalization-in-reinforcement-learning/ 我们训练了 9 个智能体来玩 CoinRun，每个智能体都有不同数量的可用训练关卡。前 8 个智能体分别在包含 100 到 16,000 个关卡的集合上进行训练。我们在无限制的关卡集合上训练了最后一个智能体，因此该智能体永远不会看到相同的关卡两次。我们使用常见的 3 层卷积架构（称为 Nature-CNN）训练智能体的策略。我们的智能体使用近端策略优化（PPO）进行训练，总共 256M 个时间步。由于一个回合平均持续 100 个时间步，使用固定训练集的智能体将看到每个训练关卡数千到数百万次。使用无限制集合训练的最后一个智能体将看到大约 200 万个不同的关卡——每个都恰好一次。我们通过对 10,000 个回合的最终智能体性能进行平均来收集以下图表中的每个数据点。在测试时，智能体在从未见过的关卡上进行评估。我们发现当训练关卡少于 4,000 个时会发生严重的过拟合。**事实上，即使有 16,000 个训练关卡，我们仍然看到过拟合！**不出所料，使用无限制关卡集合训练的智能体表现最好，因为这些智能体可以获得最多的数据。这些智能体在以下图表中由虚线表示。我们将 Nature-CNN 基线与 IMPALA 中使用的卷积架构进行了比较，发现 IMPALA-CNN 智能体在任何训练集上的泛化效果都*要好得多*，如下所示。

相似文章

GRLO：从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法，仅使用 5000 条提示和 22.7 GPU 小时，就在多个领域（数学、代码等）实现了强大的泛化能力，在效率和数据需求上显著优于领域内的 RLVR 基线。

必须快速学习：强化学习泛化能力的新基准

OpenAI Blog

OpenAI 推出了一个基于音速小子（Sonic the Hedgehog）的新型强化学习基准，用于测量 RL 智能体的迁移学习和小样本学习性能，同时包括基线算法的评估。

强化学习：迈向广泛且持续有益的人工智能模型

arXiv cs.AI

这篇来自OpenAI的论文研究了基于有益行为的强化学习能否产生超越训练分布的广泛且持久的对齐泛化。通过使用一个包含真实场景的数据集，他们表明，对有益特质进行强化训练能够提升分布外的对齐能力，并增强对对抗性攻击的持久抵抗力。

@OpenAI：随着AI承担更长、风险更高的任务，我们希望模型能够将有益且安全的行为推广到新的领域，超越训练范围……

X AI KOLs

OpenAI发布了关于强化学习的研究，用于训练模型展现出诚实和可纠正性等有益特质，表明这种训练能够跨领域泛化，并在对抗性压力下持续存在。

AI 训练如何实现扩展