量化强化学习中的泛化能力

OpenAI Blog 论文

摘要

# 量化强化学习中的泛化能力 来源: [https://openai.com/index/quantifying-generalization-in-reinforcement-learning/](https://openai.com/index/quantifying-generalization-in-reinforcement-learning/) 我们训练了9个智能体来玩CoinRun,每个智能体都有不同数量的可用训练关卡。前8个智能体分别在包含100到16,000个关卡的数据集上进行训练。最后一个智能体在不受限制的关卡集合上进行训练,因此该智能体永远不会看到相同的关卡两次。

我们发布了CoinRun,这是一个训练环境,它为智能体将经验迁移到新情况的能力提供了衡量标准,并且已经帮助澄清了强化学习中的一个长期存在的难题。CoinRun在复杂性上取得了理想的平衡:该环境比Sonic the Hedgehog等传统平台游戏更简单,但仍然对最先进的算法构成了有价值的泛化挑战。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:55

# 强化学习中的泛化量化 来源:https://openai.com/index/quantifying-generalization-in-reinforcement-learning/ 我们训练了 9 个智能体来玩 CoinRun,每个智能体都有不同数量的可用训练关卡。前 8 个智能体分别在包含 100 到 16,000 个关卡的集合上进行训练。我们在无限制的关卡集合上训练了最后一个智能体,因此该智能体永远不会看到相同的关卡两次。我们使用常见的 3 层卷积架构(称为 Nature-CNN)训练智能体的策略。我们的智能体使用近端策略优化(PPO)进行训练,总共 256M 个时间步。由于一个回合平均持续 100 个时间步,使用固定训练集的智能体将看到每个训练关卡数千到数百万次。使用无限制集合训练的最后一个智能体将看到大约 200 万个不同的关卡——每个都恰好一次。 我们通过对 10,000 个回合的最终智能体性能进行平均来收集以下图表中的每个数据点。在测试时,智能体在从未见过的关卡上进行评估。我们发现当训练关卡少于 4,000 个时会发生严重的过拟合。**事实上,即使有 16,000 个训练关卡,我们仍然看到过拟合!**不出所料,使用无限制关卡集合训练的智能体表现最好,因为这些智能体可以获得最多的数据。这些智能体在以下图表中由虚线表示。 我们将 Nature-CNN 基线与 IMPALA 中使用的卷积架构进行了比较,发现 IMPALA-CNN 智能体在任何训练集上的泛化效果都*要好得多*,如下所示。

相似文章

GRLO:从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。

强化学习:迈向广泛且持续有益的人工智能模型

arXiv cs.AI

这篇来自OpenAI的论文研究了基于有益行为的强化学习能否产生超越训练分布的广泛且持久的对齐泛化。通过使用一个包含真实场景的数据集,他们表明,对有益特质进行强化训练能够提升分布外的对齐能力,并增强对对抗性攻击的持久抵抗力。

AI 训练如何实现扩展

OpenAI Blog

# AI 训练如何实现扩展 来源:[https://openai.com/index/how-ai-training-scales/](https://openai.com/index/how-ai-training-scales/) 我们发现梯度噪声尺度(一个简单的统计指标)可以预测神经网络在广泛任务上的训练可并行性。由于复杂任务往往具有更高的梯度噪声,越来越大的批大小在未来可能会变得有用,从而消除了 AI 系统进一步增长的一个潜在瓶颈。更广泛地说,这些结果表明神经网络训练无需被视为神秘的艺术,而可以被严格化和系统化。