研究请求 2.0

OpenAI Blog 2018/01/31 08:00 新闻

research open-ai reinforcement-learning deep-learning community unsolved-problems

摘要

# 研究请求 2.0 来源：[https://openai.com/index/requests-for-research-2/](https://openai.com/index/requests-for-research-2/) OpenAI 我们发布了一批七个未解决的问题，这些问题在 OpenAI 的研究过程中出现。如果你不确定从何处开始，这里有一些已解决的入门问题。⭐ 训练一个 LSTM 来解决 `XOR` 问题：即，给定一个比特序列，确定其奇偶性。[LSTM⁠\(opens in a new window\)](http://colah.github.io/posts

我们发布了一批七个未解决的问题，这些问题在 OpenAI 的研究过程中出现。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:55

# 研究请求 2.0 来源：https://openai.com/index/requests-for-research-2/ OpenAI 发布了七个未解决的问题，这些问题都是在 OpenAI 的研究过程中出现的。如果你不确定从何开始，这里有一些已解决的入门问题。 ⭐ **训练 LSTM 来解决 `XOR` 问题**：给定一个比特序列，确定其奇偶性。[LSTM](http://colah.github.io/posts/2015-08-Understanding-LSTMs/) 应该一次消耗一个比特，然后在序列末尾输出正确答案。测试以下两种方法： - 生成 100,000 个长度为 50 的随机二进制字符串数据集。训练 LSTM；你能得到什么性能？ - 生成 100,000 个随机二进制字符串数据集，其中每个字符串的长度在 1 到 50 之间独立随机选择。训练 LSTM。它能成功吗？什么解释了两者的区别？ ⭐ **实现经典 [Snake](https://www.youtube.com/watch?v=wDbTP0B94AM) 游戏的克隆版本**作为 [Gym](https://github.com/openai/gym) 环境，并使用你选择的[强化学习](https://arxiv.org/abs/1707.06347)算法来解决它。[分享](https://twitter.com/openai)智能体玩游戏的视频给我们。你能训练出赢得游戏的策略吗？ ⭐⭐ **Slitherin'。** 实现并解决经典 [Snake](https://www.youtube.com/watch?v=wDbTP0B94AM) 游戏的多人克隆版本（参考 [slither.io](https://slither.io/) 获取灵感）作为 [Gym](https://github.com/openai/gym) 环境。 - **环境**：有一个相当大的场地，多条蛇在其中；蛇吃到随机出现的水果时会增长；蛇与另一条蛇、自己或墙碰撞时死亡；所有蛇死亡时游戏结束。从两条蛇开始，然后逐步扩展。 - **智能体**：使用你选择的强化学习算法通过[自我对抗](https://openai.com/index/competitive-self-play/)来解决环境。你需要尝试各种方法来克服自我对抗的不稳定性（类似于 GAN 中看到的不稳定性）。例如，尝试针对过去策略的分布来训练你当前的策略。哪种方法效果最好？ - **检查学到的行为**：智能体是否学会了有效追捕食物和避开其他蛇？智能体是否学会了攻击、困住或围攻竞争对手的蛇？分享学到的策略的视频给我们！ ⭐⭐⭐ **分布式 RL 中的参数平均。** 探索参数平均方案对[样本复杂度](https://en.wikipedia.org/wiki/Sample_complexity)和强化学习算法中通信量的影响。最简单的解决方案是在每次更新时对所有工作器的梯度进行平均，但你可以通过独立更新工作器然后不频繁地平均参数来[节省](https://arxiv.org/abs/1511.06051)通信带宽。在 RL 中，这可能还有另一个好处：在任何给定时间，我们都会有具有不同参数的智能体，这可能导致更好的探索行为。另一种可能是使用像 [EASGD](https://arxiv.org/abs/1412.6651) 这样的算法，在每次更新时将参数部分地拉到一起。 ⭐⭐⭐ **通过生成模型在不同游戏之间的迁移学习。** 按以下步骤进行： - 为 11 个 [Atari](https://github.com/openai/gym#atari) 游戏训练 11 个好的策略。从每个游戏的策略生成 10,000 条长度为 1,000 步的轨迹。 - 将生成模型（如 [Transformer](https://arxiv.org/abs/1706.03762)）拟合到 10 个游戏产生的轨迹。 - 然后在第 11 个游戏上微调该模型。 - 你的目标是量化在 10 个游戏上预训练的好处。模型需要多大才能使预训练有用？当第 11 个游戏的数据量减少 10 倍时，效果大小如何变化？减少 100 倍时呢？ ⭐⭐⭐ **具有线性注意力的 Transformers。** [Transformer](https://arxiv.org/abs/1706.03762) 模型使用带 softmax 的软注意力。如果我们改为使用线性注意力（可以转换为使用[快速权重](https://arxiv.org/abs/1610.06258)的 RNN），我们可以将生成的模型用于 RL。具体来说，使用 Transformer 对巨大上下文进行 RL 推出会不切实际，但运行具有快速权重的 RNN 会非常可行。你的目标：取任何语言建模任务；训练一个 Transformer；然后找到一种方法使用具有不同超参数的线性注意力 Transformer 获得相同的每字符/每词比特数，而不会显著增加参数总数。只有一个注意事项：这可能证明是不可能的。但一个可能有用的提示是：具有线性注意力的 Transformers 可能需要比使用 softmax 的注意力更高维的键/值向量，这可以在不显著增加参数数量的情况下实现。 ⭐⭐⭐⭐⭐ **奥林匹克不等式问题的自动化解决方案。** 奥林匹克不等式问题表达简单，但[解决](https://artofproblemsolving.com/articles/files/MildorfInequalities.pdf)它们通常需要巧妙的操作。构建一个奥林匹克不等式问题的数据集，并编写一个程序来解决其中的大部分问题。目前还不清楚机器学习是否会有用，但你可以潜在地使用学到的策略来降低分支因子。想专业地从事这类问题的工作？[申请](https://openai.com/careers/) OpenAI！

研究请求 2.0

相似文章

多目标强化学习：具有挑战性的机器人环境与研究建议

收集人类反馈

OpenAI 经济影响研究

推出深度研究

OpenAI Gym Beta

提交意见反馈