研究请求 2.0

OpenAI Blog 新闻

摘要

# 研究请求 2.0 来源:[https://openai.com/index/requests-for-research-2/](https://openai.com/index/requests-for-research-2/) OpenAI 我们发布了一批七个未解决的问题,这些问题在 OpenAI 的研究过程中出现。如果你不确定从何处开始,这里有一些已解决的入门问题。⭐ 训练一个 LSTM 来解决 `XOR` 问题:即,给定一个比特序列,确定其奇偶性。[LSTM⁠\(opens in a new window\)](http://colah.github.io/posts

我们发布了一批七个未解决的问题,这些问题在 OpenAI 的研究过程中出现。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:55

# 研究请求 2.0 来源:https://openai.com/index/requests-for-research-2/ OpenAI 发布了七个未解决的问题,这些问题都是在 OpenAI 的研究过程中出现的。 如果你不确定从何开始,这里有一些已解决的入门问题。 ⭐ **训练 LSTM 来解决 `XOR` 问题**:给定一个比特序列,确定其奇偶性。[LSTM](http://colah.github.io/posts/2015-08-Understanding-LSTMs/) 应该一次消耗一个比特,然后在序列末尾输出正确答案。测试以下两种方法: - 生成 100,000 个长度为 50 的随机二进制字符串数据集。训练 LSTM;你能得到什么性能? - 生成 100,000 个随机二进制字符串数据集,其中每个字符串的长度在 1 到 50 之间独立随机选择。训练 LSTM。它能成功吗?什么解释了两者的区别? ⭐ **实现经典 [Snake](https://www.youtube.com/watch?v=wDbTP0B94AM) 游戏的克隆版本**作为 [Gym](https://github.com/openai/gym) 环境,并使用你选择的[强化学习](https://arxiv.org/abs/1707.06347)算法来解决它。[分享](https://twitter.com/openai)智能体玩游戏的视频给我们。你能训练出赢得游戏的策略吗? ⭐⭐ **Slitherin'。** 实现并解决经典 [Snake](https://www.youtube.com/watch?v=wDbTP0B94AM) 游戏的多人克隆版本(参考 [slither.io](https://slither.io/) 获取灵感)作为 [Gym](https://github.com/openai/gym) 环境。 - **环境**:有一个相当大的场地,多条蛇在其中;蛇吃到随机出现的水果时会增长;蛇与另一条蛇、自己或墙碰撞时死亡;所有蛇死亡时游戏结束。从两条蛇开始,然后逐步扩展。 - **智能体**:使用你选择的强化学习算法通过[自我对抗](https://openai.com/index/competitive-self-play/)来解决环境。你需要尝试各种方法来克服自我对抗的不稳定性(类似于 GAN 中看到的不稳定性)。例如,尝试针对过去策略的分布来训练你当前的策略。哪种方法效果最好? - **检查学到的行为**:智能体是否学会了有效追捕食物和避开其他蛇?智能体是否学会了攻击、困住或围攻竞争对手的蛇?分享学到的策略的视频给我们! ⭐⭐⭐ **分布式 RL 中的参数平均。** 探索参数平均方案对[样本复杂度](https://en.wikipedia.org/wiki/Sample_complexity)和强化学习算法中通信量的影响。最简单的解决方案是在每次更新时对所有工作器的梯度进行平均,但你可以通过独立更新工作器然后不频繁地平均参数来[节省](https://arxiv.org/abs/1511.06051)通信带宽。在 RL 中,这可能还有另一个好处:在任何给定时间,我们都会有具有不同参数的智能体,这可能导致更好的探索行为。另一种可能是使用像 [EASGD](https://arxiv.org/abs/1412.6651) 这样的算法,在每次更新时将参数部分地拉到一起。 ⭐⭐⭐ **通过生成模型在不同游戏之间的迁移学习。** 按以下步骤进行: - 为 11 个 [Atari](https://github.com/openai/gym#atari) 游戏训练 11 个好的策略。从每个游戏的策略生成 10,000 条长度为 1,000 步的轨迹。 - 将生成模型(如 [Transformer](https://arxiv.org/abs/1706.03762))拟合到 10 个游戏产生的轨迹。 - 然后在第 11 个游戏上微调该模型。 - 你的目标是量化在 10 个游戏上预训练的好处。模型需要多大才能使预训练有用?当第 11 个游戏的数据量减少 10 倍时,效果大小如何变化?减少 100 倍时呢? ⭐⭐⭐ **具有线性注意力的 Transformers。** [Transformer](https://arxiv.org/abs/1706.03762) 模型使用带 softmax 的软注意力。如果我们改为使用线性注意力(可以转换为使用[快速权重](https://arxiv.org/abs/1610.06258)的 RNN),我们可以将生成的模型用于 RL。具体来说,使用 Transformer 对巨大上下文进行 RL 推出会不切实际,但运行具有快速权重的 RNN 会非常可行。你的目标:取任何语言建模任务;训练一个 Transformer;然后找到一种方法使用具有不同超参数的线性注意力 Transformer 获得相同的每字符/每词比特数,而不会显著增加参数总数。只有一个注意事项:这可能证明是不可能的。但一个可能有用的提示是:具有线性注意力的 Transformers 可能需要比使用 softmax 的注意力更高维的键/值向量,这可以在不显著增加参数数量的情况下实现。 ⭐⭐⭐⭐⭐ **奥林匹克不等式问题的自动化解决方案。** 奥林匹克不等式问题表达简单,但[解决](https://artofproblemsolving.com/articles/files/MildorfInequalities.pdf)它们通常需要巧妙的操作。构建一个奥林匹克不等式问题的数据集,并编写一个程序来解决其中的大部分问题。目前还不清楚机器学习是否会有用,但你可以潜在地使用学到的策略来降低分支因子。 想专业地从事这类问题的工作?[申请](https://openai.com/careers/) OpenAI!

相似文章

收集人类反馈

OpenAI Blog

OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。

OpenAI 经济影响研究

OpenAI Blog

OpenAI 发起征集外部研究人员研究 GPT-3、ChatGPT 和 DALL-E 2 等大型语言模型的经济影响,发布研究议程并邀请博士级别的合作者研究 AI 部署对劳动力市场、不平等和政策的影响。

推出深度研究

OpenAI Blog

OpenAI 推出深度研究功能,这是 ChatGPT 中由 o3 驱动的代理能力,能够自主进行多步骤互联网研究以生成专业级分析报告,从 2026 年 2 月起扩展访问权限和功能。

OpenAI Gym Beta

OpenAI Blog

OpenAI 发布了 OpenAI Gym 公开测试版,这是一个用于开发和比较强化学习算法的工具包,包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准,并为研究社区提供多样化、易于使用的环境。