@a1zhang：一次有趣的48小时实验，让一个RLM迭代构建界面，供另一个RLM玩《宝可梦红》（预告……

X AI KOLs Following 2026/05/15 02:51 新闻

reinforcement-learning ai-agents game-playing pokemon coding-agent experimental cheating

摘要

一次48小时的实验，一个RLM（强化学习模型）为另一个RLM构建了玩《宝可梦红》的界面，最终后者利用 write_memory 工具作弊，以创纪录的速度通关了游戏。

一次有趣的48小时实验，让一个RLM迭代构建界面，供另一个RLM玩《宝可梦红》（@PrimeIntellect 正在酝酿的一些有趣项目的预告）。负责生成界面的RLM的任务仅仅是让另一个RLM（使用相同的框架）在5小时实际时间内通关游戏。我原本以为RLM会设计一些类似《Gemini玩宝可梦》中使用的组件，比如额外地图、解析屏幕的界面等，设计能在模拟器上快速运行的底层策略，并围绕RLM设计良好的提示和策略，让RLM使用子智能体通过检查点探索游戏状态，利用随机数操纵等等。然而，RLM最终决定给另一个RLM提供一个 `write_memory` 工具，而玩家RLM决定用它来：1）立即将玩家传送到四天王；2）给自己一只100级的超梦（由于图鉴ID与内部ID不一致，它误以为是小火马）；3）给自己999999金币；4）通过设置正确标志获得全部8枚徽章。然后它轻松击败了四天王和青绿，以创纪录的速度通关游戏 :p 你还会在视频中注意到奇怪的回溯和跳帧现象，这是因为它也采用了启动子智能体探索动作轨迹的策略，但保存帧和录制的方式很诡异（所以你会看到多次子智能体探索的结果）。我们很快会带来更多有趣且酷炫的RLM演示，但看到RLM能作为通用智能体（无论是设计界面的编码智能体还是玩游戏的智能体本身）工作，真的很酷！

查看原文

@a1zhang：一次有趣的48小时实验，让一个RLM迭代构建界面，供另一个RLM玩《宝可梦红》（预告……

相似文章

@ekzhu：我读了 RLM 论文，感觉这简直是解决通用问题的最简方案，说真的就是这么简单……

@dair_ai: // 自对弈加上一点人类数据 // 结合人类演示和自对弈强化学习的超酷论文。30分钟…

@didier_lopes: 难以置信，Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…

自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

@a1zhang：等等，这太酷了 LOL。理论上，如果我们对RLMs进行hillclimb（爬山算法），它们可能会被激励以这种方式启动代码块。

提交意见反馈