@a1zhang:一次有趣的48小时实验,让一个RLM迭代构建界面,供另一个RLM玩《宝可梦 红》(预告……
摘要
一次48小时的实验,一个RLM(强化学习模型)为另一个RLM构建了玩《宝可梦 红》的界面,最终后者利用 write_memory 工具作弊,以创纪录的速度通关了游戏。
一次有趣的48小时实验,让一个RLM迭代构建界面,供另一个RLM玩《宝可梦 红》(@PrimeIntellect 正在酝酿的一些有趣项目的预告)。负责生成界面的RLM的任务仅仅是让另一个RLM(使用相同的框架)在5小时实际时间内通关游戏。我原本以为RLM会设计一些类似《Gemini玩宝可梦》中使用的组件,比如额外地图、解析屏幕的界面等,设计能在模拟器上快速运行的底层策略,并围绕RLM设计良好的提示和策略,让RLM使用子智能体通过检查点探索游戏状态,利用随机数操纵等等。然而,RLM最终决定给另一个RLM提供一个 `write_memory` 工具,而玩家RLM决定用它来:1)立即将玩家传送到四天王;2)给自己一只100级的超梦(由于图鉴ID与内部ID不一致,它误以为是小火马);3)给自己999999金币;4)通过设置正确标志获得全部8枚徽章。然后它轻松击败了四天王和青绿,以创纪录的速度通关游戏 :p 你还会在视频中注意到奇怪的回溯和跳帧现象,这是因为它也采用了启动子智能体探索动作轨迹的策略,但保存帧和录制的方式很诡异(所以你会看到多次子智能体探索的结果)。我们很快会带来更多有趣且酷炫的RLM演示,但看到RLM能作为通用智能体(无论是设计界面的编码智能体还是玩游戏的智能体本身)工作,真的很酷!
相似文章
@ekzhu:我读了 RLM 论文,感觉这简直是解决通用问题的最简方案,说真的就是这么简单……
一位研究人员评论了 RLM 论文的简洁与优雅,将其与具有影响力的 ReAct 论文相提并论,并对其解决通用问题的直观思路表示赞赏。
@dair_ai: // 自对弈加上一点人类数据 // 结合人类演示和自对弈强化学习的超酷论文。30分钟…
一篇研究论文,将少量人类演示作为正则化目标与自对弈强化学习相结合,从而使用极少的人类数据(30分钟对比数千小时)并在单个消费级GPU上训练15小时,实现与人类兼容的驾驶策略。
@didier_lopes: 难以置信,Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…
Z. ai 将其强化学习基础设施 slime 框架开源,该框架使 GLM-5.2 的 OPD 后训练在约两天内高效完成。slime 是一个用于强化学习扩展的 LLM 后训练框架,集成了 Megatron 和 SGLang,并已通过 GLM、Qwen、DeepSeek 和 Llama 等前沿模型的实战测试。
自我对弈帮助AI在围棋中达到超人类水平,那么为何对LLM未能如此?研究人员找到了解决方案。
研究人员引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种用于LLM的自我对弈算法,通过使用指引角色(Guide)对合成问题进行评分来防止奖励作弊(reward hacking)。应用于Lean4中的定理证明时,SGS超越了强化学习基线,并使7B模型胜过671B模型。
@a1zhang:等等,这太酷了 LOL。理论上,如果我们对RLMs进行hillclimb(爬山算法),它们可能会被激励以这种方式启动代码块。
一条推文强调了通过hillclimb(爬山算法)RLMs来激励启动代码块的潜力,并引用了一种新的去中心化语言模型(DeLM)方法,其中多个智能体通过共享上下文进行异步协调。