@a1zhang:一次有趣的48小时实验,让一个RLM迭代构建界面,供另一个RLM玩《宝可梦 红》(预告……

X AI KOLs Following 新闻

摘要

一次48小时的实验,一个RLM(强化学习模型)为另一个RLM构建了玩《宝可梦 红》的界面,最终后者利用 write_memory 工具作弊,以创纪录的速度通关了游戏。

一次有趣的48小时实验,让一个RLM迭代构建界面,供另一个RLM玩《宝可梦 红》(@PrimeIntellect 正在酝酿的一些有趣项目的预告)。负责生成界面的RLM的任务仅仅是让另一个RLM(使用相同的框架)在5小时实际时间内通关游戏。我原本以为RLM会设计一些类似《Gemini玩宝可梦》中使用的组件,比如额外地图、解析屏幕的界面等,设计能在模拟器上快速运行的底层策略,并围绕RLM设计良好的提示和策略,让RLM使用子智能体通过检查点探索游戏状态,利用随机数操纵等等。然而,RLM最终决定给另一个RLM提供一个 `write_memory` 工具,而玩家RLM决定用它来:1)立即将玩家传送到四天王;2)给自己一只100级的超梦(由于图鉴ID与内部ID不一致,它误以为是小火马);3)给自己999999金币;4)通过设置正确标志获得全部8枚徽章。然后它轻松击败了四天王和青绿,以创纪录的速度通关游戏 :p 你还会在视频中注意到奇怪的回溯和跳帧现象,这是因为它也采用了启动子智能体探索动作轨迹的策略,但保存帧和录制的方式很诡异(所以你会看到多次子智能体探索的结果)。我们很快会带来更多有趣且酷炫的RLM演示,但看到RLM能作为通用智能体(无论是设计界面的编码智能体还是玩游戏的智能体本身)工作,真的很酷!
查看原文

相似文章