code-based-rl

标签

#code-based-rl

@0xLogicrw: OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重…

X AI KOLs Timeline ↗ · 昨天

前OpenAI研究员翁家翌提出“启发式学习”新范式，利用大模型生成并迭代修改Python代码解决强化学习任务，将知识存储在可解释的代码中而非神经网络参数，有效避免灾难性遗忘，目前已在Atari和MuJoCo基准上取得优异成果并开源代码。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈