@0xLogicrw: OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重…

X AI KOLs Timeline 2026/05/08 10:46 论文

reinforcement-learning heuristic-learning code-based-rl open-source llm-programming ai-research

摘要

前OpenAI研究员翁家翌提出“启发式学习”新范式，利用大模型生成并迭代修改Python代码解决强化学习任务，将知识存储在可解释的代码中而非神经网络参数，有效避免灾难性遗忘，目前已在Atari和MuJoCo基准上取得优异成果并开源代码。

OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重新训练过。真正在进步的，是 GPT-5.4 写出来的那套游戏策略代码。流程是这样的：GPT-5.4 先写一版打砖块的 Python 策略，跑一局，看录像，找出哪里打丢了球，然后自己改代码再跑。经过几轮迭代，策略代码从 387 分涨到了 864 满分。全程没有任何神经网络被训练，纯靠 AI 反复修改 if-else 规则、调落点预测、加死循环检测。最终那套代码包含球路预测器、卡球检测器、回归测试和实验日志，已经长成了一个完整的软件系统。这和传统强化学习的核心区别在于「学到的东西存在哪」。传统做法把知识压进神经网络参数里，人看不懂，学新任务还容易把旧的覆盖掉（即灾难性遗忘）。翁家翌的做法反过来：知识就是代码，人能读、能改、能加测试锁住，不会因为学新东西就丢了旧本领。除了打砖块满分，他还在 MuJoCo Ant（模拟机器蚂蚁走路）上跑出超 6000 分的深度强化学习级成绩，在 Atari57 全套 57 个游戏上逼近了 PPO 基准。但翁家翌也明确画了边界：纯代码搞不定复杂感知任务，比如用 Python 写 if-else 去认图片。他设想的终局是混合架构：底层用轻量神经网络负责视觉等感知，中层用启发式学习处理实时逻辑和安全规则，顶层由大模型审查日志、改代码，再周期性地用底层积累的高质量数据更新自身。过去手写规则之所以被淘汰，不是因为规则没用，而是人类维护不起。现在 AI 写代码够快够好，这条老路重新走得通了。

查看原文

相似文章

@0xLogicrw: OpenAI 后训练核心成员翁家翌之前证明了「纯靠大模型写代码能通关 Atari 游戏」，流体动力学博士生 Paul Garnier 现在把这套方法搬进了更硬核的流体力学控制。他全程没训练任何神经网络。单纯让 Codex 5.5 充当程…

X AI KOLs Timeline

流体动力学博士生使用OpenAI的Codex 5.5模型，通过纯代码生成实现流体力学控制，无需训练神经网络，在多项测试中超越强化学习基线，成本低廉且结果可解释。

@Gracker_Gao: AI 论文：强AI写代码的方式不是写代码最近两篇arXiv论文揭示了一个反直觉发现：GPT-5.4和Claude Opus 4.6遇到陌生编程语言时，根本不直接写目标语言代码——而是写Python程序来生成目标代码，再本地调试。这种"元…

X AI KOLs Timeline

最近两篇arXiv论文发现，GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略（用Python生成目标代码并本地调试），而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键，且策略精巧度比模型参数规模更重要。

@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。结果表明在目标清…

X AI KOLs Timeline

Recursive团队发布自动化AI研究系统，能自主完成研究循环，在多个基准上超越人类社区已有方案，如在NanoGPT Speedrun中将训练时间从79.7秒压缩至77.5秒，在SOL-ExecBench上将得分提升至0.754。

@FinanceYF5: 2/他叫Lenny Bogdonoff 在OpenAI只有250人时加入，GPT-4还在训练，ChatGPT还没上线。他第一个任务：重建Jupyter代码执行环境，是后来"AI电脑"概念的雏形。他没意识到这件事有多重要，大多数人也没有。

X AI KOLs Following

OpenAI早期员工Lenny Bogdonoff在GPT-4训练和ChatGPT上线前重建了Jupyter代码执行环境，这一工作成为后来'AI电脑'概念的雏形，但当时未受重视。

@vintcessun: 这项目贼离谱——用小孩都能听懂的方式，把 ChatGPT 背后的 GPT 从零手搓了一遍。每行代码都有注释，12 章 7500 多行，甚至专门讲清楚了 attention 那块我死活没搞懂的细节。说白了，如果你只想“理解”而不是“调包…

X AI KOLs Timeline

A 12-chapter interactive textbook that teaches how to build a GPT-like language model from absolute scratch, with fully annotated code and beginner-friendly explanations.

相似文章

@0xLogicrw: OpenAI 后训练核心成员翁家翌之前证明了「纯靠大模型写代码能通关 Atari 游戏」，流体动力学博士生 Paul Garnier 现在把这套方法搬进了更硬核的流体力学控制。 他全程没训练任何神经网络。单纯让 Codex 5.5 充当程…

@Gracker_Gao: AI 论文：强AI写代码的方式不是写代码 最近两篇arXiv论文揭示了一个反直觉发现：GPT-5.4和Claude Opus 4.6遇到陌生编程语言时，根本不直接写目标语言代码——而是写Python程序来生成目标代码，再本地调试。这种"元…

@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统 这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。 结果表明在目标清…

@FinanceYF5: 2/他叫Lenny Bogdonoff 在OpenAI只有250人时加入，GPT-4还在训练，ChatGPT还没上线。 他第一个任务：重建Jupyter代码执行环境，是后来"AI电脑"概念的雏形。 他没意识到这件事有多重要，大多数人也没有。

提交意见反馈

@0xLogicrw: OpenAI 后训练核心成员翁家翌之前证明了「纯靠大模型写代码能通关 Atari 游戏」，流体动力学博士生 Paul Garnier 现在把这套方法搬进了更硬核的流体力学控制。他全程没训练任何神经网络。单纯让 Codex 5.5 充当程…

@Gracker_Gao: AI 论文：强AI写代码的方式不是写代码最近两篇arXiv论文揭示了一个反直觉发现：GPT-5.4和Claude Opus 4.6遇到陌生编程语言时，根本不直接写目标语言代码——而是写Python程序来生成目标代码，再本地调试。这种"元…

@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。结果表明在目标清…

@FinanceYF5: 2/他叫Lenny Bogdonoff 在OpenAI只有250人时加入，GPT-4还在训练，ChatGPT还没上线。他第一个任务：重建Jupyter代码执行环境，是后来"AI电脑"概念的雏形。他没意识到这件事有多重要，大多数人也没有。