@0xLogicrw: OpenAI 后训练核心成员翁家翌(Jiayi Weng)以个人名义提出了一种名为「启发式学习」的强化学习新范式,并开源了全部实验代码。他用 Codex(GPT-5.4)反复玩 Atari 打砖块游戏,但 GPT-5.4 自始至终没有被重…

X AI KOLs Timeline 论文

摘要

前OpenAI研究员翁家翌提出“启发式学习”新范式,利用大模型生成并迭代修改Python代码解决强化学习任务,将知识存储在可解释的代码中而非神经网络参数,有效避免灾难性遗忘,目前已在Atari和MuJoCo基准上取得优异成果并开源代码。

OpenAI 后训练核心成员翁家翌(Jiayi Weng)以个人名义提出了一种名为「启发式学习」的强化学习新范式,并开源了全部实验代码。他用 Codex(GPT-5.4)反复玩 Atari 打砖块游戏,但 GPT-5.4 自始至终没有被重新训练过。真正在进步的,是 GPT-5.4 写出来的那套游戏策略代码。 流程是这样的:GPT-5.4 先写一版打砖块的 Python 策略,跑一局,看录像,找出哪里打丢了球,然后自己改代码再跑。经过几轮迭代,策略代码从 387 分涨到了 864 满分。全程没有任何神经网络被训练,纯靠 AI 反复修改 if-else 规则、调落点预测、加死循环检测。最终那套代码包含球路预测器、卡球检测器、回归测试和实验日志,已经长成了一个完整的软件系统。 这和传统强化学习的核心区别在于「学到的东西存在哪」。传统做法把知识压进神经网络参数里,人看不懂,学新任务还容易把旧的覆盖掉(即灾难性遗忘)。翁家翌的做法反过来:知识就是代码,人能读、能改、能加测试锁住,不会因为学新东西就丢了旧本领。 除了打砖块满分,他还在 MuJoCo Ant(模拟机器蚂蚁走路)上跑出超 6000 分的深度强化学习级成绩,在 Atari57 全套 57 个游戏上逼近了 PPO 基准。但翁家翌也明确画了边界:纯代码搞不定复杂感知任务,比如用 Python 写 if-else 去认图片。 他设想的终局是混合架构:底层用轻量神经网络负责视觉等感知,中层用启发式学习处理实时逻辑和安全规则,顶层由大模型审查日志、改代码,再周期性地用底层积累的高质量数据更新自身。过去手写规则之所以被淘汰,不是因为规则没用,而是人类维护不起。现在 AI 写代码够快够好,这条老路重新走得通了。
查看原文

相似文章

利用 GPT-5.1-Codex-Max 构建更多

OpenAI Blog

OpenAI 推出 GPT-5.1-Codex-Max,这是一款新的智能代理编码模型,具有改进的推理能力、token 效率,以及通过“压缩”机制在数百万个 token 上保持连贯工作的能力。该模型更快速、更智能,可以持续运行数小时甚至数天的长时间任务,代表了 AI 辅助软件工程的重大进步。

推出 GPT-5.3-Codex

OpenAI Blog

OpenAI 推出 GPT-5.3-Codex,这是一款先进的智能编程模型,融合了前沿编程能力、推理能力和专业知识,在 SWE-Bench Pro 和 Terminal-Bench 上实现了最先进的性能,同时比前代模型快 25%。

使用 GPT-5 进行编码和设计

OpenAI Blog

OpenAI 宣布 GPT-5 在编码和设计任务中的功能,展示了最新模型在软件开发和创意设计工作流中的高级应用。

GPT-5 系统卡补充:GPT-5-Codex

OpenAI Blog

# GPT-5 系统卡补充:GPT-5-Codex 来源:[https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/](https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/) GPT-5-Codex 是 GPT-5 的一个版本,针对 Codex 中的代理编码进行了优化。与其前身 codex-1 一样,该模型采用强化学习方法在各种环境中的真实编码任务上进行了训练,以生成与人类编码风格和 PR 偏好相近的代码,并精确遵循指令