@0xLogicrw: OpenAI 后训练核心成员翁家翌之前证明了「纯靠大模型写代码能通关 Atari 游戏」,流体动力学博士生 Paul Garnier 现在把这套方法搬进了更硬核的流体力学控制。 他全程没训练任何神经网络。单纯让 Codex 5.5 充当程…

X AI KOLs Timeline 新闻

摘要

流体动力学博士生使用OpenAI的Codex 5.5模型,通过纯代码生成实现流体力学控制,无需训练神经网络,在多项测试中超越强化学习基线,成本低廉且结果可解释。

OpenAI 后训练核心成员翁家翌之前证明了「纯靠大模型写代码能通关 Atari 游戏」,流体动力学博士生 Paul Garnier 现在把这套方法搬进了更硬核的流体力学控制。 他全程没训练任何神经网络。单纯让 Codex 5.5 充当程序员,靠读取仿真的测试得分与诊断日志,自己查错并反复改写 Python 脚本。在这场工业脚本测试中,Codex 5.5 压过了 Claude Opus 4.7 与 Gemini 3 Pro,硬是在超半数的物理场景里把顶级的强化学习(DRL)基线挑落马下。 给汽车减阻、安抚管道湍流,工业界以前只能靠砸算力,硬喂出一个看不懂的黑盒模型去控制气流阀门。 Codex 避开了这条死胡同。它写出来的规则极其直白,例如「当局部曲率过大时,延迟喷气」。几十行带着物理常识的短代码,直接替代了神经网络无脑的暴力试错。 把黑盒换成代码,干掉了神经网络僵化、一碰就碎的死穴。 以前只要硬件稍微改动(比如控制喷嘴从 5 个换成 10 个),旧模型当场报废,必须重新烧钱训练。现在只要在代码里改个常数,系统瞬间就能对接新设备。 当测试时间被强行拉长四倍时,走出经验区的传统 DRL 模型全盘崩溃;但大模型写的代码由于直接遵循了物理逻辑,始终运转稳定。跑通这一整套控制策略,大模型只消耗了 2125 万 Token,总花费不到 14 美元。
查看原文
查看缓存全文

缓存时间: 2026/05/20 06:27

OpenAI 后训练核心成员翁家翌之前证明了「纯靠大模型写代码能通关 Atari 游戏」,流体动力学博士生 Paul Garnier 现在把这套方法搬进了更硬核的流体力学控制。

他全程没训练任何神经网络。单纯让 Codex 5.5 充当程序员,靠读取仿真的测试得分与诊断日志,自己查错并反复改写 Python 脚本。在这场工业脚本测试中,Codex 5.5 压过了 Claude Opus 4.7 与 Gemini 3 Pro,硬是在超半数的物理场景里把顶级的强化学习(DRL)基线挑落马下。

给汽车减阻、安抚管道湍流,工业界以前只能靠砸算力,硬喂出一个看不懂的黑盒模型去控制气流阀门。 Codex 避开了这条死胡同。它写出来的规则极其直白,例如「当局部曲率过大时,延迟喷气」。几十行带着物理常识的短代码,直接替代了神经网络无脑的暴力试错。

把黑盒换成代码,干掉了神经网络僵化、一碰就碎的死穴。 以前只要硬件稍微改动(比如控制喷嘴从 5 个换成 10 个),旧模型当场报废,必须重新烧钱训练。现在只要在代码里改个常数,系统瞬间就能对接新设备。

当测试时间被强行拉长四倍时,走出经验区的传统 DRL 模型全盘崩溃;但大模型写的代码由于直接遵循了物理逻辑,始终运转稳定。跑通这一整套控制策略,大模型只消耗了 2125 万 Token,总花费不到 14 美元。

pg (@pg_dons): 1/5 TLDR; We used Codex to discover and maintain heuristic learning for hard fluid dynamics control cases.

I’ve been applying DRL and GNN to physics since 2019,, and over the past 3 months I’ve been toying with the idea of using agents in our processes. Inspired by the blog post

相似文章

@0xLogicrw: OpenAI 后训练核心成员翁家翌(Jiayi Weng)以个人名义提出了一种名为「启发式学习」的强化学习新范式,并开源了全部实验代码。他用 Codex(GPT-5.4)反复玩 Atari 打砖块游戏,但 GPT-5.4 自始至终没有被重…

X AI KOLs Timeline

前OpenAI研究员翁家翌提出“启发式学习”新范式,利用大模型生成并迭代修改Python代码解决强化学习任务,将知识存储在可解释的代码中而非神经网络参数,有效避免灾难性遗忘,目前已在Atari和MuJoCo基准上取得优异成果并开源代码。

@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

X AI KOLs Timeline

一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。

NVIDIA 工程师与研究人员如何利用 Codex 进行构建

OpenAI Blog

NVIDIA 的工程师和研究人员正在使用由 GPT-5.5 驱动的 OpenAI Codex,作为处理复杂工程任务和端到端机器学习工作流的默认工具。本文重点介绍了通过在该 NVIDIA 基础设施上集成 Codex 所取得的显著生产力提升、自主系统构建以及研究自动化成果。