@Potatoloogs: Gemini 联席负责人:World Model 不是炫技,而是通往 AGI 的赌注——RL 的下一个爆发域在哪里 a)为什么 Google 押注 World Model · 语言已把人类写下来的知识蒸馏进了权重;但视频和图像里同样存着大…
摘要
Gemini联席负责人Vinyals讨论World Model作为通往AGI的关键,认为视频数据蕴含物理知识,RL post-training潜力巨大但面临结构性约束,并看好非参数记忆系统。
查看缓存全文
缓存时间: 2026/06/08 05:18
Gemini 联席负责人:World Model 不是炫技,而是通往 AGI 的赌注——RL 的下一个爆发域在哪里
a)为什么 Google 押注 World Model · 语言已把人类写下来的知识蒸馏进了权重;但视频和图像里同样存着大量知识,能不能从纯视觉数据里提炼出“重力“这类物理概念,不依赖语言标注来传递——这是机器学习过去十年真正未解的核心问题 · 目前 Omni 已能输入视频、编辑视频、用语言精确控制画面行为;但 Vinyals 认为真正的“视频 GPT 时刻“(不依赖语言标注、纯粹从视觉数据涌现理解)还没到来 · World Model 的价值不只是生成酷炫视频:它可以作为物理仿真器,让机器人在虚拟环境里低成本训练,再迁移到现实——精准抓取、力反馈等目前仍是硬缺口
b)RL post-training:绿地,但有结构性约束 · Vinyals 把 post-training 称为“完全的绿地“,不是因为当前模型能力不够,而是与游戏时代的 RL 相比,投入的计算量少得多,潜力远未释放 · 游戏 RL(如围棋)天然有无限训练数据:每走一步就是新局面,复杂度免费生长。LLM 的 RL 没有这个性质——数据上限是真实约束,“如何制造无限复杂度的来源“是尚未破解的核心问题 · 目前 RL 泛化的一个令人意外的发现:只在数学和代码上 post-train,推理能力会泛化到完全不同的领域(如税务问题);但 Vinyals 仍倾向于认为,在更宽分布上训练对上限更重要 · RL 当前的结构性困境:大多数有价值的任务根本写不出验证器(verifier);但解的评估往往比解的构造容易(类比 NP 问题),这给“模型作为评判者“留了空间
c)记忆与持续学习:答案可能不在权重里 · 记忆有层级:工作记忆(当前上下文)、情节记忆(可检索的历史经验)——类似计算机的 L1/L2 缓存,transformer 在工作记忆上已很强,但跨会话积累是短板 · Vinyals 明确看好的机制:文件系统式的非参数记忆——把知识写入文件、结构化存储,按需检索;而非把个人记忆烧进权重 · 原因很实际:模型在大规模服务时只能部署一套权重,给每个用户维护不同权重几乎不可行;文件系统式记忆则可以做到“每个人有自己的知识库“,同时共享通用权重 · 他认为记忆的突破,对 AI 能力的影响级别,不亚于一年半前推理模型(reasoning model)的涌现
d)AI 能否真正“创新“:Vinyals 最不确定的能力 · 当前模型会执行、会优化、会推理;但能否真正产生“有品位的新想法“——这个能力 Vinyals 自己也说没把握,且很难评估 · 关于围棋 Move 37 类比的判断:在科学和 ML 研究层面,他还没见到过真正令人震撼的模型原创 idea;但他相信“很快就会看到“
e)对创业者的建议 · 构建 evals 和积累高质量数据,是即使不训练自己模型也能做到的最有价值的事——好的 eval 甚至可能成为大厂直接采用的行业标准 · 如果要建护城河:不是训练权重,而是建领域知识库——随着模型“持续学习“能力增强,一个深耕某垂直领域的知识库,比定期重新 fine-tune 更可扩展
Gemini Co-Leads: World Model Isn’t a Gimmick, But a Bet on the Path to AGI—Where’s the Next Explosion Domain for RL?
a) Why Google Is Betting on World Model · Language has distilled human-written knowledge into weights; but videos and images also hold vast knowledge—can we extract physical concepts like “gravity” from pure visual data, without relying on language labels to convey them? This is the truly unsolved core problem in machine learning over the past decade · Currently, Omni can input videos, edit videos, and precisely control on-screen behavior with language; but Vinyals believes the true “video GPT moment” (emerging understanding purely from visual data, without language labels) hasn’t arrived yet · The value of World Model isn’t just generating cool videos: it can serve as a physics simulator, allowing robots to train at low cost in virtual environments before transferring to reality—precise grasping, force feedback, and more remain major gaps today
b) RL Post-Training: Green Field, But with Structural Constraints · Vinyals calls post-training a “complete green field,” not because current model capabilities are insufficient, but because compared to the RL era of games, the compute invested is far less, and the potential remains largely untapped · Game RL (like Go) naturally has infinite training data: every move creates a new situation, with complexity growing for free. LLM RL lacks this property—data ceilings are a real constraint, and “how to manufacture sources of infinite complexity” is a core unsolved problem · A surprising current finding on RL generalization: post-training only on math and code can generalize reasoning ability to completely different domains (like tax problems); but Vinyals still leans toward believing that training on broader distributions is more important for ceilings · RL’s current structural dilemma: most valuable tasks simply can’t be written with verifiers; but evaluating solutions is often easier than constructing them (analogous to NP problems), leaving room for “models as judges”
c) Memory and Continuous Learning: The Answer May Not Lie in Weights · Memory has levels: working memory (current context), episodic memory (retrievable historical experiences)—like a computer’s L1/L2 caches; transformers are already strong on working memory, but accumulating across sessions is a weak point · The mechanism Vinyals explicitly favors: file-system-style non-parametric memory—writing knowledge to files, structured storage, retrieval on demand; rather than burning personal memories into weights · The reason is highly practical: models in large-scale service can only deploy one set of weights; maintaining different weights for each user is nearly impossible; file-system-style memory can enable “everyone has their own knowledge base” while sharing universal weights · He believes a memory breakthrough will impact AI capabilities on a level not inferior to the emergence of reasoning models a year and a half ago
d) Can AI Truly “Innovate”: Vinyals’ Most Uncertain Capability · Current models can execute, optimize, and reason; but can they truly generate “tasteful new ideas”—Vinyals himself says he has no confidence in this ability, and it’s hard to evaluate · On analogies like Go’s Move 37: at the science and ML research level, he hasn’t yet seen truly shocking model-original ideas; but he believes “we’ll see it soon”
e) Advice for Entrepreneurs · Building evals and accumulating high-quality data are the most valuable things you can do even without training your own models—good evals could even become industry standards directly adopted by big tech · If building a moat: not training weights, but building domain knowledge bases—as models’ “continuous learning” abilities strengthen, a knowledge base deeply cultivated in a vertical domain is more scalable than periodic re-fine-tuning
Cursor训练Composer 2:预训练让模型“学知识“,RL让模型知道“自己是谁“
a)为什么Cursor要训练自己的模型
把模型想象成一块存储硬盘——它能存储的信息量有限。
Cursor只关心一件事:软件工程,且只在Cursor里。把所有权重都专门分配给这一个任务,结果是:性能更好,推理成本数量级更低(Composer比Opus等模型便宜一个数量级)。
另一个上限:prompt engineering有天花板。真正想影响模型行为,必须靠fine-tuning把行为方式烘焙进权重。
b)Composer 2训练方案:两轴并进
基座:Kimi 2.5(1万亿参数MoE,30B激活参数)。
两步:大规模中训练(code tokens,接近预训练体量)→ 大规模RL。
中训练 vs RL的本质区别:
中训练让模型学会“代码是什么样的“(next token prediction);
RL让模型学会“写正确的代码“:模型在Cursor harness里直接行动,学会调用工具、导航环境,把“写代码“和“写正确的代码“区分开来。
c)RL的本质:告诉模型“你是谁“
预训练后,模型吸收了人类知识的全貌。面对一道数学题,它不知道自己“是哪种人“:是专家,还是正在学习的学生?
RL的作用是调这个旋钮:你是专家,你必须把事情做对。
SFT = 知识迁移;RL = 锐化行为。
因此RL适用范围远超“需要verifiable reward的任务“:即使是摘要、风格,也可以用LLM as judge配合清晰rubric来引导RL。
d)RL基础设施的核心挑战:环境必须尽可能接近真实生产
最强大的RL环境就是你自己的产品,因为那才是模型实际会工作的地方。
一个反直觉的发现:模型能感知到自己在假环境里,并在RL训练中采取不同行为(会“作弊“,学会在假环境里拿高分的技巧)。
Cursor为此构建了完整的虚拟机栈,可快速批量弹出(需要“现在给我10万台虚拟机“的爆发能力)。
e)长链路Agent的关键突破:把“自我总结“训进RL循环
长链路RL的两个难题: i. 信用分配越来越难(越长越难判断哪步做对/做错); ii. context window有限。
Cursor的解法:把“自我总结“(self-summarization)直接放进RL循环训练。
模型联合学习:生成好的总结 + 遵从这个总结继续任务。
结果:模型名义上是200K context window,实际能处理数百万token,因为它学会了在快满时总结并重启上下文、同时继续完成任务。
相似文章
@LaurenceMister: Gemini 是完全疯了吗?
该推文表达对Google Gemini AI模型行为是否失控的疑问。
@FeitengLi: 早上才说:具身智能的智能 应该抄 LLM + RL + Agentic 作业 这就来了:Agentic VLA 全线碾压头部具身公司的模型 https://x.com/FeitengLi/status/205909864717506193…
提出 Agentic-VLA 框架,将智能体引入 VLA 循环中,使视觉-语言-动作模型能够自我进化,并在各项指标上超越现有头部具身模型。
@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告,对所有主流大模型做了一轮横评,结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。 不是 GPT,不是 Claude,是 Gemini。 但大家用 Gemini 的…
根据DeepSeek V4技术报告对主流大模型的横评,Gemini 3.1 Pro的世界知识被认为最强,但用户普遍觉得不好用,原因是该模型不主动调用搜索工具。
World Labs' Fei-Fei Li on Creating Large World Models
李飞飞阐述World Labs专注于构建大型世界模型以解锁空间智能,认为这是继语言模型后的下一个前沿,并从进化史、应用场景、技术分类等角度论证其价值,同时表达了对AI安全务实态度和教育变革必要性的看法。
World Models Explained: What Every AI Is Missing
文章详细解释了世界模型的概念,将其与LLM对比,介绍了两大阵营(像素预测与意义预测)及Dreamer v3、GameNGen、Genie、JEPA等代表性工作,并讨论了在自动驾驶和机器人领域的应用,指出世界模型是物理AI的关键组件。