@swyx: 完整文章和链接在此
摘要
Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。
查看缓存全文
缓存时间: 2026/06/01 17:46
@xai @imagine 完整文章及链接如下
https://t.co/j2wJYYme5P
为什么视频智能体模型是下一个方向 —— Ethan He, xAI Grok Imagine
来源:https://www.latent.space/p/video-agents 本周我们将公布AIEWF (https://ai.engineer/wf) 的演讲嘉宾!请参与AI工程调查 (https://notion.qualtrics.com/jfe/form/SV_bP07tSVMXH7ePCS)!
今天的嘉宾Ethan最初作为NVIDIA Cosmos世界模型 (https://www.youtube.com/watch?v=og59L4JECz4&pp=ygUWbGF0ZW50c3BhY2V0diBldGhhbiBoZQ%3D%3D) 的负责人加入我们的LS Paper Club,但随后他加入了xAI并在3个月内构建了Grok Imagine:
X头像 @EthanHe_42 Ethan He@EthanHe_42 很高兴分享我们新的Grok Imagine版本 🚀 这是迄今为止质量最高、速度最快、成本效益最高的视频生成模型。支持720P、视频编辑和更好的音频!我们认真听取了大家的反馈并快速行动。仅仅六个月前,我们几乎还没有… X头像 @xai xAI@xai 理解需要想象。Grok Imagine让你能把脑海中的想法变为现实,现在它通过世界上最快的、最强大的视频API可用:https://t.co/tqQwQVgCEI 试试吧,让你的想象力自由驰骋。 上午5:43 · 2026年1月29日·116K 查看 127 回复·107 转发·1.35K 点赞 (https://x.com/EthanHe_42/status/2016749123198673099)
他带着一些重磅观点回到Latent Space:视频模型的主要智能来源于大语言模型(LLM),而非来自视频数据训练;下一个真正交互式、实时、长视野世界模型的前沿是致力于LLM(或许还有交互模型 (https://www.latent.space/p/ainews-thinking-machines-native-interaction)……)
换句话说:短期内,下一个Sora不会是一个更好的视频模型,而是一个视频智能体。
生成式媒体 (https://www.youtube.com/watch?v=t4359sKBu4w&list=PLcfpQ4tk2k0VjKRy3q6ZxeOtkbZlmFDLg) 可能更紧密地跟随AI编程的演进,它从关注一次性输出性能和成本,转向用于智能体和系统的多轮推理与规划模型,这些系统可以规划、编辑、测试、调试并提交PR。
在某个节点,编程模型变得如此出色,以至于提升性能的唯一重要下一步是处理这些模型的编排。
如今,随着视频模型在真实感、一致性及提示遵循方面的性能显著提升,同时成本效益更高,视频生成的下一代演进可能也是能够规划、生成、编辑、批评并迭代整个创意任务的系统。
X头像 @XFreeze X Freeze@XFreeze Grok Imagine 智能体模式(Beta)刚刚在Grok网页版上线。它是在一个无限开放画布上工作的完整创意智能体。Grok智能体自动规划 → 生成 → 编辑 → 迭代一切都在同一工作空间。告诉它你想要什么,然后看着它规划、生成、编辑…… 上午5:42 · 2026年4月30日·920K 查看 681 回复·1.15K 转发·3.97K 点赞 (https://x.com/XFreeze/status/2049725955208622475)
在本期节目中,Ethan与swyx和Vibhu一起深入探讨了构建前沿图像和视频系统的实际所需:数据、VAEs、扩散Transformer、音视频对齐、推理加速,以及存储和移动海量视频数据集的隐性成本。从构建NVIDIA的Cosmos世界模型 (https://www.nvidia.com/en-us/ai/cosmos/) 到在xAI从零到一构建Grok Imagine (https://grok.com/imagine),Ethan He一直处于视频生成、多模态模型和实时世界模型领域一些最重要工作的中心。
我们深入探讨了Grok Imagine,一个小型xAI团队如何在三个月内交付其首个多模态视频模型,为什么迭代速度在模型开发中几乎比什么都重要,以及为什么许多最大的改进来自于修复数据训练流程中的微小错误。
视频智能体几乎肯定是未来一年的趋势。最后,我们展望了超越视频智能体的方向:
Flipbook (https://www.flipbook.page/n/43e8c7b08ab14571810fee265c331cb3) 在今年发布时引起了一些轰动,但大多数人将其视为一个有趣的演示。Ethan对此非常重视——随着推理速度和成本逐年下降,自定义视频即时UI的未来比你想象的更近。我们讨论了为什么视频生成模型可能成为AI的前端,生成式UI如何可能取代传统的HTML/CSS,为什么世界模型需要是实时的、交互式的且具有长视野,以及为什么视频生成的未来可能更多依赖于语言模型和智能体而非仅靠扩散。
我们讨论的内容包括:
- 为什么快速迭代比会议更重要
- 为什么小型训练错误能带来巨大的模型质量提升
- 为什么编程模型可能再次让计算成为瓶颈
- 图像和视频模型如何通过合成标题进行训练
- VAEs和潜在空间在前沿视频模型中的作用
- 为什么图像模型是视频模型的基础
- 时间压缩与实时交互性之间的权衡
- Flipbook (https://www.flipbook.page/),Neural OS (https://neural-os.com/) ,以及生成式UI的未来
- 为什么未来的界面可能从用户意图直接到像素
- 训练视频模型的隐性成本:存储、出站流量和GPU小时
- 步骤蒸馏和一致性模型(如OpenAI sCM (https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/))如何使视频推理快数个数量级
- Grok Imagine 0.9 和大规模音视频生成
- 为什么音视频对齐比文本视频对齐更难
- Ethan对世界模型的定义
- 参考视频、视频扩展和长上下文视频生成
- 为什么xAI的研究沟通低估了Grok Imagine
- xAI文化如何塑造了开发速度
- AI水印、SynthID和检测生成媒体
- 为什么提示重写对视频模型很重要
- Grok Imagine 智能体与视频智能体的崛起
- 为什么语言模型可能解锁更好的视频生成
- 机器人学、物理AI和具身世界模型
- 为什么Ethan离开xAI并将重心转向LLM
- 自管理上下文、记忆和语言模型的下一前沿
Ethan He
- **LinkedIn:**https://www.linkedin.com/in/ethanhe42
- **X:**https://x.com/EthanHe_42
00:00:00 介绍
00:01:25 从NVIDIA Cosmos到xAI
00:03:24 从零到一构建Grok Imagine
00:10:07 图像和视频模型如何训练
00:18:53 视频压缩、VAEs和实时权衡
00:22:10 生成式UI、Flipbook和Neural OS
00:32:10 训练大型视频模型的成本
00:37:04 蒸馏、GANs和快速视频推理
00:41:21 音视频生成和Grok Imagine 0.9
00:48:34 什么是世界模型?
00:55:51 参考视频、长上下文和视频记忆
01:00:11 xAI文化、研究和第一性原理构建
01:09:45 AI安全、水印和提示重写
01:13:10 视频智能体与AI辅助创作
01:27:32 为什么语言模型解锁更好的视频
01:31:15 机器人学、物理AI和具身世界模型
01:32:38 为什么Ethan离开xAI
01:34:16 自管理上下文和LLM的未来
01:38:43 Ethan的职业道路和结束语
Swyx [00:00:00]: 今天我们在演播室与Ethan He在一起,他最近刚从xAI出来。欢迎。
Ethan [00:00:10]: 谢谢。很高兴来到这里。
Swyx [00:00:11]: 我们还有Vibhu也在这里。你最初联系上我们或加入Latent Space社区是因为你在NVIDIA从事Kosmos项目,并且你发表了一篇论文。我们很喜欢。你也做了演讲,非常感谢你。
Ethan [00:00:23]: 实际上,我之前也曾在Latent Space两次介绍过MoE模型。
Swyx [00:00:29]: 你是如何听说我们的?是我们联系的你吗?是这样吗?
Ethan [00:00:33]: 不是,实际上是……这个社区。我发现,哦,这里有这么一个在线社区,人们讨论AI,并且每周通过Paperclip互相学习。这非常好。
Ethan [00:00:49]: 我学到了很多。
Swyx [00:00:49]: 我想我们已经持续三年了。即使在圣诞节和新年期间也没有停过。很多周我都想停下来,但它一直在继续。
Vibhu [00:00:58]: 不,那很好。我记得你发帖说你做过一篇论文,我当时想:“哦,非常酷。我们有Paperclip。来做个演讲吧。”
Vibhu [00:01:04]: 但可能是我事后联系你的。
Swyx [00:01:05]: 你……因为这是一个爱好者俱乐部,对吧?
Swyx [00:01:08]: 所以这很不寻常,但我们有时确实会有论文作者过来,实际解释一下他们的论文。今天我们刚做了一期关于poolside论文的,据说非常好。
Vibhu [00:01:18]: 昨天刚出的。
Vibhu [00:01:19]: 非常有趣,对吧?完全开放。他们什么都谈,系统方面。所以这是个好论文。我们会,会推荐大家去读。
Swyx [00:01:25]: 给我们说说你向xAI的过渡吧,因为我其实不知道你是什么时候加入的。就讲讲故事,关于这个过渡。
Ethan [00:01:34]: 在xAI之前,我在NVIDIA从事Kosmos世界模型的工作。Kosmos是一个巨大的视频基础模型,可以……旨在模拟世界,并作为所有机器人学家在其上构建的基础。在那里,当我构建完Kosmos一代时,我意识到这个东西和语言模型一样有缩放定律,我们需要进一步扩展视频模型。这就是为什么我意识到我需要搬到一个拥有更多计算资源的地方。
Swyx [00:02:13]: 比NVIDIA还多?
Vibhu [00:02:14]: GPU大户自己来了。
Vibhu [00:02:19]: 时间线上,Kosmos是什么时候?那是很早的事了,对吧?开放世界模型,开放论文,一切都很开放。
Ethan [00:02:25]: 是24年底。
Vibhu [00:02:28]: 24年底。
Ethan [00:02:30]: 然后在25年中,我搬到了xAI。那时……我加入的时候大约正是xAI要开始构建视频模型和多模态模型的时候。那里没有基础设施,没有数据,也没有模型,就我们几个工程师,我们在三个月内构建完毕并发布了第一个模型,Grok Imagine 零点九。
Ethan [00:02:55]: 从那以后,我一直致力于视频模型,并且工作重心从训练逐渐转向视频模型的后训练。例如,像参考视频,类似于cameo功能,以及视频扩展。在我离开之前,我致力于世界模型,领导一个小团队专注于实时长视野视频生成。
Swyx [00:03:24]: 你能不能给出一个大致的路线图:好吧,你是一个全新的团队。Grok以前只做文本,或者他们为图像生成与BFL合作。你……你要考虑哪些构建模块,对吧?你有计算资源,可以从某个地方获取数据。就是当你要组建一个新团队时,人们应该考虑的一系列事情是什么?
Vibhu [00:03:43]: 实际上更深一层,不只是你可以获取数据。你们还得自己去获取数据,对吧?所以你们推出得相当快,但是,是的……
Swyx [00:03:51]: 三个月真是……
Vibhu [00:03:52]: 从零开始。
Swyx [00:03:52]: 实际上快得惊人。
Ethan [00:03:55]: 我说一点,这要感谢我在NVIDIA的经历,因为第一次我们一起构建Kosmos时,我们花了大约一年的时间。所以这是我第二次做这件事。大致知道该做什么。我说最重要的是人才。每个人都非常强大和聪明,彼此之间非常紧密,朝着一个共同的目标努力。这大大加快了速度。所以你减少了人与人之间的沟通成本,每个人都能朝着同一个目标努力。那段时间,就像每天日历上没有那么多会议,可能每天就一个同步会,之后就是纯粹的构建。那段时间非常有趣。
Ethan [00:04:47]: 另一件事是,xAI有非常强大的基础,比如数据、模型推理,以及支持这些的基础设施,这极大帮助了模型开发。当我审视模型训练时,实际上最重要的不是算法,而是你每天可以做多少次迭代?你能做的迭代越多,你就能更快地训练模型。所以如果你有非常强大的基础设施和大量的计算资源,你可以在很短的时间内训练这些模型。这为你提供了更大的容错空间,也给了你发现更多错误的机会。
Swyx [00:05:46]: 一次迭代是什么?是几百步训练还是什么?
Ethan [00:05:50]: 就说训练模型这件事,从获取新数据,可能设计新算法,然后训练一个新模型,也许是在较小规模上……
Swyx [00:06:01]: 所以是你在搜索任何超参数时的循环时间。
Ethan [00:06:04]: 循环时间,以及调整到评估这个模型。这个模型比我上一次迭代好吗?
Ethan [00:06:11]: 所以……
Swyx [00:06:11]: 所以是有人在你之前就已经搭建好了,让你可以非常快速地迭代。
Ethan [00:06:15]: 我认为那里开发和研究中心的基础设施非常好。
Ethan [00:06:23]: 而且我经常发现……这有点无聊,但很多改进并非来自新算法。它来自于在数据管道中、在模型训练管道中发现这里那里的小错误。这些带来了模型质量的最大提升。
Vibhu [00:06:46]: 这很有趣,对吧?所以你说小团队,沟通成本低,但同时很多质量提升来自于发现小错误。这似乎有点反直觉,对吧?如果你有很多人,你可以解决更多这类问题,但从另一个角度看很有趣,对吧?
Swyx [00:07:00]: 我还想知道,你有没有……你试过用LLM来找bug吗?我不知道。
Ethan [00:07:05]: 我记得那是在2025年年中,那时候编程模型还不太好。我记得在2025年12月,它变得非常好了。是的,我当时就在用它。它很有帮助。有时候它生成的代码有点难以维护,尽管第一次用它构建东西非常快。但它生成了那种意大利面条式的代码,成千上万行,我无法维护,而且LLM自己也搞不清楚哪里出了问题以及如何在此基础上改进。但我现在发现它好多了。是的,我想再提一点,现在的编程模型效率更高,可以帮助我们更快地实现功能。计算可能再次成为瓶颈,因为以前,如果你想训练一个新模型,比如你想生成新的合成数据,或者编写一个新算法,可能需要几周时间。在那段时间里,你……你可能没有实验可以运行。但现在你可以在几小时内构建好那个东西,然后马上训练一个模型。
Ethan [00:08:24]: 现在你必须有足够的计算资源来尝试所有想法。所以计算可能再次成为迭代速度的瓶颈。
Swyx [00:08:36]: 是的,实际上,说实话,我认为这是一份压力很大的工作,因为你会觉得“我应该尝试所有东西,如果我没有,那我就没做好工作。”
Vibhu
相似文章
为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine(98分钟阅读)
来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿,他认为视频模型从LLM中获取智能,并且视频生成的演变将模仿AI编程,从一次性输出转向多轮规划与执行。
@EthanHe_42: 在@latentspacepod播客中,我分享了关于视频生成、世界模型、LLMs、智能体、持续学习以及……的观点
Ethan He在Latent Space播客中分享了他的见解,讨论了关于视频生成、世界模型、LLMs、智能体、持续学习以及AI下一前沿的关键观点。
@swyx: 这个播客是给社区的一份不可思议的礼物:不仅是我们第一个关于 @xAI 的播客,而且 Ethan 真的尽情回答了所有问题…
一条推文称赞了一期播客,前xAI世界模型负责人Ethan He深入分享了训练SOTA视频生成世界模型的见解,涵盖了Grok Imagine、Cosmos,以及视频与编码代理之间的相似之处。
@aiDotEngineer:规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高!
@sedielem 在 YouTube 上的演讲,精炼地回顾了生成式图像与视频模型在规模化时的最新进展,涵盖建模、架构、蒸馏与控制。
@nomadicai:计算机视觉的未来是智能体。1/ 我们创立 Nomadic,是因为在视频理解中反复看到一个缺口:VLM……
NomadicAI 正在打造一款智能体计算机视觉产品,解决 VLM 对真实视频内容 grounding 不足的问题。