@Andrew__Brown__: So, today is my last day at Meta... After I finished my PHD, I moved from Oxford to New York to join FAIR and work on g…

X AI KOLs Following News

Summary

Andrew Brown 宣布离开 Meta,加入 Amilabs,并回顾了他在 Meta 参与的视频生成研究,包括 Emu Video 和 Movie Gen,强调了 Transformer 和规模扩展在视频生成中的重要性。

So, today is my last day at Meta... After I finished my PHD, I moved from Oxford to New York to join FAIR and work on generative models for video. At the time, the SOTA could do little more than generate blurry GIFs. In the subsequent three years, our team went to complete my proudest research achievements so far, pushing the state of the art a few times with Emu Video and Movie Gen. For anyone interested, I summarized the amazing progression in the field and our work in a lecture at Stanford last year https://youtube.com/watch?v=YGHF8_tf--g… I worked with an amazing close team throughout in @imisra_, @_rohitgirdhar_, @mannat_singh, @quduval, Xi Yin, @smnh_azadi , @rssaketh , @arunmallya , @deviparikh , Ce Liu, all of whom are close friends now. I’m gonna be cheering the team on from outside. After pushing the frontier of video generation for a few years, its time for a change. I’m excited to announce that I will be joining the super talented team at @amilabs as a member of the technical staff with @sainingxie I’m so excited to join this talented team, to push the frontier of world models, and to do exciting new research. This is gonna be a fun ride.
Original Article
View Cached Full Text

Cached at: 05/18/26, 02:34 PM

So, today is my last day at Meta… After I finished my PHD, I moved from Oxford to New York to join FAIR and work on generative models for video. At the time, the SOTA could do little more than generate blurry GIFs.

In the subsequent three years, our team went to complete my proudest research achievements so far, pushing the state of the art a few times with Emu Video and Movie Gen. For anyone interested, I summarized the amazing progression in the field and our work in a lecture at Stanford last year https://youtube.com/watch?v=YGHF8_tf–g…

I worked with an amazing close team throughout in @imisra_, @rohitgirdhar, @mannat_singh, @quduval, Xi Yin, @smnh_azadi , @rssaketh , @arunmallya , @deviparikh , Ce Liu, all of whom are close friends now. I’m gonna be cheering the team on from outside.

After pushing the frontier of video generation for a few years, its time for a change. I’m excited to announce that I will be joining the super talented team at @amilabs as a member of the technical staff with @sainingxie

I’m so excited to join this talented team, to push the frontier of world models, and to do exciting new research. This is gonna be a fun ride.


TL;DR: Andrew Brown 在 Meta 的最后一天分享了如何用 Transformer 训练视频生成模型,重点介绍了 Movie Gen——一个 300 亿参数的基础模型,通过流匹配训练和时空自编码器实现高清视频生成,并展示了数据、计算和模型规模扩展的重要性。


引言:视频生成的惊人进展

Andrew Brown 是 Meta GenAI(生成式 AI)团队的研究科学家,专注于媒体生成。过去两年半,他的团队发布了多篇前沿论文,推动视频生成模型的发展,包括 Emu Video 和 Movie Gen。在加入 Meta 之前,他在牛津大学视觉几何组(VGG)师从 Andrew Zisserman 教授完成博士学位。今天他的演讲主题是《用于视频生成的 Transformer》。

文本到视频模型如今可以生成质量极高、动作复杂、场景奇幻的视频。例如,一只穿着白床单的鬼魂,影子映在镜子里——模型显然学到了物理规律。这些模型还能用于视频编辑,比如将跑步者变成充气恐龙或仙人掌沙漠。

然而,这种能力是极其近期的进展。右侧是 2024 年 10 月发布的 Movie Gen 生成的视频,左侧是 2022 年 9 月当时最先进的方法(也是同一团队发布的模型)。差距只有两年,而视频生成领域的进步堪称“惊人”。


核心思想:Transformer 与规模扩展

Andrew 的演讲围绕两个结论展开:

  1. 如何训练一个 Transformer 来生成视频——逐步讲解所有细节,包括表示、学习目标和模型架构。
  2. 简单 Transformer 在数据、计算和模型参数上的扩展同样适用于视频生成——这一规律已在其他机器学习领域得到验证,现在在视频生成中也得到确认。

个人背景:从 GAN 到扩散模型

Andrew 的视觉生成研究始于博士第二年。当时他在牛津大学听 MIT 教授的讲座,介绍 GAN Dissection——通过激活或停用 GAN 中的神经元,使某些概念出现或消失。2019 年,GAN 可以生成模糊的厨房或卧室,虽不完美但已令人震惊。更关键的是,模型学会了物理概念:如果窗户在房间左边,光线会从窗户照进来并在大理石台面上产生反射。这深深影响了他,使他从此专注于视觉生成。


演讲主体:五个部分

1. 历史背景与 Movie Gen 概述

视频生成有两个里程碑:

  • 2022 年:社区开始使用扩散模型,视觉质量大幅提升。
  • 2024 年:视频生成走向架构统一。之前使用小型专门化架构(如 CNN、UNet),2024 年开始转向简单的 Transformer 设置,因为其在效率和可扩展性上的优势。Movie Gen 是这一趋势的代表。

Movie Gen 是什么?
一组基础模型,能生成高质量 1080p 高清视频,支持不同宽高比和同步音频。今天重点讲文本到视频模型。Movie Gen 视频模型是一个 300 亿参数 的基础模型,用于联合文本到图像和文本到视频生成,在约 1 亿个视频和 10 亿张图像上训练。核心创新:对简单 Transformer 使用流匹配训练(稍后介绍),通过数据、计算和参数扩展取得最先进结果。

2. 架构:表示、学习目标与模型

表示:从像素到潜在空间

文本数据高度压缩且离散,例如句子“一只猫的图片”——每个词包含大量信息。媒体数据则相反:一张猫图片是相机捕获的连续原始数据,存在大量冗余(相邻像素高度相关,视频中相邻帧也相关)。因此,可以将原始数据转换为更接近语言的形式。

早期方法直接对像素建模(如 Image GPT、Imagine Video),但像素数量随分辨率二次增长,只能处理 64x64 的低分辨率视频,必须依赖大量上采样级联(超分辨率模型、帧插值模型),效率低下。

更好的方法是学习一个压缩的潜在表示,使用离线训练的 VAE 或 VQ-VAE。这有两个优势:

  • 可以原生处理更大尺寸的数据。
  • 自编码器可以处理像素级细微差异,减轻后续语言模型的计算负担。

Movie Gen 的做法: 训练一个 时间自编码器(Temporal Autoencoder, TAE),用于时空视频压缩。本质上是一个变分自编码器(VAE):输入视频 → 编码器 → 瓶颈潜在表示 → 解码器 → 输出像素。训练时使用 L1 损失、对抗损失等。TAE 在每个维度(高、宽、时间)实现 8 倍压缩。生成时在潜在空间中操作,然后解码回 RGB。

学习目标:流匹配(Flow Matching)

(注意:转录中未详细展开流匹配的具体细节,但 Andrew 提到了“流匹配训练”。我们根据上下文保留这一术语。)

模型架构:简单 Transformer

Movie Gen 的视频模型基于简单的 Transformer,利用流匹配训练。论文重点展示了规模扩展的效果:在数据量、计算量和模型参数量上同时放大,就能获得最先进结果。

3. 数据与训练配方

模型在约 1 亿个视频和 10 亿张图像上训练。Andrew 强调,对简单 Transformer 进行数据、计算和参数的扩展,是成功的关键。具体配方包括联合训练文本到图像和文本到视频任务。

4. 结果与应用

  • 生成高质量 1080p 视频,支持不同宽高比。
  • 能够进行视频编辑(如将跑步者变成充气恐龙)。
  • 同步音频生成(论文中还包括音频模型,但今天只讲视频)。

5. 未来方向

Andrew 简要讨论了未来方向,但转录中未提供具体内容。演讲最后感谢听众。


总结

视频生成领域正经历从专用架构向统一 Transformer 的转变。Movie Gen 通过大规模预训练和流匹配,证明了简单 Transformer 在视频生成中的威力。Andrew 表示,能在这领域贡献自己的一份力量是他的荣幸。


Source: YouTube 视频链接(Andrew Brown 在 Meta 的最后一天演讲)

Similar Articles

@MaxForAI: Former NVIDIA and Meta researcher, xAI head of world model Ethan He just announced his departure. Many may not know exactly what he was responsible for. He was a core member of Grok Imagine (including video generation) from the 0-to-1 stage. He said when he joined xAI, Grok Imagine had nothing...

X AI KOLs Timeline

Ethan He, former head of world model at xAI and key contributor to Grok Imagine video generation, announced his departure. He built the multimodal video model from scratch in three months after joining xAI in July 2025.