@aiDotEngineer：规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高！

X AI KOLs Timeline 2026/04/21 19:58 事件

generative-models image-generation video-generation scaling youtube-talk

摘要

@sedielem 在 YouTube 上的演讲，精炼地回顾了生成式图像与视频模型在规模化时的最新进展，涵盖建模、架构、蒸馏与控制。

规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高！@sedielem 带来一场精炼的最新技术综述，从建模与架构到蒸馏与控制，一网打尽。

查看原文

相似文章

X AI KOLs Timeline

Google DeepMind 的 Gemma 系列开源模型下载量已突破 5 亿次，被誉为“单位比特能力最高”的开源大语言模型。

Hugging Face Daily Papers

ReImagine 提出“图像优先”的可控高质量人体视频生成方案，借助 SMPL-X 动作引导与视频扩散模型，将外观建模与时间一致性解耦。

OpenAI Blog

OpenAI的技术报告介绍了Sora视频生成模型，该模型通过视觉补丁统一多样化的视觉数据，支持大规模训练生成模型，能够生成长达一分钟的高清视频，支持可变的时长、宽高比和分辨率。

X AI KOLs

OpenAI 研究人员解读 ChatGPT Images 2.0 成为顶尖图像生成模型的关键突破，重点展示其“思考”与智能能力。

Google DeepMind Blog

Google 发布了 Veo 3 和 Imagen 4，这是下一代视频和图像生成模型，具有显著的能力提升，包括音频生成和增强的物理模拟。该公司还推出了 AI 电影制作工具 Flow，并扩大了 Lyria 2 音乐创作工具的访问权限。