@aiDotEngineer:规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高!
摘要
@sedielem 在 YouTube 上的演讲,精炼地回顾了生成式图像与视频模型在规模化时的最新进展,涵盖建模、架构、蒸馏与控制。
规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高!@sedielem 带来一场精炼的最新技术综述,从建模与架构到蒸馏与控制,一网打尽。
相似文章
@aiDotEngineer:DeepMind 开源模型家族 Gemma https://youtube.com/watch?v=_gVFUEdhCyI… 在 Gemma 4 发布后首次公开演讲中…
Google DeepMind 的 Gemma 系列开源模型下载量已突破 5 亿次,被誉为“单位比特能力最高”的开源大语言模型。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
视频生成模型作为世界模拟器
OpenAI的技术报告介绍了Sora视频生成模型,该模型通过视觉补丁统一多样化的视觉数据,支持大规模训练生成模型,能够生成长达一分钟的高清视频,支持可变的时长、宽高比和分辨率。
@OpenAI:是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型?背后的研究人员亲自解释。串推……
OpenAI 研究人员解读 ChatGPT Images 2.0 成为顶尖图像生成模型的关键突破,重点展示其“思考”与智能能力。
用全新生成媒体模型和工具激发你的创意
Google 发布了 Veo 3 和 Imagen 4,这是下一代视频和图像生成模型,具有显著的能力提升,包括音频生成和增强的物理模拟。该公司还推出了 AI 电影制作工具 Flow,并扩大了 Lyria 2 音乐创作工具的访问权限。