ReImagine:以图像为先的可控高质量人体视频生成新思路
摘要
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - ReImagine:通过“图像优先”合成重新思考可控高质量人体视频生成
来源:https://huggingface.co/papers/2604.19720
发布时间:4 月 21 日
·
提交者:https://huggingface.co/taited
taited (https://huggingface.co/taited) 于 4 月 23 日
摘要
一种可控制姿态与视角的人体视频生成方法,将图像生成、SMPL-X 运动引导与视频扩散模型相结合,产出高质量、时序一致的视频。
在有限的多视角数据下,联合建模人体外观、运动与相机视角仍极具挑战。现有方法往往将三者割裂处理,导致可控性受限或视觉质量下降。我们从“图像优先”视角重新审视该问题:先通过图像生成(https://huggingface.co/papers?q=image%20generation)学习高质量人体外观,再将其作为先验用于视频合成,从而将外观建模与时序一致性解耦。我们提出一套可控制姿态与视角的流水线,结合预训练图像骨干与基于 SMPL-X(https://huggingface.co/papers?q=SMPL-X)的运动引导,并引入基于预训练视频扩散模型的无训练时序细化(https://huggingface.co/papers?q=temporal%20refinement)阶段。该方法在多样化姿态与视角下生成高质量、时序一致的视频。我们还发布了一个规范人体数据集(https://huggingface.co/papers?q=canonical%20human%20dataset)及一个用于组合式人体图像合成(https://huggingface.co/papers?q=compositional%20human%20image%20synthesis)的辅助模型。代码与数据已开源:https://github.com/Taited/ReImagine。
查看 arXiv 页面(https://arxiv.org/abs/2604.19720)
查看 PDF(https://arxiv.org/pdf/2604.19720)
项目主页(https://keruzheng.github.io/ReImagine-Project/)
GitHub5(https://github.com/Taited/ReImagine)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19720)
在本地调用:
hf papers read 2604.19720
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。
引用本文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。
引用本文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。
收录本文的合集 0
暂无合集收录该论文
创建合集 并添加该论文即可在此显示。
相似文章
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成
CoInteract 提出端到端 Diffusion Transformer 框架,联合建模 RGB 外观与 HOI 几何,在零推理开销下生成物理合理、手脸稳定的人-物交互视频。
SwiftI2V:一种通过条件分段生成实现高效高分辨率图像到视频生成的框架
SwiftI2V 是一个新颖的高效框架,用于高分辨率图像到视频的生成,它采用条件分段生成技术,在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能,同时保持了输入的保真度。
@aiDotEngineer:规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高!
@sedielem 在 YouTube 上的演讲,精炼地回顾了生成式图像与视频模型在规模化时的最新进展,涵盖建模、架构、蒸馏与控制。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。