ReImagine:以图像为先的可控高质量人体视频生成新思路

Hugging Face Daily Papers 论文

摘要

ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。

人体视频生成因需在多视角数据有限的情况下联合建模外观、动作与相机视角,一直极具挑战。现有方法通常将这些因素割裂处理,导致可控性受限或画质下降。本文从“图像优先”角度重新审视该问题:先通过图像生成学习高质量人体外观,再将其作为先验用于视频合成,从而把外观建模与时间一致性解耦。我们提出一套可控制姿态与视角的流水线,将预训练图像骨干网络与基于 SMPL-X 的动作引导相结合,并引入无需额外训练、基于预训练视频扩散模型的时间精炼阶段。实验表明,该方法可在多样姿态与视角下生成高质量、时序一致的视频。我们还发布了规范人体数据集及用于组合式人体图像合成的辅助模型。代码与数据已开源:https://github.com/Taited/ReImagine
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - ReImagine:通过“图像优先”合成重新思考可控高质量人体视频生成

来源:https://huggingface.co/papers/2604.19720
发布时间:4 月 21 日

·

提交者:https://huggingface.co/taited

taited (https://huggingface.co/taited) 于 4 月 23 日

摘要

一种可控制姿态与视角的人体视频生成方法,将图像生成、SMPL-X 运动引导与视频扩散模型相结合,产出高质量、时序一致的视频。

在有限的多视角数据下,联合建模人体外观、运动与相机视角仍极具挑战。现有方法往往将三者割裂处理,导致可控性受限或视觉质量下降。我们从“图像优先”视角重新审视该问题:先通过图像生成(https://huggingface.co/papers?q=image%20generation)学习高质量人体外观,再将其作为先验用于视频合成,从而将外观建模与时序一致性解耦。我们提出一套可控制姿态与视角的流水线,结合预训练图像骨干与基于 SMPL-X(https://huggingface.co/papers?q=SMPL-X)的运动引导,并引入基于预训练视频扩散模型的无训练时序细化(https://huggingface.co/papers?q=temporal%20refinement)阶段。该方法在多样化姿态与视角下生成高质量、时序一致的视频。我们还发布了一个规范人体数据集(https://huggingface.co/papers?q=canonical%20human%20dataset)及一个用于组合式人体图像合成(https://huggingface.co/papers?q=compositional%20human%20image%20synthesis)的辅助模型。代码与数据已开源:https://github.com/Taited/ReImagine。

查看 arXiv 页面(https://arxiv.org/abs/2604.19720)
查看 PDF(https://arxiv.org/pdf/2604.19720)
项目主页(https://keruzheng.github.io/ReImagine-Project/)
GitHub5(https://github.com/Taited/ReImagine)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19720)

在本地调用:

hf papers read 2604.19720

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。

引用本文的数据集 0

暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。

引用本文的 Spaces 0

暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。

收录本文的合集 0

暂无合集收录该论文
创建合集 并添加该论文即可在此显示。

相似文章

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。