ReImagine：以图像为先的可控高质量人体视频生成新思路

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

ReImagine 提出“图像优先”的可控高质量人体视频生成方案，借助 SMPL-X 动作引导与视频扩散模型，将外观建模与时间一致性解耦。

人体视频生成因需在多视角数据有限的情况下联合建模外观、动作与相机视角，一直极具挑战。现有方法通常将这些因素割裂处理，导致可控性受限或画质下降。本文从“图像优先”角度重新审视该问题：先通过图像生成学习高质量人体外观，再将其作为先验用于视频合成，从而把外观建模与时间一致性解耦。我们提出一套可控制姿态与视角的流水线，将预训练图像骨干网络与基于 SMPL-X 的动作引导相结合，并引入无需额外训练、基于预训练视频扩散模型的时间精炼阶段。实验表明，该方法可在多样姿态与视角下生成高质量、时序一致的视频。我们还发布了规范人体数据集及用于组合式人体图像合成的辅助模型。代码与数据已开源：https://github.com/Taited/ReImagine

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - ReImagine：通过“图像优先”合成重新思考可控高质量人体视频生成

来源：https://huggingface.co/papers/2604.19720
发布时间：4 月 21 日

提交者：https://huggingface.co/taited

taited (https://huggingface.co/taited) 于 4 月 23 日

摘要

一种可控制姿态与视角的人体视频生成方法，将图像生成、SMPL-X 运动引导与视频扩散模型相结合，产出高质量、时序一致的视频。

在有限的多视角数据下，联合建模人体外观、运动与相机视角仍极具挑战。现有方法往往将三者割裂处理，导致可控性受限或视觉质量下降。我们从“图像优先”视角重新审视该问题：先通过图像生成（https://huggingface.co/papers?q=image%20generation）学习高质量人体外观，再将其作为先验用于视频合成，从而将外观建模与时序一致性解耦。我们提出一套可控制姿态与视角的流水线，结合预训练图像骨干与基于 SMPL-X（https://huggingface.co/papers?q=SMPL-X）的运动引导，并引入基于预训练视频扩散模型的无训练时序细化（https://huggingface.co/papers?q=temporal%20refinement）阶段。该方法在多样化姿态与视角下生成高质量、时序一致的视频。我们还发布了一个规范人体数据集（https://huggingface.co/papers?q=canonical%20human%20dataset）及一个用于组合式人体图像合成（https://huggingface.co/papers?q=compositional%20human%20image%20synthesis）的辅助模型。代码与数据已开源：https://github.com/Taited/ReImagine。

查看 arXiv 页面（https://arxiv.org/abs/2604.19720）
查看 PDF（https://arxiv.org/pdf/2604.19720）
项目主页（https://keruzheng.github.io/ReImagine-Project/）
GitHub5（https://github.com/Taited/ReImagine）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.19720）

在本地调用：

hf papers read 2604.19720

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。

引用本文的数据集 0

暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。

引用本文的 Spaces 0

暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。

收录本文的合集 0

暂无合集收录该论文
创建合集并添加该论文即可在此显示。

ReImagine：以图像为先的可控高质量人体视频生成新思路

论文页面 - ReImagine：通过“图像优先”合成重新思考可控高质量人体视频生成

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

收录本文的合集 0

相似文章

表征先于像素：语义引导的分层视频预测

CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

SwiftI2V：一种通过条件分段生成实现高效高分辨率图像到视频生成的框架

@aiDotEngineer：规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高！

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

提交意见反馈