ReImagine:以图像为先的可控高质量人体视频生成新思路
摘要
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - ReImagine:通过“图像优先”合成重新思考可控高质量人体视频生成
来源:https://huggingface.co/papers/2604.19720
发布时间:4 月 21 日
·
提交者:https://huggingface.co/taited
taited (https://huggingface.co/taited) 于 4 月 23 日
摘要
一种可控制姿态与视角的人体视频生成方法,将图像生成、SMPL-X 运动引导与视频扩散模型相结合,产出高质量、时序一致的视频。
在有限的多视角数据下,联合建模人体外观、运动与相机视角仍极具挑战。现有方法往往将三者割裂处理,导致可控性受限或视觉质量下降。我们从“图像优先”视角重新审视该问题:先通过图像生成(https://huggingface.co/papers?q=image%20generation)学习高质量人体外观,再将其作为先验用于视频合成,从而将外观建模与时序一致性解耦。我们提出一套可控制姿态与视角的流水线,结合预训练图像骨干与基于 SMPL-X(https://huggingface.co/papers?q=SMPL-X)的运动引导,并引入基于预训练视频扩散模型的无训练时序细化(https://huggingface.co/papers?q=temporal%20refinement)阶段。该方法在多样化姿态与视角下生成高质量、时序一致的视频。我们还发布了一个规范人体数据集(https://huggingface.co/papers?q=canonical%20human%20dataset)及一个用于组合式人体图像合成(https://huggingface.co/papers?q=compositional%20human%20image%20synthesis)的辅助模型。代码与数据已开源:https://github.com/Taited/ReImagine。
查看 arXiv 页面(https://arxiv.org/abs/2604.19720)
查看 PDF(https://arxiv.org/pdf/2604.19720)
项目主页(https://keruzheng.github.io/ReImagine-Project/)
GitHub5(https://github.com/Taited/ReImagine)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19720)
在本地调用:
hf papers read 2604.19720
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。
引用本文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。
引用本文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19720 即可在此显示。
收录本文的合集 0
暂无合集收录该论文
创建合集 并添加该论文即可在此显示。
相似文章
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成
CoInteract 提出端到端 Diffusion Transformer 框架,联合建模 RGB 外观与 HOI 几何,在零推理开销下生成物理合理、手脸稳定的人-物交互视频。
VideoMDM: 基于2D监督的3D人体运动生成方法
VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。
MotiMotion:基于视觉推理的运动控制视频生成
MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。