netflix/void-model
摘要
Netflix 发布了 VOID,一种视频修复模型,能够从视频中移除物体,同时逼真地模拟物理交互(例如,当移除一个人时,物体会掉落)。该模型基于 CogVideoX 构建,并通过交互感知的四元掩码条件进行微调。
查看缓存全文
缓存时间: 2026/04/20 14:45
netflix/void-model · Hugging Face
来源:https://huggingface.co/netflix/void-model
https://huggingface.co/netflix/void-model#void-video-object-and-interaction-deletionVOID:视频对象与交互删除
VOID 能够从视频中移除物体,以及它们对场景产生的所有交互影响——不仅包括阴影和反射等次要效果,还涉及物理交互,例如移除人物后物体掉落等现象。
项目页面 (https://void-model.github.io/) | 论文 (https://arxiv.org/pdf/2604.02296) | GitHub (https://github.com/netflix/void-model) | 演示 (https://huggingface.co/spaces/sam-motamed/VOID)
https://huggingface.co/netflix/void-model#quick-start快速开始
在 Colab 中打开 (https://colab.research.google.com/github/netflix/void-model/blob/main/notebook.ipynb)
附带的 notebook 负责环境设置、下载模型、对示例视频进行推理并显示结果。需要配备40GB 以上显存的 GPU(例如 A100)。
https://huggingface.co/netflix/void-model#model-details模型详情
VOID 基于 CogVideoX-Fun-V1.5-5b-InP (https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.5-5b-InP) 构建,并通过交互感知的**四值掩码(quadmask)**条件进行微调,用于视频修复——这是一种四值掩码,编码了主要物体(移除)、重叠区域、受影响区域(掉落物体、移位物品)和背景(保留)。
https://huggingface.co/netflix/void-model#checkpoints检查点
| 文件 | 描述 | 是否必需 |
|---|---|---|
void_pass1.safetensors | 基础修复模型 | 是 |
void_pass2.safetensors | 利用扭曲噪声进行时间一致性优化 | 可选 |
对于大多数视频,仅使用 Pass 1 即可。Pass 2 增加了基于光流扭曲的潜在初始化,以提升较长片段的时间一致性。
https://huggingface.co/netflix/void-model#architecture架构
- 基础模型: CogVideoX 3D Transformer(5B 参数)
- 输入: 视频 + 四值掩码 + 描述移除后场景的文本提示
- 分辨率: 384x672(默认)
- 最大帧数: 197
- 调度器: DDIM
- 精度: BF16,配合 FP8 量化以节省内存
https://huggingface.co/netflix/void-model#usage使用方法
https://huggingface.co/netflix/void-model#from-the-notebook通过 Notebook 使用
最简单的方式——克隆仓库并运行 notebook.ipynb (https://github.com/netflix/void-model/blob/main/notebook.ipynb):
git clone https://github.com/netflix/void-model.git
cd void-model
https://huggingface.co/netflix/void-model#from-the-cli通过命令行使用
# 安装依赖
pip install -r requirements.txt
# 下载基础模型
hf download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP \
--local-dir ./CogVideoX-Fun-V1.5-5b-InP
# 下载 VOID 检查点
hf download netflix/void-model \
--local-dir .
# 对样本运行 Pass 1 推理
python inference/cogvideox_fun/predict_v2v.py \
--config config/quadmask_cogvideox.py \
--config.data.data_rootdir="./sample" \
--config.experiment.run_seqs="lime" \
--config.experiment.save_path="./outputs" \
--config.video_model.transformer_path="./void_pass1.safetensors"
https://huggingface.co/netflix/void-model#input-format输入格式
每个视频需要在一个文件夹中放置三个文件:
my-video/
input_video.mp4 # 源视频
quadmask_0.mp4 # 四值掩码(0=移除, 63=重叠, 127=受影响, 255=保留)
prompt.json # {"bg": "移除后场景的描述"}
仓库中包含一个掩码生成流程(VLM-MASK-REASONER/),可利用 SAM2 + Gemini 从原始视频生成四值掩码。
https://huggingface.co/netflix/void-model#training训练
训练使用来自两个来源的成对反事实视频:
- HUMOTO——在 Blender 中通过物理模拟渲染的人与物体交互
- Kubric——使用 Google Scanned Objects 的纯物体交互
训练在 8x A100 80GB GPU 上进行,采用 DeepSpeed ZeRO Stage 2。完整的训练说明和数据生成代码请参见 GitHub 仓库 (https://github.com/netflix/void-model#%EF%B8%8F-training)。
https://huggingface.co/netflix/void-model#citation引用
@misc{motamed2026void,
title={VOID: Video Object and Interaction Deletion},
author={Saman Motamed and William Harvey and Benjamin Klein and Luc Van Gool and Zhuoning Yuan and Ta-Ying Cheng},
year={2026},
eprint={2604.02296},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2604.02296}
}
相似文章
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
VEFX-Bench:通用视频编辑与视觉特效的全方位基准
VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。
CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成
CoInteract 提出端到端 Diffusion Transformer 框架,联合建模 RGB 外观与 HOI 几何,在零推理开销下生成物理合理、手脸稳定的人-物交互视频。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
视频生成模型作为世界模拟器
OpenAI的技术报告介绍了Sora视频生成模型,该模型通过视觉补丁统一多样化的视觉数据,支持大规模训练生成模型,能够生成长达一分钟的高清视频,支持可变的时长、宽高比和分辨率。