netflix/void-model

Hugging Face Models Trending 2026/03/30 19:45 模型

video-generation object-removal inpainting netflix open-source diffusion video-ai

摘要

Netflix 发布了 VOID，一种视频修复模型，能够从视频中移除物体，同时逼真地模拟物理交互（例如，当移除一个人时，物体会掉落）。该模型基于 CogVideoX 构建，并通过交互感知的四元掩码条件进行微调。

任务：视频到视频标签：视频修复，视频编辑，物体移除，CogVideoX，扩散，视频生成，视频到视频，arxiv:2604.02296，许可证:Apache-2.0，区域:美国

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:45

netflix/void-model · Hugging Face

来源：https://huggingface.co/netflix/void-model

https://huggingface.co/netflix/void-model#void-video-object-and-interaction-deletionVOID：视频对象与交互删除

VOID 能够从视频中移除物体，以及它们对场景产生的所有交互影响——不仅包括阴影和反射等次要效果，还涉及物理交互，例如移除人物后物体掉落等现象。

项目页面 (https://void-model.github.io/) | 论文 (https://arxiv.org/pdf/2604.02296) | GitHub (https://github.com/netflix/void-model) | 演示 (https://huggingface.co/spaces/sam-motamed/VOID)

https://huggingface.co/netflix/void-model#quick-start快速开始

在 Colab 中打开 (https://colab.research.google.com/github/netflix/void-model/blob/main/notebook.ipynb)

附带的 notebook 负责环境设置、下载模型、对示例视频进行推理并显示结果。需要配备40GB 以上显存的 GPU（例如 A100）。

https://huggingface.co/netflix/void-model#model-details模型详情

VOID 基于 CogVideoX-Fun-V1.5-5b-InP (https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.5-5b-InP) 构建，并通过交互感知的**四值掩码（quadmask）**条件进行微调，用于视频修复——这是一种四值掩码，编码了主要物体（移除）、重叠区域、受影响区域（掉落物体、移位物品）和背景（保留）。

https://huggingface.co/netflix/void-model#checkpoints检查点

文件	描述	是否必需
`void_pass1.safetensors`	基础修复模型	是
`void_pass2.safetensors`	利用扭曲噪声进行时间一致性优化	可选

对于大多数视频，仅使用 Pass 1 即可。Pass 2 增加了基于光流扭曲的潜在初始化，以提升较长片段的时间一致性。

https://huggingface.co/netflix/void-model#architecture架构

基础模型： CogVideoX 3D Transformer（5B 参数）
输入： 视频 + 四值掩码 + 描述移除后场景的文本提示
分辨率： 384x672（默认）
最大帧数： 197
调度器： DDIM
精度： BF16，配合 FP8 量化以节省内存

https://huggingface.co/netflix/void-model#usage使用方法

https://huggingface.co/netflix/void-model#from-the-notebook通过 Notebook 使用

最简单的方式——克隆仓库并运行 notebook.ipynb (https://github.com/netflix/void-model/blob/main/notebook.ipynb)：

git clone https://github.com/netflix/void-model.git
cd void-model

https://huggingface.co/netflix/void-model#from-the-cli通过命令行使用

# 安装依赖
pip install -r requirements.txt

# 下载基础模型
hf download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP \
    --local-dir ./CogVideoX-Fun-V1.5-5b-InP

# 下载 VOID 检查点
hf download netflix/void-model \
    --local-dir .

# 对样本运行 Pass 1 推理
python inference/cogvideox_fun/predict_v2v.py \
    --config config/quadmask_cogvideox.py \
    --config.data.data_rootdir="./sample" \
    --config.experiment.run_seqs="lime" \
    --config.experiment.save_path="./outputs" \
    --config.video_model.transformer_path="./void_pass1.safetensors"

https://huggingface.co/netflix/void-model#input-format输入格式

每个视频需要在一个文件夹中放置三个文件：

my-video/
  input_video.mp4      # 源视频
  quadmask_0.mp4       # 四值掩码（0=移除, 63=重叠, 127=受影响, 255=保留）
  prompt.json          # {"bg": "移除后场景的描述"}

仓库中包含一个掩码生成流程（VLM-MASK-REASONER/），可利用 SAM2 + Gemini 从原始视频生成四值掩码。

https://huggingface.co/netflix/void-model#training训练

训练使用来自两个来源的成对反事实视频：

HUMOTO——在 Blender 中通过物理模拟渲染的人与物体交互
Kubric——使用 Google Scanned Objects 的纯物体交互

训练在 8x A100 80GB GPU 上进行，采用 DeepSpeed ZeRO Stage 2。完整的训练说明和数据生成代码请参见 GitHub 仓库 (https://github.com/netflix/void-model#%EF%B8%8F-training)。

https://huggingface.co/netflix/void-model#citation引用

@misc{motamed2026void,
  title={VOID: Video Object and Interaction Deletion},
  author={Saman Motamed and William Harvey and Benjamin Klein and Luc Van Gool and Zhuoning Yuan and Ta-Ying Cheng},
  year={2026},
  eprint={2604.02296},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2604.02296}
}

netflix/void-model

netflix/void-model · Hugging Face

https://huggingface.co/netflix/void-model#void-video-object-and-interaction-deletionVOID：视频对象与交互删除

https://huggingface.co/netflix/void-model#quick-start快速开始

https://huggingface.co/netflix/void-model#model-details模型详情

https://huggingface.co/netflix/void-model#checkpoints检查点

https://huggingface.co/netflix/void-model#architecture架构

https://huggingface.co/netflix/void-model#usage使用方法

https://huggingface.co/netflix/void-model#from-the-notebook通过 Notebook 使用

https://huggingface.co/netflix/void-model#from-the-cli通过命令行使用

https://huggingface.co/netflix/void-model#input-format输入格式

https://huggingface.co/netflix/void-model#training训练

https://huggingface.co/netflix/void-model#citation引用

相似文章

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

VEFX-Bench：通用视频编辑与视觉特效的全方位基准

CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

ReImagine：以图像为先的可控高质量人体视频生成新思路

视频生成模型作为世界模拟器

提交意见反馈