netflix/void-model

Hugging Face Models Trending 模型

摘要

Netflix 发布了 VOID,一种视频修复模型,能够从视频中移除物体,同时逼真地模拟物理交互(例如,当移除一个人时,物体会掉落)。该模型基于 CogVideoX 构建,并通过交互感知的四元掩码条件进行微调。

任务:视频到视频 标签:视频修复,视频编辑,物体移除,CogVideoX,扩散,视频生成,视频到视频,arxiv:2604.02296,许可证:Apache-2.0,区域:美国
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:45

netflix/void-model · Hugging Face

来源:https://huggingface.co/netflix/void-model

https://huggingface.co/netflix/void-model#void-video-object-and-interaction-deletionVOID:视频对象与交互删除

VOID 能够从视频中移除物体,以及它们对场景产生的所有交互影响——不仅包括阴影和反射等次要效果,还涉及物理交互,例如移除人物后物体掉落等现象。

项目页面 (https://void-model.github.io/) | 论文 (https://arxiv.org/pdf/2604.02296) | GitHub (https://github.com/netflix/void-model) | 演示 (https://huggingface.co/spaces/sam-motamed/VOID)

https://huggingface.co/netflix/void-model#quick-start快速开始

在 Colab 中打开 (https://colab.research.google.com/github/netflix/void-model/blob/main/notebook.ipynb)

附带的 notebook 负责环境设置、下载模型、对示例视频进行推理并显示结果。需要配备40GB 以上显存的 GPU(例如 A100)。

https://huggingface.co/netflix/void-model#model-details模型详情

VOID 基于 CogVideoX-Fun-V1.5-5b-InP (https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.5-5b-InP) 构建,并通过交互感知的**四值掩码(quadmask)**条件进行微调,用于视频修复——这是一种四值掩码,编码了主要物体(移除)、重叠区域、受影响区域(掉落物体、移位物品)和背景(保留)。

https://huggingface.co/netflix/void-model#checkpoints检查点

文件描述是否必需
void_pass1.safetensors基础修复模型
void_pass2.safetensors利用扭曲噪声进行时间一致性优化可选

对于大多数视频,仅使用 Pass 1 即可。Pass 2 增加了基于光流扭曲的潜在初始化,以提升较长片段的时间一致性。

https://huggingface.co/netflix/void-model#architecture架构

  • 基础模型: CogVideoX 3D Transformer(5B 参数)
  • 输入: 视频 + 四值掩码 + 描述移除后场景的文本提示
  • 分辨率: 384x672(默认)
  • 最大帧数: 197
  • 调度器: DDIM
  • 精度: BF16,配合 FP8 量化以节省内存

https://huggingface.co/netflix/void-model#usage使用方法

https://huggingface.co/netflix/void-model#from-the-notebook通过 Notebook 使用

最简单的方式——克隆仓库并运行 notebook.ipynb (https://github.com/netflix/void-model/blob/main/notebook.ipynb):

git clone https://github.com/netflix/void-model.git
cd void-model

https://huggingface.co/netflix/void-model#from-the-cli通过命令行使用

# 安装依赖
pip install -r requirements.txt

# 下载基础模型
hf download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP \
    --local-dir ./CogVideoX-Fun-V1.5-5b-InP

# 下载 VOID 检查点
hf download netflix/void-model \
    --local-dir .

# 对样本运行 Pass 1 推理
python inference/cogvideox_fun/predict_v2v.py \
    --config config/quadmask_cogvideox.py \
    --config.data.data_rootdir="./sample" \
    --config.experiment.run_seqs="lime" \
    --config.experiment.save_path="./outputs" \
    --config.video_model.transformer_path="./void_pass1.safetensors"

https://huggingface.co/netflix/void-model#input-format输入格式

每个视频需要在一个文件夹中放置三个文件:

my-video/
  input_video.mp4      # 源视频
  quadmask_0.mp4       # 四值掩码(0=移除, 63=重叠, 127=受影响, 255=保留)
  prompt.json          # {"bg": "移除后场景的描述"}

仓库中包含一个掩码生成流程(VLM-MASK-REASONER/),可利用 SAM2 + Gemini 从原始视频生成四值掩码。

https://huggingface.co/netflix/void-model#training训练

训练使用来自两个来源的成对反事实视频:

  • HUMOTO——在 Blender 中通过物理模拟渲染的人与物体交互
  • Kubric——使用 Google Scanned Objects 的纯物体交互

训练在 8x A100 80GB GPU 上进行,采用 DeepSpeed ZeRO Stage 2。完整的训练说明和数据生成代码请参见 GitHub 仓库 (https://github.com/netflix/void-model#%EF%B8%8F-training)。

https://huggingface.co/netflix/void-model#citation引用

@misc{motamed2026void,
  title={VOID: Video Object and Interaction Deletion},
  author={Saman Motamed and William Harvey and Benjamin Klein and Luc Van Gool and Zhuoning Yuan and Ta-Ying Cheng},
  year={2026},
  eprint={2604.02296},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2604.02296}
}

相似文章

VEFX-Bench:通用视频编辑与视觉特效的全方位基准

Hugging Face Daily Papers

VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。

视频生成模型作为世界模拟器

OpenAI Blog

OpenAI的技术报告介绍了Sora视频生成模型,该模型通过视觉补丁统一多样化的视觉数据,支持大规模训练生成模型,能够生成长达一分钟的高清视频,支持可变的时长、宽高比和分辨率。