VEFX-Bench:通用视频编辑与视觉特效的全方位基准

Hugging Face Daily Papers 论文

摘要

VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。

随着AI辅助视频创作日益实用化,指令引导的视频编辑已成为修饰生成或录制的素材以满足专业需求的关键。然而,该领域仍然缺乏一个包含完整编辑示例的大规模人工标注数据集,以及一个用于比较编辑系统的标准化评估器。现有资源受限于规模小、缺少编辑输出或缺乏人工质量标签,而当前的评估往往依赖昂贵的人工检查或通用的视觉语言模型评判,这些评判并非专门针对编辑质量。我们引入了VEFX-Dataset,这是一个包含5,049个视频编辑示例的人工标注数据集,覆盖9个主要编辑类别和32个子类别,每个示例在三个解耦维度上进行标注:指令遵循、渲染质量和编辑排他性。基于VEFX-Dataset,我们提出了VEFX-Reward,这是一个专门用于视频编辑质量评估的奖励模型。VEFX-Reward同时处理源视频、编辑指令和编辑后的视频,并通过序数回归预测每个维度的质量分数。我们进一步发布了VEFX-Bench,这是一个包含300个精心挑选的视频提示对的基准测试,用于标准化比较编辑系统。实验表明,在标准的IQA/VQA指标和群体偏好评估中,VEFX-Reward与人类判断的一致性优于通用的视觉语言模型评判和之前的奖励模型。使用VEFX-Reward作为评估器,我们对代表性的商用和开源视频编辑系统进行了基准测试,揭示了当前模型在视觉合理性、指令遵循和编辑局部性之间的持续差距。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - VEFX-Bench: 面向通用视频编辑与视觉特效的全面基准测试

来源:https://huggingface.co/papers/2604.16272

作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

本文引入了一个大规模人工标注的视频编辑数据集,包含多维质量标签,以及一个专门用于评估编辑质量的奖励模型,并配套推出了一个标准化系统对比基准。

随着AI辅助视频创作日益实用化,指令引导的视频编辑(https://huggingface.co/papers?q=video%20editing)已成为优化生成或拍摄素材以满足专业需求的关键手段。然而,该领域仍缺乏一个包含完整编辑示例的大规模人工标注数据集(https://huggingface.co/papers?q=human-annotated%20dataset),也缺少一个用于比较编辑系统的标准化评估器。现有资源受限于规模小、缺少编辑输出或缺乏人工质量标签,而当前评估往往依赖昂贵的目视检查或通用视觉语言模型评判器,这些评判器并非专为编辑质量设计。我们推出了VEFX-Dataset,这是一个包含5,049个视频编辑(https://huggingface.co/papers?q=video%20editing)示例的人工标注数据集(https://huggingface.co/papers?q=human-annotated%20dataset),涵盖9个主要编辑类别和32个子类别,每个示例沿三个解耦维度进行标注:指令遵循度、渲染质量和编辑排他性。基于VEFX-Dataset,我们提出了VEFX-Reward,这是一个专门为视频编辑(https://huggingface.co/papers?q=video%20editing)质量评估设计的奖励模型(https://huggingface.co/papers?q=reward%20model)。VEFX-Reward联合处理源视频、编辑指令和编辑后的视频,并通过序数回归(https://huggingface.co/papers?q=ordinal%20regression)预测每个维度的质量分数。我们进一步发布了VEFX-Bench,这是一个包含300个精选视频-提示对(https://huggingface.co/papers?q=video-prompt%20pairs)的基准测试,用于标准化比较编辑系统。实验表明,VEFX-Reward与人类判断的一致性优于通用VLM评判器和先前的奖励模型(https://huggingface.co/papers?q=reward%20model),在标准IQA/VQA指标和分组偏好评估上均表现更佳。使用VEFX-Reward作为评估器,我们对代表性商业和开源视频编辑(https://huggingface.co/papers?q=video%20editing)系统进行了基准测试,揭示了当前模型在视觉合理性、指令遵循度和编辑局部性之间持续存在的差距。

查看arXiv页面(https://arxiv.org/abs/2604.16272)查看PDF(https://arxiv.org/pdf/2604.16272)项目页面(https://xiangbogaobarry.github.io/VEFX-Bench/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16272)

在您的代理中获取这篇论文:

hf papers read 2604\.16272

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型README.md中引用arxiv.org/abs/2604.16272以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2604.16272以从此页面链接。

引用此论文的Space0

没有Space链接此论文

请在Space README.md中引用arxiv.org/abs/2604.16272以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

Motif-Video 2B:技术报告

Hugging Face Daily Papers

# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。

OSCBench: 文本到视频生成中的对象状态变化基准测试

arXiv cs.CL

OSCBench是一个新的基准测试,用于评估文本到视频生成模型准确表示对象状态变化(由剥皮或切片等动作引起的转变)的能力。该论文表明,当前的T2V模型在处理时间上一致的状态变化方面存在困难,特别是在新颖和组合场景中,这被认定为视频生成的一个关键瓶颈。

使用 Veo 2 和 Imagen 3 进行最先进的视频和图像生成

Google DeepMind Blog

Google 推出了 Veo 2 和 Imagen 3,这些最先进的视频和图像生成模型现已在 VideoFX、ImageFX 和一个名为 Whisk 的新工具中推出。Veo 2 能够生成高质量的 4K 视频,具有改进的物理理解和电影摄影知识,而 Imagen 3 则能够生成更亮丽、构图更佳的图像,并支持多种艺术风格。