VEFX-Bench:通用视频编辑与视觉特效的全方位基准

Hugging Face Daily Papers 论文

摘要

VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。

随着AI辅助视频创作日益实用化,指令引导的视频编辑已成为修饰生成或录制的素材以满足专业需求的关键。然而,该领域仍然缺乏一个包含完整编辑示例的大规模人工标注数据集,以及一个用于比较编辑系统的标准化评估器。现有资源受限于规模小、缺少编辑输出或缺乏人工质量标签,而当前的评估往往依赖昂贵的人工检查或通用的视觉语言模型评判,这些评判并非专门针对编辑质量。我们引入了VEFX-Dataset,这是一个包含5,049个视频编辑示例的人工标注数据集,覆盖9个主要编辑类别和32个子类别,每个示例在三个解耦维度上进行标注:指令遵循、渲染质量和编辑排他性。基于VEFX-Dataset,我们提出了VEFX-Reward,这是一个专门用于视频编辑质量评估的奖励模型。VEFX-Reward同时处理源视频、编辑指令和编辑后的视频,并通过序数回归预测每个维度的质量分数。我们进一步发布了VEFX-Bench,这是一个包含300个精心挑选的视频提示对的基准测试,用于标准化比较编辑系统。实验表明,在标准的IQA/VQA指标和群体偏好评估中,VEFX-Reward与人类判断的一致性优于通用的视觉语言模型评判和之前的奖励模型。使用VEFX-Reward作为评估器,我们对代表性的商用和开源视频编辑系统进行了基准测试,揭示了当前模型在视觉合理性、指令遵循和编辑局部性之间的持续差距。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - VEFX-Bench: 面向通用视频编辑与视觉特效的全面基准测试

来源:https://huggingface.co/papers/2604.16272

作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

本文引入了一个大规模人工标注的视频编辑数据集,包含多维质量标签,以及一个专门用于评估编辑质量的奖励模型,并配套推出了一个标准化系统对比基准。

随着AI辅助视频创作日益实用化,指令引导的视频编辑(https://huggingface.co/papers?q=video%20editing)已成为优化生成或拍摄素材以满足专业需求的关键手段。然而,该领域仍缺乏一个包含完整编辑示例的大规模人工标注数据集(https://huggingface.co/papers?q=human-annotated%20dataset),也缺少一个用于比较编辑系统的标准化评估器。现有资源受限于规模小、缺少编辑输出或缺乏人工质量标签,而当前评估往往依赖昂贵的目视检查或通用视觉语言模型评判器,这些评判器并非专为编辑质量设计。我们推出了VEFX-Dataset,这是一个包含5,049个视频编辑(https://huggingface.co/papers?q=video%20editing)示例的人工标注数据集(https://huggingface.co/papers?q=human-annotated%20dataset),涵盖9个主要编辑类别和32个子类别,每个示例沿三个解耦维度进行标注:指令遵循度、渲染质量和编辑排他性。基于VEFX-Dataset,我们提出了VEFX-Reward,这是一个专门为视频编辑(https://huggingface.co/papers?q=video%20editing)质量评估设计的奖励模型(https://huggingface.co/papers?q=reward%20model)。VEFX-Reward联合处理源视频、编辑指令和编辑后的视频,并通过序数回归(https://huggingface.co/papers?q=ordinal%20regression)预测每个维度的质量分数。我们进一步发布了VEFX-Bench,这是一个包含300个精选视频-提示对(https://huggingface.co/papers?q=video-prompt%20pairs)的基准测试,用于标准化比较编辑系统。实验表明,VEFX-Reward与人类判断的一致性优于通用VLM评判器和先前的奖励模型(https://huggingface.co/papers?q=reward%20model),在标准IQA/VQA指标和分组偏好评估上均表现更佳。使用VEFX-Reward作为评估器,我们对代表性商业和开源视频编辑(https://huggingface.co/papers?q=video%20editing)系统进行了基准测试,揭示了当前模型在视觉合理性、指令遵循度和编辑局部性之间持续存在的差距。

查看arXiv页面(https://arxiv.org/abs/2604.16272)查看PDF(https://arxiv.org/pdf/2604.16272)项目页面(https://xiangbogaobarry.github.io/VEFX-Bench/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16272)

在您的代理中获取这篇论文:

hf papers read 2604\.16272

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型README.md中引用arxiv.org/abs/2604.16272以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2604.16272以从此页面链接。

引用此论文的Space0

没有Space链接此论文

请在Space README.md中引用arxiv.org/abs/2604.16272以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

CoVEBench:视频编辑模型能否处理复杂指令?

Hugging Face Daily Papers

引入CoVEBench,这是一个用于评估组合视频编辑能力的新基准,解决了现有模型在处理复杂多步骤指令时的局限性。该基准包含416个视频、626条指令和9,990个检查项,揭示当前模型在组合编辑任务中表现不佳。

MVEB:大规模视频嵌入基准

Hugging Face Daily Papers

本文介绍了MVEB,一个大规模的视频嵌入基准,涵盖23个任务,发现没有单一模型占据主导地位,并且音频的贡献取决于数据集注释的来源。它整合到MTEB生态系统中,用于统一的多模态评估。

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。