EvalVerse：面向专业电影级视频生成的流水线感知与专家校准基准测试

Hugging Face Daily Papers 2026/05/22 00:00 论文

摘要

EvalVerse是一个面向专业电影级视频生成的全面评估框架，它利用专家校准的视觉语言模型和多阶段评估，弥合人类审美判断与机器评分之间的鸿沟。

生成式视频基础模型的快速演进已将该领域推向专业级别的电影合成。为了实现如此苛刻的质量，社区正转向强化学习（RL）和智能体工作流。然而，可靠的评估已成为一个关键瓶颈。现有的基准主要评估“是否正确”（基本的提示遵循），而从根本上忽略了“是否优质”（电影质量、表演和美学）。此外，当前的自动化指标缺乏领域特定的严谨性，无法提供可信的信号，这造成了人类审美感知与机器评分之间的严重可信度鸿沟。为弥合这一鸿沟，我们引入了EvalVerse——一个全面、流水线感知且经过专家校准的评估框架。我们不仅将视频生成评估视为一项工程任务，而是将其作为一个核心科学问题：对主观电影专业知识的系统数字化。首先，我们将领域知识组织成一个与专业电影制作流程（前期制作、制作和后期制作）一致的评估分类法。其次，我们将人类专家判断提炼为一个包含大规模人类注释的精选数据集。第三，我们通过专家校准的微调策略将这种知识注入视觉语言模型（VLM），使VLM能够执行显式的思维链推理。与以往工作相比，EvalVerse不仅保持与基础“正确性”指标的兼容性，还显著扩展了“优质性”标准，并将任务覆盖范围扩大到复杂的多镜头序列和视听集成。因此，通过提供细粒度的诊断信号，EvalVerse超越了静态排行榜，为未来工作（如奖励模型和评估代理）建立了基础基础设施。

查看原文

查看缓存全文

缓存时间: 2026/05/27 02:47

论文页面 - EvalVerse：面向专业影视视频生成的流水线感知与专家校准评估基准

来源：https://huggingface.co/papers/2605.23271 发布于 5 月 22 日

由 https://huggingface.co/EddieYang428 提交

Eddie (https://huggingface.co/EddieYang428) 于 5 月 27 日

#2 每日论文 (https://huggingface.co/papers/date/2026-05-27) 作者：

摘要

EvalVerse 提出了一套面向生成式视频模型的全面评估框架，通过专家校准的视觉语言模型与多阶段影视评估，弥合人类审美判断与机器评分之间的鸿沟。

生成式视频基础模型的快速演进已将该领域推向专业级影视合成。为了达到如此严苛的质量要求，社区正转向强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) (RL) 与智能体工作流 (https://huggingface.co/papers?q=agentic%20workflows)。然而，可靠的评估已成为关键瓶颈。现有基准主要评估“是否正确”（基本的提示遵循），却从根本上忽略了“是否优秀”（影视质量、表演与审美）。此外，当前自动指标缺乏领域特定的严谨性，无法提供可信的信号，导致人类审美感知与机器评分之间存在严重的可信度缺口。为弥合这一缺口，我们提出了 EvalVerse——一个全面、流水线感知且专家校准的评估框架。我们不再将视频生成评估 (https://huggingface.co/papers?q=video%20generation%20assessment) 仅视为一项工程任务，而是将其视为一个核心科学问题：对主观影视专业知识的系统化数字化。首先，我们按照专业电影制作流程（前期、制作、后期）将领域知识组织成评估分类体系 (https://huggingface.co/papers?q=evaluation%20taxonomy)。其次，我们将人类专家判断 (https://huggingface.co/papers?q=human%20expert%20judgments) 提炼为一个包含大规模人工标注的精选数据集。第三，我们通过专家校准的微调 (https://huggingface.co/papers?q=expert-calibrated%20fine-tuning) 策略将此类知识注入视觉语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models) (VLM) 中，使 VLM 能够执行显式的思维链推理 (https://huggingface.co/papers?q=Chain-of-Thought%20reasoning)。与先前工作相比，EvalVerse 不仅保留了与基础“正确性”指标的兼容性，还显著扩展了“优秀性”标准，并将任务覆盖范围拓宽至复杂的多镜头序列 (https://huggingface.co/papers?q=multi-shot%20sequencing) 与视听整合 (https://huggingface.co/papers?q=audio-visual%20integration)。因此，通过提供细粒度的诊断信号，EvalVerse 超越了静态排行榜，为未来工作（如奖励模型 (https://huggingface.co/papers?q=reward%20models) 与评估智能体 (https://huggingface.co/papers?q=evaluator%20agent)）奠定了基本基础设施。

查看 arXiv 页面 (https://arxiv.org/abs/2605.23271)查看 PDF (https://arxiv.org/pdf/2605.23271)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.23271)

在您的智能体中获取这篇论文：

hf papers read 2605\.23271

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

尚无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.23271 以从本页链接。

引用此论文的数据集 0

尚无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.23271 以从本页链接。

引用此论文的 Space 0

尚无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.23271 以从本页链接。

包含此论文的收藏 0

尚无收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。

EvalVerse：面向专业电影级视频生成的流水线感知与专家校准基准测试

论文页面 - EvalVerse：面向专业影视视频生成的流水线感知与专家校准评估基准

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 0

相似文章

VEFX-Bench：通用视频编辑与视觉特效的全方位基准

MSAVBench：迈向多镜头音视频生成的全面可靠评估

CoVEBench：视频编辑模型能否处理复杂指令？

我构建了一个专注于电影真实感的AI视频生成器，而非典型的“AI风格”

SVI-Bench：战略视频智能的动态微世界

提交意见反馈