WBench:面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers 论文

摘要

WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。

交互式世界模型正在快速发展,然而现有基准仅覆盖了部分所需能力,缺乏统一的系统评估标准。为填补这一空白,我们提出了WBench,一个综合的多轮基准,用于从五个维度评估交互式世界模型,即视频质量、场景遵守、交互遵守、一致性和物理合规性。WBench包含289个测试用例和1,058次交互轮次,每个用例指定一个世界设置和一个多轮交互序列,涵盖多样化的场景、风格、主体,以及第一人称和第三人称视角,同时包括四种交互类型:导航、主体动作、事件编辑和视角切换。在导航方面,WBench统一了文本、6自由度姿态和离散动作控制,使得能够评估具有不同原生输入接口的模型。评估使用22个自动子指标,结合了专业视觉模型与大型多模态模型,所有指标均经过人类判断验证。在对20个最先进模型的评估中,我们发现没有单一模型能在所有维度上表现强劲。我们提供了每个模型特征优势、劣势和开放挑战的详细诊断洞察。代码和数据可在 https://github.com/meituan-longcat/WBench 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/26 06:43

论文页面 - WBench:交互式视频世界模型评估的综合多轮基准 来源:https://huggingface.co/papers/2605.25874

摘要

WBench 提出了一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含 289 个测试用例和 1,058 轮交互,涵盖了多种场景和交互类型。

交互式世界模型(https://huggingface.co/papers?q=Interactive%20world%20models)发展迅速,但现有基准仅覆盖了部分所需能力,缺乏统一的系统评估标准。为填补这一空白,我们提出了 WBench,这是一个全面的多轮基准(https://huggingface.co/papers?q=multi-turn%20benchmark),用于交互式世界模型评估,涵盖五个维度,即视频质量(https://huggingface.co/papers?q=video%20quality)、设置遵循(https://huggingface.co/papers?q=setting%20adherence)、交互遵循(https://huggingface.co/papers?q=interaction%20adherence)、一致性(https://huggingface.co/papers?q=consistency)和物理规则符合(https://huggingface.co/papers?q=physics%20compliance)。WBench 包含 289 个测试用例和 1,058 轮交互,每个用例指定一个世界设置和一个多轮交互序列,覆盖多种场景、风格、主体,以及第一人称和第三人称视角,同时还包括四种交互类型:导航、主体动作、事件编辑和视角切换。对于导航,WBench 统一了文本、六自由度位姿和离散动作控制,使得评估具有不同原生输入接口的模型成为可能。评估使用 22 个自动子指标(https://huggingface.co/papers?q=automatic%20sub-metrics),结合了专业视觉模型(https://huggingface.co/papers?q=vision%20models)和大型多模态模型(https://huggingface.co/papers?q=multimodal%20models),所有指标均通过人类判断进行验证。在对 20 个最先进模型的评估中,我们发现没有任何一个模型在所有维度上表现强劲。我们提供了详细的诊断性见解,揭示了每个模型的特征优势、不足和待解决的挑战。代码和数据可在 https://github.com/meituan-longcat/WBench 获取。

查看 arXiv 页面(https://arxiv.org/abs/2605.25874)查看 PDF(https://arxiv.org/pdf/2605.25874)项目页面(https://meituan-longcat.github.io/WBench/)GitHub16(https://github.com/meituan-longcat/WBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.25874)

在您的代理中获取本文:

hf papers read 2605\.25874

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型 0

尚未有模型关联本文

在模型的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。

引用本文的数据集 0

尚未有数据集关联本文

在数据集的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。

引用本文的 Spaces 0

尚未有 Space 关联本文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。

包含本文的收藏集 0

尚未有收藏集包含本文

将本文添加到一个收藏集(https://huggingface.co/new-collection)中即可从本页链接。

相似文章

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。