WBench：面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers 2026/05/25 00:00 论文

benchmark interactive-world-models multi-turn video-quality consistency physics-compliance evaluation

摘要

WBench是一个全面的多轮基准，用于评估交互式世界模型在五个维度上的表现，包含289个测试用例和1,058次交互轮次，提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。

交互式世界模型正在快速发展，然而现有基准仅覆盖了部分所需能力，缺乏统一的系统评估标准。为填补这一空白，我们提出了WBench，一个综合的多轮基准，用于从五个维度评估交互式世界模型，即视频质量、场景遵守、交互遵守、一致性和物理合规性。WBench包含289个测试用例和1,058次交互轮次，每个用例指定一个世界设置和一个多轮交互序列，涵盖多样化的场景、风格、主体，以及第一人称和第三人称视角，同时包括四种交互类型：导航、主体动作、事件编辑和视角切换。在导航方面，WBench统一了文本、6自由度姿态和离散动作控制，使得能够评估具有不同原生输入接口的模型。评估使用22个自动子指标，结合了专业视觉模型与大型多模态模型，所有指标均经过人类判断验证。在对20个最先进模型的评估中，我们发现没有单一模型能在所有维度上表现强劲。我们提供了每个模型特征优势、劣势和开放挑战的详细诊断洞察。代码和数据可在 https://github.com/meituan-longcat/WBench 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/26 06:43

论文页面 - WBench：交互式视频世界模型评估的综合多轮基准来源：https://huggingface.co/papers/2605.25874

摘要

WBench 提出了一个全面的多轮基准，用于评估交互式世界模型在五个维度上的表现，包含 289 个测试用例和 1,058 轮交互，涵盖了多种场景和交互类型。

交互式世界模型（https://huggingface.co/papers?q=Interactive%20world%20models）发展迅速，但现有基准仅覆盖了部分所需能力，缺乏统一的系统评估标准。为填补这一空白，我们提出了 WBench，这是一个全面的多轮基准（https://huggingface.co/papers?q=multi-turn%20benchmark），用于交互式世界模型评估，涵盖五个维度，即视频质量（https://huggingface.co/papers?q=video%20quality）、设置遵循（https://huggingface.co/papers?q=setting%20adherence）、交互遵循（https://huggingface.co/papers?q=interaction%20adherence）、一致性（https://huggingface.co/papers?q=consistency）和物理规则符合（https://huggingface.co/papers?q=physics%20compliance）。WBench 包含 289 个测试用例和 1,058 轮交互，每个用例指定一个世界设置和一个多轮交互序列，覆盖多种场景、风格、主体，以及第一人称和第三人称视角，同时还包括四种交互类型：导航、主体动作、事件编辑和视角切换。对于导航，WBench 统一了文本、六自由度位姿和离散动作控制，使得评估具有不同原生输入接口的模型成为可能。评估使用 22 个自动子指标（https://huggingface.co/papers?q=automatic%20sub-metrics），结合了专业视觉模型（https://huggingface.co/papers?q=vision%20models）和大型多模态模型（https://huggingface.co/papers?q=multimodal%20models），所有指标均通过人类判断进行验证。在对 20 个最先进模型的评估中，我们发现没有任何一个模型在所有维度上表现强劲。我们提供了详细的诊断性见解，揭示了每个模型的特征优势、不足和待解决的挑战。代码和数据可在 https://github.com/meituan-longcat/WBench 获取。

查看 arXiv 页面（https://arxiv.org/abs/2605.25874）查看 PDF（https://arxiv.org/pdf/2605.25874）项目页面（https://meituan-longcat.github.io/WBench/）GitHub16（https://github.com/meituan-longcat/WBench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.25874）

在您的代理中获取本文：

hf papers read 2605\.25874

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型 0

尚未有模型关联本文

在模型的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。

引用本文的数据集 0

尚未有数据集关联本文

在数据集的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。

引用本文的 Spaces 0

尚未有 Space 关联本文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。

包含本文的收藏集 0

尚未有收藏集包含本文

将本文添加到一个收藏集（https://huggingface.co/new-collection）中即可从本页链接。

WBench：面向交互式视频世界模型评估的综合多轮基准

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

包含本文的收藏集 0

相似文章

MBench：面向视频世界模型记忆能力的综合基准

MemoBench：动态变化环境中世界建模的基准测试

@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好，而视频质量只是最容易注意到的方面。LongCat 刚刚……

MultiView-Bench：一种面向VLMs的世界中心多视角集成诊断基准

WorldBench：一个具有挑战性且视觉多样化的多模态推理基准

提交意见反馈