WBench:面向交互式视频世界模型评估的综合多轮基准
摘要
WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。
查看缓存全文
缓存时间: 2026/05/26 06:43
论文页面 - WBench:交互式视频世界模型评估的综合多轮基准 来源:https://huggingface.co/papers/2605.25874
摘要
WBench 提出了一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含 289 个测试用例和 1,058 轮交互,涵盖了多种场景和交互类型。
交互式世界模型(https://huggingface.co/papers?q=Interactive%20world%20models)发展迅速,但现有基准仅覆盖了部分所需能力,缺乏统一的系统评估标准。为填补这一空白,我们提出了 WBench,这是一个全面的多轮基准(https://huggingface.co/papers?q=multi-turn%20benchmark),用于交互式世界模型评估,涵盖五个维度,即视频质量(https://huggingface.co/papers?q=video%20quality)、设置遵循(https://huggingface.co/papers?q=setting%20adherence)、交互遵循(https://huggingface.co/papers?q=interaction%20adherence)、一致性(https://huggingface.co/papers?q=consistency)和物理规则符合(https://huggingface.co/papers?q=physics%20compliance)。WBench 包含 289 个测试用例和 1,058 轮交互,每个用例指定一个世界设置和一个多轮交互序列,覆盖多种场景、风格、主体,以及第一人称和第三人称视角,同时还包括四种交互类型:导航、主体动作、事件编辑和视角切换。对于导航,WBench 统一了文本、六自由度位姿和离散动作控制,使得评估具有不同原生输入接口的模型成为可能。评估使用 22 个自动子指标(https://huggingface.co/papers?q=automatic%20sub-metrics),结合了专业视觉模型(https://huggingface.co/papers?q=vision%20models)和大型多模态模型(https://huggingface.co/papers?q=multimodal%20models),所有指标均通过人类判断进行验证。在对 20 个最先进模型的评估中,我们发现没有任何一个模型在所有维度上表现强劲。我们提供了详细的诊断性见解,揭示了每个模型的特征优势、不足和待解决的挑战。代码和数据可在 https://github.com/meituan-longcat/WBench 获取。
查看 arXiv 页面(https://arxiv.org/abs/2605.25874)查看 PDF(https://arxiv.org/pdf/2605.25874)项目页面(https://meituan-longcat.github.io/WBench/)GitHub16(https://github.com/meituan-longcat/WBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.25874)
在您的代理中获取本文:
hf papers read 2605\.25874
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型 0
尚未有模型关联本文
在模型的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。
引用本文的数据集 0
尚未有数据集关联本文
在数据集的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。
引用本文的 Spaces 0
尚未有 Space 关联本文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.25874 即可从本页链接。
包含本文的收藏集 0
尚未有收藏集包含本文
将本文添加到一个收藏集(https://huggingface.co/new-collection)中即可从本页链接。
相似文章
@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好,而视频质量只是最容易注意到的方面。LongCat 刚刚……
LongCat 发布了 WBench,这是一个用于视频世界模型的基准测试,通过 289 个案例和 20 个模型,测试了控制、记忆、指令遵循和物理合理性,发现没有模型在所有维度上都表现出色,凸显了视频质量与真实世界模拟之间的差距。
SVI-Bench:战略视频智能的动态微世界
介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。
WorldReasonBench:将视频生成器作为未来世界状态预测器进行人类对齐的压力测试
本文介绍了 WorldReasonBench 和 WorldRewardBench,这两个新基准旨在评估视频生成模型对世界状态演变和物理一致性的推理能力。研究突显了当前商业视频生成器在视觉合理性与真实逻辑推理之间存在的差距。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
minWM:用于实时交互式视频世界模型的全栈开源框架
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。