MBench：面向视频世界模型记忆能力的综合基准

Hugging Face Daily Papers 2026/06/08 00:00 论文

摘要

本文介绍了MBench，一个用于评估视频世界模型在长时间跨度下对实体、环境和因果一致性记忆能力的基准。

近年来，基于视频的世界模型在合成高保真视觉序列方面展现了前所未有的能力。然而，视觉上合理的视频生成与世界模型的功能需求之间仍存在根本性差距，特别是在长时间跨度内维持稳定且合理的内部状态方面。现有基准主要强调视觉质量、运动连贯性和文本-视频对齐，却很大程度上忽视了记忆——即世界模型在长期交互中保持一致性的核心能力。为弥补这一空白，我们提出了MBench，一个专门量化和评估视频世界模型记忆能力的综合基准。我们将视频世界模型的记忆能力系统性地分解为三个层次化和互补的核心维度：实体一致性、环境一致性和因果一致性，并进一步细化为12个可量化的子维度，以全面刻画长期记忆。我们的基准基于严格收集的真实长视频构建，并通过基于规则的量化矩阵和VLM进行评估，以实现客观且全面的一致性评估。对主流最新视频世界模型的广泛评估揭示了现有方法在长期状态保持方面的关键系统性局限，为该领域提供了标准化基准和清晰的研究方向。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:03

论文页面 - MBench：视频世界模型记忆能力的全面基准测试

来源：https://huggingface.co/papers/2606.00793
作者：

（空白）

摘要

提出了一项名为 MBench 的新基准测试，用于评估视频世界模型的记忆能力，重点关注实体、环境和因果一致性在扩展时间跨度上的表现。

近年来基于视频的世界模型在合成高保真视觉序列方面展现出前所未有的能力。然而，在视觉上合理的视频生成与世界模型的功能要求之间仍存在根本性差距，尤其是在长时间跨度内维持稳定且合理的内部状态方面。现有基准测试主要强调视觉质量、运动连贯性和文本-视频对齐，却很大程度上忽略了记忆——即世界模型在长期跨度与复杂交互中保持一致性的核心能力。为填补这一空白，我们提出了 MBench，一个专门用于量化和评估视频世界模型记忆能力的综合基准测试。我们系统地将视频世界模型的记忆能力分解为三个层次化且互补的核心维度：实体一致性、环境一致性和因果一致性，并进一步细化为12个可量化的子维度，以全面表征长期记忆。我们的基准测试基于严格筛选的真实长视频构建，并通过基于规则的量化矩阵和视觉语言模型进行客观、全面的一致性评估。对主流先进视频世界模型的广泛评估揭示了现有方法在长期状态保持方面的关键系统性局限，为推进该领域提供了标准化基准和清晰的研究方向。

查看 arXiv 页面 (https://arxiv.org/abs/2606.00793)查看 PDF (https://arxiv.org/pdf/2606.00793)项目页面 (https://peanutup.github.io/MBench-project/)GitHub13 (https://github.com/study-overflow/MBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.00793)

在你的代理中获取这篇论文：

hf papers read 2606\.00793

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.00793 以从本页链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.00793 以从本页链接。

引用此论文的空间 0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2606.00793 以从本页链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。

MBench：面向视频世界模型记忆能力的综合基准

论文页面 - MBench：视频世界模型记忆能力的全面基准测试

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的收藏 0

相似文章

WBench：面向交互式视频世界模型评估的综合多轮基准

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

M^3Eval：基于认知心理学的视频任务多模态记忆评估

@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好，而视频质量只是最容易注意到的方面。LongCat 刚刚……

DMV-Bench: 通过偶然线索注入诊断长周期多模态智能体的视觉记忆

提交意见反馈