MBench:面向视频世界模型记忆能力的综合基准
摘要
本文介绍了MBench,一个用于评估视频世界模型在长时间跨度下对实体、环境和因果一致性记忆能力的基准。
查看缓存全文
缓存时间: 2026/06/15 09:03
论文页面 - MBench:视频世界模型记忆能力的全面基准测试
来源:https://huggingface.co/papers/2606.00793
作者:
(空白)
摘要
提出了一项名为 MBench 的新基准测试,用于评估视频世界模型的记忆能力,重点关注实体、环境和因果一致性在扩展时间跨度上的表现。
近年来基于视频的世界模型在合成高保真视觉序列方面展现出前所未有的能力。然而,在视觉上合理的视频生成与世界模型的功能要求之间仍存在根本性差距,尤其是在长时间跨度内维持稳定且合理的内部状态方面。现有基准测试主要强调视觉质量、运动连贯性和文本-视频对齐,却很大程度上忽略了记忆——即世界模型在长期跨度与复杂交互中保持一致性的核心能力。为填补这一空白,我们提出了 MBench,一个专门用于量化和评估视频世界模型记忆能力的综合基准测试。我们系统地将视频世界模型的记忆能力分解为三个层次化且互补的核心维度:实体一致性、环境一致性和因果一致性,并进一步细化为12个可量化的子维度,以全面表征长期记忆。我们的基准测试基于严格筛选的真实长视频构建,并通过基于规则的量化矩阵和视觉语言模型进行客观、全面的一致性评估。对主流先进视频世界模型的广泛评估揭示了现有方法在长期状态保持方面的关键系统性局限,为推进该领域提供了标准化基准和清晰的研究方向。
查看 arXiv 页面 (https://arxiv.org/abs/2606.00793)查看 PDF (https://arxiv.org/pdf/2606.00793)项目页面 (https://peanutup.github.io/MBench-project/)GitHub13 (https://github.com/study-overflow/MBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.00793)
在你的代理中获取这篇论文:
hf papers read 2606\.00793
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.00793 以从本页链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.00793 以从本页链接。
引用此论文的空间 0
没有空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2606.00793 以从本页链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
WBench:面向交互式视频世界模型评估的综合多轮基准
WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
M^3Eval:基于认知心理学的视频任务多模态记忆评估
M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。
@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好,而视频质量只是最容易注意到的方面。LongCat 刚刚……
LongCat 发布了 WBench,这是一个用于视频世界模型的基准测试,通过 289 个案例和 20 个模型,测试了控制、记忆、指令遵循和物理合理性,发现没有模型在所有维度上都表现出色,凸显了视频质量与真实世界模拟之间的差距。
DMV-Bench: 通过偶然线索注入诊断长周期多模态智能体的视觉记忆
介绍DMV-Bench,一个用于评估多模态智能体视觉记忆的交互式基准测试,该测试利用产品图像中的偶然视觉线索,并提出了DualMem,一种双编码记忆架构,在各种链长度上优于纯文本和其他多模态基线。