MemoBench:动态变化环境中世界建模的基准测试
摘要
MemoBench是一个诊断基准,用于评估视频生成模型在动态变化环境中的记忆一致性,其中物体消失并以更新后的状态重新出现。它包括360个真实视频片段和一个结合自动指标与基于VQA评估的测试套件,揭示了记忆一致性挑战的洞见。
查看缓存全文
缓存时间: 2026/06/29 18:04
论文页面 - MemoBench:动态变化环境中世界建模的基准测试
来源: https://huggingface.co/papers/2606.27537 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
MemoBench 提出了一个诊断基准,用于评估视频生成模型在动态变化环境中的记忆一致性——当物体消失并以更新状态重新出现时。
视频生成模型 (https://huggingface.co/papers?q=Video%20generation%20models) 旨在模拟动态环境,目前已有多个基准测试评估帧间的记忆一致性 (https://huggingface.co/papers?q=memory%20consistency)。然而,大多数基准仅在目标物体保持在视野内时评估一致性;少数迫使物体离开视野的测试,也只评估遮挡期间没有任何变化的静态场景。为了弥补这一空白,我们提出了 MemoBench——一个围绕 消失-重现范式 (https://huggingface.co/papers?q=disappear-and-reappear%20paradigm) 构建的诊断基准 (https://huggingface.co/papers?q=diagnostic%20benchmark),适用于动态变化环境:目标物体经历一个物理过程后从视野中消失,并在重新出现时必须正确地以其更新后的状态被恢复。我们整理了 360 个涵盖合成场景和真实世界场景的真实片段,并设计了一套评估套件,将自动评估指标与基于 VQA 的评估 (https://huggingface.co/papers?q=VQA-based%20assessment) 相结合,覆盖四个诊断支柱。对八种最先进模型的评估揭示了在 消失-重现范式 (https://huggingface.co/papers?q=disappear-and-reappear%20paradigm) 下关于记忆一致性 (https://huggingface.co/papers?q=memory%20consistency) 的关键洞见和开放挑战。
查看 arXiv 页面 (https://arxiv.org/abs/2606.27537)
查看 PDF (https://arxiv.org/pdf/2606.27537)
项目页面 (https://memobench-team.github.io/)
GitHub2 (https://github.com/MemoBench-Team/MemoBench)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.27537)
在您的 Agent 中获取此论文:
hf papers read 2606.27537
没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.27537 以从此页面链接。
引用此论文的数据集 1
tonyc54/MemoBench 更新于约 1 小时前 • 35 • 2 (https://huggingface.co/datasets/tonyc54/MemoBench)
引用此论文的 Space 1
包含此论文的收藏集 0
没有包含此论文的收藏集
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
MBench:面向视频世界模型记忆能力的综合基准
本文介绍了MBench,一个用于评估视频世界模型在长时间跨度下对实体、环境和因果一致性记忆能力的基准。
MedBench v5:面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试
MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试,集成了幻觉检测和压力测试,超越静态问答,评估在信息流压力下的推理和稳定性。
WBench:面向交互式视频世界模型评估的综合多轮基准
WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
M^3Eval:基于认知心理学的视频任务多模态记忆评估
M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。