MemoBench:动态变化环境中世界建模的基准测试

Hugging Face Daily Papers 论文

摘要

MemoBench是一个诊断基准,用于评估视频生成模型在动态变化环境中的记忆一致性,其中物体消失并以更新后的状态重新出现。它包括360个真实视频片段和一个结合自动指标与基于VQA评估的测试套件,揭示了记忆一致性挑战的洞见。

视频生成模型旨在模拟动态环境,现有多个基准测试评估帧间的记忆一致性。然而,大多数基准仅在目标保持可见时评估一致性,少数强迫物体离开视野的测试则评估遮挡期间无变化的静态场景。为弥补这一差距,我们引入了MemoBench,这是一个围绕动态变化环境中消失与重现范式构建的诊断基准:目标物体经历一个物理过程,从视野中消失,并在重新出现时必须正确恢复其更新后的状态。我们整理了涵盖合成和真实场景的360个真实视频片段,并设计了一个评估套件,结合自动化指标和基于VQA的评估,覆盖四个诊断维度。对八个最先进模型的评估揭示了在消失与重现范式下记忆一致性的关键见解和开放挑战。
查看原文
查看缓存全文

缓存时间: 2026/06/29 18:04

论文页面 - MemoBench:动态变化环境中世界建模的基准测试

来源: https://huggingface.co/papers/2606.27537 作者:

,

,

,

,

,

,

,

,

,

,

,

,

摘要

MemoBench 提出了一个诊断基准,用于评估视频生成模型在动态变化环境中的记忆一致性——当物体消失并以更新状态重新出现时。

视频生成模型 (https://huggingface.co/papers?q=Video%20generation%20models) 旨在模拟动态环境,目前已有多个基准测试评估帧间的记忆一致性 (https://huggingface.co/papers?q=memory%20consistency)。然而,大多数基准仅在目标物体保持在视野内时评估一致性;少数迫使物体离开视野的测试,也只评估遮挡期间没有任何变化的静态场景。为了弥补这一空白,我们提出了 MemoBench——一个围绕 消失-重现范式 (https://huggingface.co/papers?q=disappear-and-reappear%20paradigm) 构建的诊断基准 (https://huggingface.co/papers?q=diagnostic%20benchmark),适用于动态变化环境:目标物体经历一个物理过程后从视野中消失,并在重新出现时必须正确地以其更新后的状态被恢复。我们整理了 360 个涵盖合成场景和真实世界场景的真实片段,并设计了一套评估套件,将自动评估指标与基于 VQA 的评估 (https://huggingface.co/papers?q=VQA-based%20assessment) 相结合,覆盖四个诊断支柱。对八种最先进模型的评估揭示了在 消失-重现范式 (https://huggingface.co/papers?q=disappear-and-reappear%20paradigm) 下关于记忆一致性 (https://huggingface.co/papers?q=memory%20consistency) 的关键洞见和开放挑战。

查看 arXiv 页面 (https://arxiv.org/abs/2606.27537)
查看 PDF (https://arxiv.org/pdf/2606.27537)
项目页面 (https://memobench-team.github.io/)
GitHub2 (https://github.com/MemoBench-Team/MemoBench)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.27537)

在您的 Agent 中获取此论文:

hf papers read 2606.27537

没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.27537 以从此页面链接。

引用此论文的数据集 1

tonyc54/MemoBench 更新于约 1 小时前 • 35 • 2 (https://huggingface.co/datasets/tonyc54/MemoBench)

引用此论文的 Space 1

包含此论文的收藏集 0

没有包含此论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

WBench:面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers

WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。