削减视觉世界建模评估的长尾
摘要
本文介绍了Tailor-Bench,这是一个系统评估视觉世界模型在不规则物理交互上的基准,揭示了泛化中的长尾差距:模型在常见场景上表现良好,但在非常规和不可能场景上性能下降。
查看缓存全文
缓存时间: 2026/06/30 07:35
论文页面 - 修剪视觉世界建模评估的长尾分布
来源:https://huggingface.co/papers/2606.24256
摘要
当前的视觉世界模型在常见物理交互之外的泛化能力有限,尽管在标准基准测试中实现了逼真的效果,但在处理罕见和不规则场景时仍显不足。
物理交互 (https://huggingface.co/papers?q=Physical%20interactions)遵循长尾分布 (https://huggingface.co/papers?q=long-tailed%20distribution):一组常见且规则的交互主导着人类经验和视觉数据,而广泛但稀有的不规则交互则未被充分体现。尽管最近的视觉世界模型 (https://huggingface.co/papers?q=visual%20world%20models),包括图像和视频生成 (https://huggingface.co/papers?q=video%20generation)模型,在现有基准测试中表现出惊人的逼真度,但它们主要专注于模拟常见的物理交互 (https://huggingface.co/papers?q=physical%20interactions)。这引出了一个核心问题:当前的视觉世界模型 (https://huggingface.co/papers?q=visual%20world%20models)是否真正内化并泛化了物理原理?在这项工作中,我们引入了 Tailor-Bench,这是一个挑战世界模型模拟不规则物理交互 (https://huggingface.co/papers?q=physical%20interactions)的基准测试。为了实现系统化评估,我们设计了三种场景模式 (https://huggingface.co/papers?q=scenario%20modes),逐步挑战模型推理能力:常规场景 (https://huggingface.co/papers?q=Regular%20scenarios)反映常见的工具-任务配对;非常规场景 (https://huggingface.co/papers?q=Unconventional%20scenarios)用属性兼容的替代品替换传统工具,以测试功能泛化 (https://huggingface.co/papers?q=affordance%20generalization);不可能场景 (https://huggingface.co/papers?q=Impossible%20scenarios)引入属性冲突的工具,探究约束感知 (https://huggingface.co/papers?q=constraint%20awareness)。此外,我们在统一评估协议下设计了两个互补设置:预测生成 (https://huggingface.co/papers?q=predictive%20generation)要求在无指导情况下推断结果,而描述生成 (https://huggingface.co/papers?q=descriptive%20generation)则指定目标结果以实现忠实还原。我们的实验结果表明,物理世界建模存在明显的长尾差距:从常规场景到非常规和不可能场景 (https://huggingface.co/papers?q=Impossible%20scenarios),性能逐渐下降,表明模型在常见交互之外的泛化能力有限。进一步失败分析显示,模型依赖于浅层的视觉模式:图像模型无法实现正确的状态变化,而视频模型则额外存在时间不一致性问题。
查看 arXiv 页面 (https://arxiv.org/abs/2606.24256)查看 PDF (https://arxiv.org/pdf/2606.24256)项目页面 (https://tailor-bench.github.io/)GitHub0 (https://github.com/tailor-bench/code)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24256)
在你的智能体中获取此论文:
hf papers read 2606.24256
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。
引用此论文的 Space0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。
包含此论文的收藏夹0
无收藏夹包含此论文
请将此论文添加到一个收藏夹 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
WBench:面向交互式视频世界模型评估的综合多轮基准
WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。
视觉美学基准:前沿模型能否评判美感?
视觉美学基准(VAB)通过对比选择评估多模态模型的审美判断能力,揭示其与人类专家的显著差距,并表明基于专家示例的微调可提升准确率。
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。
MemoBench:动态变化环境中世界建模的基准测试
MemoBench是一个诊断基准,用于评估视频生成模型在动态变化环境中的记忆一致性,其中物体消失并以更新后的状态重新出现。它包括360个真实视频片段和一个结合自动指标与基于VQA评估的测试套件,揭示了记忆一致性挑战的洞见。
@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好,而视频质量只是最容易注意到的方面。LongCat 刚刚……
LongCat 发布了 WBench,这是一个用于视频世界模型的基准测试,通过 289 个案例和 20 个模型,测试了控制、记忆、指令遵循和物理合理性,发现没有模型在所有维度上都表现出色,凸显了视频质量与真实世界模拟之间的差距。