削减视觉世界建模评估的长尾

Hugging Face Daily Papers 论文

摘要

本文介绍了Tailor-Bench,这是一个系统评估视觉世界模型在不规则物理交互上的基准,揭示了泛化中的长尾差距:模型在常见场景上表现良好,但在非常规和不可能场景上性能下降。

物理交互遵循长尾分布:一组常见且规则的交互主导了人类经验和视觉数据,而大量罕见和不规则的交互则未被充分代表。尽管最近的视觉世界模型,包括图像和视频生成模型,在现有基准上取得了令人印象深刻的逼真度,但它们主要专注于模拟常见的物理交互。这引出了一个核心问题:当前的视觉世界模型是否内化并泛化了物理原理?在这项工作中,我们引入了Tailor-Bench,这是一个挑战世界模型模拟不规则物理交互的基准。为了进行系统评估,我们设计了三种场景模式,逐步挑战模型推理:Regular场景反映常见的工具-任务对,Unconventional场景用属性兼容的替代品替换常规工具以测试功能泛化,Impossible场景引入违反属性的工具以探测约束意识。此外,我们在统一的评估协议下设计了两个互补设置:predictive generation要求在没有指导的情况下推断结果,而descriptive generation指定目标结果以实现忠实实现。我们的实验结果揭示了物理世界建模中的明显长尾差距:性能从Regular到Unconventional再到Impossible场景逐渐下降,表明模型在常见交互之外的泛化能力有限。失败分析进一步表明,模型依赖于表面的视觉模式:图像模型未能实现正确的状态变化,而视频模型还遭受时间不一致性的问题。
查看原文
查看缓存全文

缓存时间: 2026/06/30 07:35

论文页面 - 修剪视觉世界建模评估的长尾分布

来源:https://huggingface.co/papers/2606.24256

摘要

当前的视觉世界模型在常见物理交互之外的泛化能力有限,尽管在标准基准测试中实现了逼真的效果,但在处理罕见和不规则场景时仍显不足。

物理交互 (https://huggingface.co/papers?q=Physical%20interactions)遵循长尾分布 (https://huggingface.co/papers?q=long-tailed%20distribution):一组常见且规则的交互主导着人类经验和视觉数据,而广泛但稀有的不规则交互则未被充分体现。尽管最近的视觉世界模型 (https://huggingface.co/papers?q=visual%20world%20models),包括图像和视频生成 (https://huggingface.co/papers?q=video%20generation)模型,在现有基准测试中表现出惊人的逼真度,但它们主要专注于模拟常见的物理交互 (https://huggingface.co/papers?q=physical%20interactions)。这引出了一个核心问题:当前的视觉世界模型 (https://huggingface.co/papers?q=visual%20world%20models)是否真正内化并泛化了物理原理?在这项工作中,我们引入了 Tailor-Bench,这是一个挑战世界模型模拟不规则物理交互 (https://huggingface.co/papers?q=physical%20interactions)的基准测试。为了实现系统化评估,我们设计了三种场景模式 (https://huggingface.co/papers?q=scenario%20modes),逐步挑战模型推理能力:常规场景 (https://huggingface.co/papers?q=Regular%20scenarios)反映常见的工具-任务配对;非常规场景 (https://huggingface.co/papers?q=Unconventional%20scenarios)用属性兼容的替代品替换传统工具,以测试功能泛化 (https://huggingface.co/papers?q=affordance%20generalization);不可能场景 (https://huggingface.co/papers?q=Impossible%20scenarios)引入属性冲突的工具,探究约束感知 (https://huggingface.co/papers?q=constraint%20awareness)。此外,我们在统一评估协议下设计了两个互补设置:预测生成 (https://huggingface.co/papers?q=predictive%20generation)要求在无指导情况下推断结果,而描述生成 (https://huggingface.co/papers?q=descriptive%20generation)则指定目标结果以实现忠实还原。我们的实验结果表明,物理世界建模存在明显的长尾差距:从常规场景到非常规和不可能场景 (https://huggingface.co/papers?q=Impossible%20scenarios),性能逐渐下降,表明模型在常见交互之外的泛化能力有限。进一步失败分析显示,模型依赖于浅层的视觉模式:图像模型无法实现正确的状态变化,而视频模型则额外存在时间不一致性问题。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24256)查看 PDF (https://arxiv.org/pdf/2606.24256)项目页面 (https://tailor-bench.github.io/)GitHub0 (https://github.com/tailor-bench/code)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24256)

在你的智能体中获取此论文:

hf papers read 2606.24256

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。

引用此论文的 Space0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。

包含此论文的收藏夹0

无收藏夹包含此论文

请将此论文添加到一个收藏夹 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

WBench:面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers

WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。

视觉美学基准:前沿模型能否评判美感?

Hugging Face Daily Papers

视觉美学基准(VAB)通过对比选择评估多模态模型的审美判断能力,揭示其与人类专家的显著差距,并表明基于专家示例的微调可提升准确率。

MemoBench:动态变化环境中世界建模的基准测试

Hugging Face Daily Papers

MemoBench是一个诊断基准,用于评估视频生成模型在动态变化环境中的记忆一致性,其中物体消失并以更新后的状态重新出现。它包括360个真实视频片段和一个结合自动指标与基于VQA评估的测试套件,揭示了记忆一致性挑战的洞见。