削减视觉世界建模评估的长尾

Hugging Face Daily Papers 2026/06/23 00:00 论文

摘要

本文介绍了Tailor-Bench，这是一个系统评估视觉世界模型在不规则物理交互上的基准，揭示了泛化中的长尾差距：模型在常见场景上表现良好，但在非常规和不可能场景上性能下降。

物理交互遵循长尾分布：一组常见且规则的交互主导了人类经验和视觉数据，而大量罕见和不规则的交互则未被充分代表。尽管最近的视觉世界模型，包括图像和视频生成模型，在现有基准上取得了令人印象深刻的逼真度，但它们主要专注于模拟常见的物理交互。这引出了一个核心问题：当前的视觉世界模型是否内化并泛化了物理原理？在这项工作中，我们引入了Tailor-Bench，这是一个挑战世界模型模拟不规则物理交互的基准。为了进行系统评估，我们设计了三种场景模式，逐步挑战模型推理：Regular场景反映常见的工具-任务对，Unconventional场景用属性兼容的替代品替换常规工具以测试功能泛化，Impossible场景引入违反属性的工具以探测约束意识。此外，我们在统一的评估协议下设计了两个互补设置：predictive generation要求在没有指导的情况下推断结果，而descriptive generation指定目标结果以实现忠实实现。我们的实验结果揭示了物理世界建模中的明显长尾差距：性能从Regular到Unconventional再到Impossible场景逐渐下降，表明模型在常见交互之外的泛化能力有限。失败分析进一步表明，模型依赖于表面的视觉模式：图像模型未能实现正确的状态变化，而视频模型还遭受时间不一致性的问题。

查看原文

查看缓存全文

缓存时间: 2026/06/30 07:35

论文页面 - 修剪视觉世界建模评估的长尾分布

来源：https://huggingface.co/papers/2606.24256

摘要

当前的视觉世界模型在常见物理交互之外的泛化能力有限，尽管在标准基准测试中实现了逼真的效果，但在处理罕见和不规则场景时仍显不足。

物理交互 (https://huggingface.co/papers?q=Physical%20interactions)遵循长尾分布 (https://huggingface.co/papers?q=long-tailed%20distribution)：一组常见且规则的交互主导着人类经验和视觉数据，而广泛但稀有的不规则交互则未被充分体现。尽管最近的视觉世界模型 (https://huggingface.co/papers?q=visual%20world%20models)，包括图像和视频生成 (https://huggingface.co/papers?q=video%20generation)模型，在现有基准测试中表现出惊人的逼真度，但它们主要专注于模拟常见的物理交互 (https://huggingface.co/papers?q=physical%20interactions)。这引出了一个核心问题：当前的视觉世界模型 (https://huggingface.co/papers?q=visual%20world%20models)是否真正内化并泛化了物理原理？在这项工作中，我们引入了 Tailor-Bench，这是一个挑战世界模型模拟不规则物理交互 (https://huggingface.co/papers?q=physical%20interactions)的基准测试。为了实现系统化评估，我们设计了三种场景模式 (https://huggingface.co/papers?q=scenario%20modes)，逐步挑战模型推理能力：常规场景 (https://huggingface.co/papers?q=Regular%20scenarios)反映常见的工具-任务配对；非常规场景 (https://huggingface.co/papers?q=Unconventional%20scenarios)用属性兼容的替代品替换传统工具，以测试功能泛化 (https://huggingface.co/papers?q=affordance%20generalization)；不可能场景 (https://huggingface.co/papers?q=Impossible%20scenarios)引入属性冲突的工具，探究约束感知 (https://huggingface.co/papers?q=constraint%20awareness)。此外，我们在统一评估协议下设计了两个互补设置：预测生成 (https://huggingface.co/papers?q=predictive%20generation)要求在无指导情况下推断结果，而描述生成 (https://huggingface.co/papers?q=descriptive%20generation)则指定目标结果以实现忠实还原。我们的实验结果表明，物理世界建模存在明显的长尾差距：从常规场景到非常规和不可能场景 (https://huggingface.co/papers?q=Impossible%20scenarios)，性能逐渐下降，表明模型在常见交互之外的泛化能力有限。进一步失败分析显示，模型依赖于浅层的视觉模式：图像模型无法实现正确的状态变化，而视频模型则额外存在时间不一致性问题。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24256)查看 PDF (https://arxiv.org/pdf/2606.24256)项目页面 (https://tailor-bench.github.io/)GitHub0 (https://github.com/tailor-bench/code)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24256)

在你的智能体中获取此论文：

hf papers read 2606.24256

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。

引用此论文的 Space0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.24256 以从此页面链接。

包含此论文的收藏夹0

无收藏夹包含此论文

请将此论文添加到一个收藏夹 (https://huggingface.co/new-collection) 以从此页面链接。

削减视觉世界建模评估的长尾

论文页面 - 修剪视觉世界建模评估的长尾分布

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏夹0

相似文章

WBench：面向交互式视频世界模型评估的综合多轮基准

视觉美学基准：前沿模型能否评判美感？

WorldBench：一个具有挑战性且视觉多样化的多模态推理基准

MemoBench：动态变化环境中世界建模的基准测试

@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好，而视频质量只是最容易注意到的方面。LongCat 刚刚……

提交意见反馈