WorldOlympiad:您的世界模型能通过三项全能测试吗?

Hugging Face Daily Papers 论文

摘要

WorldOlympiad 提出了一个全面的基准测试,用于评估基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的表现,揭示了当前生成模型的显著差距。

我们提出了 WorldOlympiad,这是一个用于诊断基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的基准测试。现有基准测试通常关注视觉质量、语义对齐或短时间的时间连贯性,但很少能揭示生成的视频是否遵循物理规则、保持连贯的 3D 结构,并在长时间跨度内支持可控交互。为填补这一空白,WorldOlympiad 将世界模型评估分解为三个互补维度。物理轨迹使用对象分割和多模态大语言模型作为评判,以评估生成的视频是否遵循力学、热现象和材料属性中的可解释规则。几何轨迹通过高斯泼溅重建生成的视频,并评估结构一致性、跨视图连贯性和相机轨迹对齐。交互轨迹评估生成的视频序列是否遵循复杂的动作提示,并在连续视频片段之间保持平滑连贯的过渡。WorldOlympiad 进一步涵盖三个主要下游场景,包括游戏、机器人和通用真实世界视频,捕捉从交互控制和具身操作到开放域运动和相机动态的多样化挑战。这些轨迹和场景共同构成了一个可扩展且可解释的评估套件,揭示了超出通用视频质量的失败模式。在最新模型上的实验揭示了在物理推理、3D 一致性和长时间交互方面的显著差距,强调了为生成式世界模型设计更结构化评估协议的必要性。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:44

论文页面 - WorldOlympiad:您的世界模型能经受三项全能考验吗?

来源:https://huggingface.co/papers/2606.11129 作者:

,

,

,

,

,

,

,

,

,

摘要

WorldOlympiad 提出了一个全面的基准测试,用于评估基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的表现,揭示了当前生成模型能力上的显著差距。

我们引入了 WorldOlympiad,一个用于诊断基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的基准测试。现有基准测试通常侧重于视觉质量、语义对齐或短期时间一致性,但在判断生成视频是否遵循物理规律、保持连贯的三维结构以及维持可控的长时间交互方面提供的洞察有限。为解决这一差距,WorldOlympiad 将世界模型评估分解为三个互补维度。物理轨道使用目标分割和多模态大语言模型作为裁判,评估生成视频是否遵循力学、热现象和材料属性方面的可解释规则。几何轨道通过高斯泼溅重建生成视频,并评估结构一致性、跨视角连贯性和相机轨迹对齐。交互轨道评估生成视频是否遵循复杂的动作提示,并在连续视频片段之间保持平滑、连贯的过渡。WorldOlympiad 还覆盖了三个主要下游场景,包括游戏、机器人和通用真实世界视频,捕捉了从交互控制和具身操作到开放领域运动与相机动力学的多样化挑战。这些轨道和场景共同构成了一个可扩展且可解释的评估套件,暴露了超出通用视频质量的失败模式。在最新模型上的实验揭示了物理推理、三维一致性和长时程交互方面的显著差距,凸显了对生成式世界模型采用更结构化评估协议的必要性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11129)查看 PDF (https://arxiv.org/pdf/2606.11129)项目页面 (https://alibaba-damo-academy.github.io/WorldOlympiad/)GitHub7 (https://github.com/alibaba-damo-academy/WorldOlympiad)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11129)

在您的代理中获取此论文:

hf papers read 2606\.11129

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.11129 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.11129 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.11129 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

WBench:面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers

WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。

galilai-group/stable-worldmodel

GitHub Trending (daily)

stable-worldmodel 是一个用于可重复世界模型研究的统一平台,提供标准化的环境、数据收集、训练和评估接口。