WorldOlympiad:您的世界模型能通过三项全能测试吗?
摘要
WorldOlympiad 提出了一个全面的基准测试,用于评估基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的表现,揭示了当前生成模型的显著差距。
查看缓存全文
缓存时间: 2026/06/10 05:44
论文页面 - WorldOlympiad:您的世界模型能经受三项全能考验吗?
来源:https://huggingface.co/papers/2606.11129 作者:
,
,
,
,
,
,
,
,
,
摘要
WorldOlympiad 提出了一个全面的基准测试,用于评估基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的表现,揭示了当前生成模型能力上的显著差距。
我们引入了 WorldOlympiad,一个用于诊断基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的基准测试。现有基准测试通常侧重于视觉质量、语义对齐或短期时间一致性,但在判断生成视频是否遵循物理规律、保持连贯的三维结构以及维持可控的长时间交互方面提供的洞察有限。为解决这一差距,WorldOlympiad 将世界模型评估分解为三个互补维度。物理轨道使用目标分割和多模态大语言模型作为裁判,评估生成视频是否遵循力学、热现象和材料属性方面的可解释规则。几何轨道通过高斯泼溅重建生成视频,并评估结构一致性、跨视角连贯性和相机轨迹对齐。交互轨道评估生成视频是否遵循复杂的动作提示,并在连续视频片段之间保持平滑、连贯的过渡。WorldOlympiad 还覆盖了三个主要下游场景,包括游戏、机器人和通用真实世界视频,捕捉了从交互控制和具身操作到开放领域运动与相机动力学的多样化挑战。这些轨道和场景共同构成了一个可扩展且可解释的评估套件,暴露了超出通用视频质量的失败模式。在最新模型上的实验揭示了物理推理、三维一致性和长时程交互方面的显著差距,凸显了对生成式世界模型采用更结构化评估协议的必要性。
查看 arXiv 页面 (https://arxiv.org/abs/2606.11129)查看 PDF (https://arxiv.org/pdf/2606.11129)项目页面 (https://alibaba-damo-academy.github.io/WorldOlympiad/)GitHub7 (https://github.com/alibaba-damo-academy/WorldOlympiad)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11129)
在您的代理中获取此论文:
hf papers read 2606\.11129
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.11129 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.11129 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.11129 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
WBench:面向交互式视频世界模型评估的综合多轮基准
WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。
@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好,而视频质量只是最容易注意到的方面。LongCat 刚刚……
LongCat 发布了 WBench,这是一个用于视频世界模型的基准测试,通过 289 个案例和 20 个模型,测试了控制、记忆、指令遵循和物理合理性,发现没有模型在所有维度上都表现出色,凸显了视频质量与真实世界模拟之间的差距。
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
WorldReasonBench:将视频生成器作为未来世界状态预测器进行人类对齐的压力测试
本文介绍了 WorldReasonBench 和 WorldRewardBench,这两个新基准旨在评估视频生成模型对世界状态演变和物理一致性的推理能力。研究突显了当前商业视频生成器在视觉合理性与真实逻辑推理之间存在的差距。
galilai-group/stable-worldmodel
stable-worldmodel 是一个用于可重复世界模型研究的统一平台,提供标准化的环境、数据收集、训练和评估接口。