@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好，而视频质量只是最容易注意到的方面。LongCat 刚刚……

X AI KOLs Following 2026/06/02 09:16 论文

video-models world-models benchmark evaluation control memory physics

摘要

LongCat 发布了 WBench，这是一个用于视频世界模型的基准测试，通过 289 个案例和 20 个模型，测试了控制、记忆、指令遵循和物理合理性，发现没有模型在所有维度上都表现出色，凸显了视频质量与真实世界模拟之间的差距。

大多数视频模型看起来比它们理解得更好，而视频质量只是最容易注意到的方面。 LongCat 刚刚发布了 WBench，它将视频世界模型测试从一场选美比赛变成了对控制、多轮记忆、指令遵循和物理合理性的压力测试。它暴露了精美视频生成与可控世界模拟之间的差距。一个漂亮的片段是不够的，因为一个可用的世界模型必须保持相同的场景、执行后续动作、正确移动相机、保留物体，并避免不可能的因果关系。 WBench 通过 289 个案例、1058 次交互轮次、20 个模型、5 个维度和 22 个自动化指标来测试这一点，涵盖导航、主体动作、事件编辑、视角切换以及双向视角。在所有被评估的 20 个模型中，论文发现没有模型在所有维度上占优，这意味着当前系统尚未将高质量渲染、可靠控制、长期记忆和物理规则遵循融合为一种稳定的能力。其设计将世界设置与用户操作分离，因此研究人员可以识别失败是源于渲染薄弱、场景设置不佳、控制差、状态丢失还是物理错误。导航与视觉质量、一致性或物理几乎无关，这意味着一个模型看起来可能很强，但仍然无法按指令移动。关键的转变是：不要只问“视频看起来好吗？”，而要开始问“模型能否在多轮交互中保持一个可控的世界持续存在？” 1.

查看原文

查看缓存全文

缓存时间: 2026/06/03 17:54

大多数视频模型看起来比它们理解的要好，视频质量只是最容易被注意到的方面。

LongCat 刚刚发布了 WBench，它将视频世界模型测试从一场选美比赛变成了一场针对控制能力、多轮记忆、指令遵循和物理合理性的压力测试。

它揭示了漂亮视频生成与可控世界模拟之间的差距。

一段精美的片段是不够的，因为一个可用的世界模型必须保持同一场景、遵循后续动作、正确移动摄像机、保留物体，并避免不可能出现的因果逻辑。

WBench 通过 289 个用例、1058 次交互回合、20 个模型、5 个维度和 22 个自动指标来测试这些能力，涵盖导航、主体动作、事件编辑、视角切换以及双视角场景。

在这 20 个被评估的模型中，论文发现没有哪个模型在所有维度上占据主导地位，这意味着当前系统尚未将高质量渲染、可靠控制、长期记忆和物理规则遵循融合为一项稳定的能力。

其设计将世界设定与用户动作分离，使研究人员能够识别出失败是源于渲染弱、场景设置差、控制不佳、状态丢失还是物理规则失效。

导航与视觉质量、一致性或物理规则几乎不存在关联，这意味着一个模型可能看起来很强大，但却无法按指令移动。

关键转变在于：不再只问“视频看起来好不好？”，而是开始问“模型能否在多轮交互中维持一个可控的世界？”

@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好，而视频质量只是最容易注意到的方面。LongCat 刚刚……

相似文章

WBench：面向交互式视频世界模型评估的综合多轮基准

MBench：面向视频世界模型记忆能力的综合基准

@heyshrutimishra: 新视频模型刚刚发布。但这款并非为电影级视频打造。LingBot-Video专为具身智能设计…

MemoBench：动态变化环境中世界建模的基准测试

Video-Oasis: 重新思考视频理解的评估

提交意见反馈