@rohanpaul_ai: 大多数视频模型看起来比它们理解得更好,而视频质量只是最容易注意到的方面。LongCat 刚刚……

X AI KOLs Following 论文

摘要

LongCat 发布了 WBench,这是一个用于视频世界模型的基准测试,通过 289 个案例和 20 个模型,测试了控制、记忆、指令遵循和物理合理性,发现没有模型在所有维度上都表现出色,凸显了视频质量与真实世界模拟之间的差距。

大多数视频模型看起来比它们理解得更好,而视频质量只是最容易注意到的方面。 LongCat 刚刚发布了 WBench,它将视频世界模型测试从一场选美比赛变成了对控制、多轮记忆、指令遵循和物理合理性的压力测试。 它暴露了精美视频生成与可控世界模拟之间的差距。 一个漂亮的片段是不够的,因为一个可用的世界模型必须保持相同的场景、执行后续动作、正确移动相机、保留物体,并避免不可能的因果关系。 WBench 通过 289 个案例、1058 次交互轮次、20 个模型、5 个维度和 22 个自动化指标来测试这一点,涵盖导航、主体动作、事件编辑、视角切换以及双向视角。 在所有被评估的 20 个模型中,论文发现没有模型在所有维度上占优,这意味着当前系统尚未将高质量渲染、可靠控制、长期记忆和物理规则遵循融合为一种稳定的能力。 其设计将世界设置与用户操作分离,因此研究人员可以识别失败是源于渲染薄弱、场景设置不佳、控制差、状态丢失还是物理错误。 导航与视觉质量、一致性或物理几乎无关,这意味着一个模型看起来可能很强,但仍然无法按指令移动。 关键的转变是:不要只问“视频看起来好吗?”,而要开始问“模型能否在多轮交互中保持一个可控的世界持续存在?” 1.
查看原文
查看缓存全文

缓存时间: 2026/06/03 17:54

大多数视频模型看起来比它们理解的要好,视频质量只是最容易被注意到的方面。

LongCat 刚刚发布了 WBench,它将视频世界模型测试从一场选美比赛变成了一场针对控制能力、多轮记忆、指令遵循和物理合理性的压力测试。

它揭示了漂亮视频生成与可控世界模拟之间的差距。

一段精美的片段是不够的,因为一个可用的世界模型必须保持同一场景、遵循后续动作、正确移动摄像机、保留物体,并避免不可能出现的因果逻辑。

WBench 通过 289 个用例、1058 次交互回合、20 个模型、5 个维度和 22 个自动指标来测试这些能力,涵盖导航、主体动作、事件编辑、视角切换以及双视角场景。

在这 20 个被评估的模型中,论文发现没有哪个模型在所有维度上占据主导地位,这意味着当前系统尚未将高质量渲染、可靠控制、长期记忆和物理规则遵循融合为一项稳定的能力。

其设计将世界设定与用户动作分离,使研究人员能够识别出失败是源于渲染弱、场景设置差、控制不佳、状态丢失还是物理规则失效。

导航与视觉质量、一致性或物理规则几乎不存在关联,这意味着一个模型可能看起来很强大,但却无法按指令移动。

关键转变在于:不再只问“视频看起来好不好?”,而是开始问“模型能否在多轮交互中维持一个可控的世界?”

相似文章

WBench:面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers

WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。