标签
Light Interaction 提出了一种用于交互式视频世界模型的无训练推理加速框架,采用自适应上下文管理、去噪缓存加速和3D块稀疏注意力,实现了高达2.59倍的速度提升,同时保持了有竞争力的视觉质量。
Incantation 提出了一个交互式视频世界模型,该模型使用自然语言作为动作接口,实现细粒度的多实体控制和跨实体泛化,通过新颖的注意力机制和蒸馏技术实现了高性能和实时流式处理。
Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。