标签
Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。