标签
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。
Geo-Align 提出了一个用于相机可控视频重新渲染的强化学习框架,通过尺度感知的感知奖励和用于相机轨迹提取的度量三维估计来提高泛化能力。
SANA-WM是一个拥有26亿参数的开源世界模型,能生成高保真720p分钟级视频,支持精确相机控制,在达到工业级质量的同时显著降低计算需求。