两步物理:在视觉细化之前锁定运动先验以防止其被抹除
摘要
PhaseLock是一个无需训练的框架,通过从早期步骤推理中保留运动先验来提高图像到视频扩散模型的物理一致性,以最小开销实现6.2个百分点的提升。
查看缓存全文
缓存时间: 2026/06/08 11:15
论文页面 - 物理两步骤:在视觉细化抹除运动先验前锁定它们
来源:https://huggingface.co/papers/2606.06361
摘要
PhaseLock是一个无需训练的框架,通过在整个去噪过程中保留早期步骤推理的运动先验,提高图像到视频扩散模型的物理一致性。
图像到视频扩散模型(https://huggingface.co/papers?q=Image-to-Video%20diffusion%20models)利用输入图像生成视觉惊艳的内容,但常常产生违反物理定律的运动。我们揭示了一个令人惊讶的发现:两步生成往往比同一模型的50步输出表现出更好的物理一致性(https://huggingface.co/papers?q=physical%20consistency)。通过频谱分析(https://huggingface.co/papers?q=spectral%20analysis),我们将此归因于去噪(https://huggingface.co/papers?q=denoising)过程中的相位侵蚀(https://huggingface.co/papers?q=phase%20erosion):相位显著退化(从第2步到第50步下降约18%),而幅度保持相对稳定。基于这一见解,我们提出PhaseLock,这是一个无需训练的框架,可在整个去噪轨迹中保留少量步骤推理的有效运动先验(https://huggingface.co/papers?q=motion%20priors)。PhaseLock不依赖完整步骤推理来获得物理一致性(https://huggingface.co/papers?q=physical%20consistency),而是仅从两步中提取运动先验,并通过潜在增量引导(https://huggingface.co/papers?q=Latent%20Delta%20Guidance)将其施加到高保真生成中。我们的方法有效缓解了相位退化,在多种模型上将物理一致性(https://huggingface.co/papers?q=physical%20consistency)平均提升6.2分,同时基本保持视觉保真度(https://huggingface.co/papers?q=visual%20fidelity),且开销极小(1.06倍时间,1.02倍内存),并减少了对昂贵外部引导方法(约5倍时间)的依赖。
查看arXiv页面(https://arxiv.org/abs/2606.06361)查看PDF(https://arxiv.org/pdf/2606.06361)项目页面(https://dnwjddl.github.io/phaselock)GitHub2(https://github.com/dnwjddl/phaselock)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06361)
在您的代理中获取此论文:
hf papers read 2606\.06361
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型README.md中引用arxiv.org/abs/2606.06361以从此页面链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集README.md中引用arxiv.org/abs/2606.06361以从此页面链接。
引用此论文的Space0
没有链接此论文的Space
在Space README.md中引用arxiv.org/abs/2606.06361以从此页面链接。
包含此论文的收藏0
没有包含此论文的收藏
将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励
PhyMotion 提出一种基于物理的奖励系统,评估生成视频中人体运动的运动学合理性、接触一致性和动态可行性,与人类判断具有更强的相关性,并在基于强化学习的后训练中提升运动真实感。
Steady-Forcing: 在长时域自然视频扩散中平衡空间持久性与运动连续性
Steady-Forcing 提出了一种记忆与训练框架,旨在长时域自然视频生成中平衡空间稳定性与运动连续性,在保持流体动态持续多分钟滚动生成的同时,提升背景一致性。
远程单次条纹投影轮廓测量中的形状先验捷径诊断与修复
本文使用机制可解释性和保形不确定性量化方法,对基于学习的远程单次条纹投影轮廓测量中的形状先验捷径进行了诊断与修复。所提出的PhiCalNet架构通过将深度回归替换为包裹相位输出和可微标定层,使物体平均绝对误差降低了3.3倍。
Physics-conforming Latent Twins
Physics-conforming Latent Twins 是一种用于学习潜在替代解算子的框架,通过约束转移方法和保持结构的潜在动力学,在设计中强制执行物理原理(如守恒定律和耗散不等式)。
@ChrisInterno: 物理合理性的信号隐藏在冻结图像编码器的几何结构中。无需视频训练。无需物理监督…
该推文强调了一项研究发现:无需视频训练或物理监督,即可从冻结图像编码器的几何结构中提取物理合理性的信号。