两步物理：在视觉细化之前锁定运动先验以防止其被抹除

Hugging Face Daily Papers 2026/06/04 00:00 论文

image-to-video diffusion-models motion-priors phase-erosion denoising physical-consistency training-free

摘要

PhaseLock是一个无需训练的框架，通过从早期步骤推理中保留运动先验来提高图像到视频扩散模型的物理一致性，以最小开销实现6.2个百分点的提升。

图像到视频扩散模型利用输入图像生成视觉上令人惊艳的内容，但常常产生违反物理规律的运动。我们揭示了一个令人惊讶的发现：两步生成的结果通常比同一模型50步输出的物理一致性更好。通过频谱分析，我们将其归因于去噪过程中的相位侵蚀；相位显著退化（从第2步到第50步下降约18%），而幅度保持相对稳定。基于这一见解，我们提出了PhaseLock，一个无需训练的框架，在整个去噪轨迹中保留来自少量步骤推理的有效运动先验。PhaseLock不依赖全步骤推理来保证物理一致性，而是仅从2步中提取运动先验，并通过潜在增量引导（Latent Delta Guidance）将其强制应用于高保真生成。我们的方法有效缓解了相位退化，在多种模型上将物理一致性平均提高了6.2个百分点，同时基本保持了视觉保真度，开销极小（时间1.06倍，内存1.02倍），并减少了对昂贵外部引导方法的依赖（时间约5倍）。

查看原文

查看缓存全文

缓存时间: 2026/06/08 11:15

论文页面 - 物理两步骤：在视觉细化抹除运动先验前锁定它们

来源：https://huggingface.co/papers/2606.06361

摘要

PhaseLock是一个无需训练的框架，通过在整个去噪过程中保留早期步骤推理的运动先验，提高图像到视频扩散模型的物理一致性。

图像到视频扩散模型（https://huggingface.co/papers?q=Image-to-Video%20diffusion%20models）利用输入图像生成视觉惊艳的内容，但常常产生违反物理定律的运动。我们揭示了一个令人惊讶的发现：两步生成往往比同一模型的50步输出表现出更好的物理一致性（https://huggingface.co/papers?q=physical%20consistency）。通过频谱分析（https://huggingface.co/papers?q=spectral%20analysis），我们将此归因于去噪（https://huggingface.co/papers?q=denoising）过程中的相位侵蚀（https://huggingface.co/papers?q=phase%20erosion）：相位显著退化（从第2步到第50步下降约18%），而幅度保持相对稳定。基于这一见解，我们提出PhaseLock，这是一个无需训练的框架，可在整个去噪轨迹中保留少量步骤推理的有效运动先验（https://huggingface.co/papers?q=motion%20priors）。PhaseLock不依赖完整步骤推理来获得物理一致性（https://huggingface.co/papers?q=physical%20consistency），而是仅从两步中提取运动先验，并通过潜在增量引导（https://huggingface.co/papers?q=Latent%20Delta%20Guidance）将其施加到高保真生成中。我们的方法有效缓解了相位退化，在多种模型上将物理一致性（https://huggingface.co/papers?q=physical%20consistency）平均提升6.2分，同时基本保持视觉保真度（https://huggingface.co/papers?q=visual%20fidelity），且开销极小（1.06倍时间，1.02倍内存），并减少了对昂贵外部引导方法（约5倍时间）的依赖。

查看arXiv页面（https://arxiv.org/abs/2606.06361）查看PDF（https://arxiv.org/pdf/2606.06361）项目页面（https://dnwjddl.github.io/phaselock）GitHub2（https://github.com/dnwjddl/phaselock）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.06361）

在您的代理中获取此论文：

hf papers read 2606\.06361

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型README.md中引用arxiv.org/abs/2606.06361以从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2606.06361以从此页面链接。

引用此论文的Space0

没有链接此论文的Space

在Space README.md中引用arxiv.org/abs/2606.06361以从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到一个收藏（https://huggingface.co/new-collection）以从此页面链接。

两步物理：在视觉细化之前锁定运动先验以防止其被抹除

论文页面 - 物理两步骤：在视觉细化抹除运动先验前锁定它们

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励

Steady-Forcing: 在长时域自然视频扩散中平衡空间持久性与运动连续性

远程单次条纹投影轮廓测量中的形状先验捷径诊断与修复

Physics-conforming Latent Twins

@ChrisInterno: 物理合理性的信号隐藏在冻结图像编码器的几何结构中。无需视频训练。无需物理监督…

提交意见反馈