两步物理:在视觉细化之前锁定运动先验以防止其被抹除

Hugging Face Daily Papers 论文

摘要

PhaseLock是一个无需训练的框架,通过从早期步骤推理中保留运动先验来提高图像到视频扩散模型的物理一致性,以最小开销实现6.2个百分点的提升。

图像到视频扩散模型利用输入图像生成视觉上令人惊艳的内容,但常常产生违反物理规律的运动。我们揭示了一个令人惊讶的发现:两步生成的结果通常比同一模型50步输出的物理一致性更好。通过频谱分析,我们将其归因于去噪过程中的相位侵蚀;相位显著退化(从第2步到第50步下降约18%),而幅度保持相对稳定。基于这一见解,我们提出了PhaseLock,一个无需训练的框架,在整个去噪轨迹中保留来自少量步骤推理的有效运动先验。PhaseLock不依赖全步骤推理来保证物理一致性,而是仅从2步中提取运动先验,并通过潜在增量引导(Latent Delta Guidance)将其强制应用于高保真生成。我们的方法有效缓解了相位退化,在多种模型上将物理一致性平均提高了6.2个百分点,同时基本保持了视觉保真度,开销极小(时间1.06倍,内存1.02倍),并减少了对昂贵外部引导方法的依赖(时间约5倍)。
查看原文
查看缓存全文

缓存时间: 2026/06/08 11:15

论文页面 - 物理两步骤:在视觉细化抹除运动先验前锁定它们

来源:https://huggingface.co/papers/2606.06361

摘要

PhaseLock是一个无需训练的框架,通过在整个去噪过程中保留早期步骤推理的运动先验,提高图像到视频扩散模型的物理一致性。

图像到视频扩散模型(https://huggingface.co/papers?q=Image-to-Video%20diffusion%20models)利用输入图像生成视觉惊艳的内容,但常常产生违反物理定律的运动。我们揭示了一个令人惊讶的发现:两步生成往往比同一模型的50步输出表现出更好的物理一致性(https://huggingface.co/papers?q=physical%20consistency)。通过频谱分析(https://huggingface.co/papers?q=spectral%20analysis),我们将此归因于去噪(https://huggingface.co/papers?q=denoising)过程中的相位侵蚀(https://huggingface.co/papers?q=phase%20erosion):相位显著退化(从第2步到第50步下降约18%),而幅度保持相对稳定。基于这一见解,我们提出PhaseLock,这是一个无需训练的框架,可在整个去噪轨迹中保留少量步骤推理的有效运动先验(https://huggingface.co/papers?q=motion%20priors)。PhaseLock不依赖完整步骤推理来获得物理一致性(https://huggingface.co/papers?q=physical%20consistency),而是仅从两步中提取运动先验,并通过潜在增量引导(https://huggingface.co/papers?q=Latent%20Delta%20Guidance)将其施加到高保真生成中。我们的方法有效缓解了相位退化,在多种模型上将物理一致性(https://huggingface.co/papers?q=physical%20consistency)平均提升6.2分,同时基本保持视觉保真度(https://huggingface.co/papers?q=visual%20fidelity),且开销极小(1.06倍时间,1.02倍内存),并减少了对昂贵外部引导方法(约5倍时间)的依赖。

查看arXiv页面(https://arxiv.org/abs/2606.06361)查看PDF(https://arxiv.org/pdf/2606.06361)项目页面(https://dnwjddl.github.io/phaselock)GitHub2(https://github.com/dnwjddl/phaselock)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06361)

在您的代理中获取此论文:

hf papers read 2606\.06361

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型README.md中引用arxiv.org/abs/2606.06361以从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2606.06361以从此页面链接。

引用此论文的Space0

没有链接此论文的Space

在Space README.md中引用arxiv.org/abs/2606.06361以从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

远程单次条纹投影轮廓测量中的形状先验捷径诊断与修复

arXiv cs.LG

本文使用机制可解释性和保形不确定性量化方法,对基于学习的远程单次条纹投影轮廓测量中的形状先验捷径进行了诊断与修复。所提出的PhiCalNet架构通过将深度回归替换为包裹相位输出和可微标定层,使物体平均绝对误差降低了3.3倍。

Physics-conforming Latent Twins

arXiv cs.LG

Physics-conforming Latent Twins 是一种用于学习潜在替代解算子的框架,通过约束转移方法和保持结构的潜在动力学,在设计中强制执行物理原理(如守恒定律和耗散不等式)。