几何感知的图像流匹配

Hugging Face Daily Papers 论文

摘要

本文提出用于自然图像的几何感知流匹配方法,将图像视为超球面上的点,并提出了SOT-CFM和SFM方法,通过利用图像数据的球面结构来改进生成建模。

生成模型的最新进展凸显了在流形约束环境中几何感知建模的强大能力。然而,对于自然图像,该领域仍局限于欧几里得假设,未能利用数据内在几何结构的潜力。在这项工作中,我们研究了自然图像的几何特性,观察到语义信息主要编码在方向分量中,而范数分量可以通过全局平均值近似。这一性质在RGB空间和潜在空间中都成立,表明自然图像可以有效地在超球面上建模。基于这一发现,我们引入了利用角距离的球面最优传输流匹配(SOT-CFM)以及直接在流形上约束动力学的球面流匹配(SFM)。我们的实验表明,这些几何感知方法在性能上优于欧几里得基线。最终,这项工作提供了一种新颖的视角,弥合了基于黎曼流形的建模与自然图像生成之间的差距。
查看原文
查看缓存全文

缓存时间: 2026/05/26 02:41

论文页面 - 几何感知图像流匹配

来源:https://huggingface.co/papers/2605.25294 TL;DR: 自然图像位于一个超球面上——而将其按此处理可提升流匹配效果。几何感知的生成建模在已知流形(分子、晶体、蛋白质)上表现出色,但自然图像一直被困在欧几里得空间中,因为没人知道它们所属的流形。

我们给出了一个惊人的简单答案:其语义内容几乎完全在于方向,而非范数。将图像(无论是RGB还是VAE潜在表示)投影到数据集平均半径的球面上后,它们在感知上与原始图像无法区分。

基于此,我们提出了SOT-CFM(角最优传输代价)和SFM(球面上的全黎曼流匹配)。据我们所知,SFM是将全流形生成框架成功应用于大规模自然图像的首个实例。

相似文章

用于去噪高维结构化表示的测地线流匹配

arXiv cs.AI

本文提出测地线流匹配(Geodesic Flow Matching),一种在环面流形上对空间语义指针(SSP)进行去噪的黎曼传输方法,并在脉冲神经SLAM系统中实现了72%的跟踪误差降低和40%的效率提升。

基于超球面流的语言建模

arXiv cs.LG

本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。

网格上三角化无关流匹配的Matérn噪声

Hugging Face Daily Papers

本文介绍了一种三角化无关的流匹配方法,用于基于网格的信号生成,采用Matérn过程作为噪声,PoissonNet作为去噪器,在大型网格上实现了高质量结果。