几何感知的图像流匹配
摘要
本文提出用于自然图像的几何感知流匹配方法,将图像视为超球面上的点,并提出了SOT-CFM和SFM方法,通过利用图像数据的球面结构来改进生成建模。
查看缓存全文
缓存时间: 2026/05/26 02:41
论文页面 - 几何感知图像流匹配
来源:https://huggingface.co/papers/2605.25294 TL;DR: 自然图像位于一个超球面上——而将其按此处理可提升流匹配效果。几何感知的生成建模在已知流形(分子、晶体、蛋白质)上表现出色,但自然图像一直被困在欧几里得空间中,因为没人知道它们所属的流形。
我们给出了一个惊人的简单答案:其语义内容几乎完全在于方向,而非范数。将图像(无论是RGB还是VAE潜在表示)投影到数据集平均半径的球面上后,它们在感知上与原始图像无法区分。
基于此,我们提出了SOT-CFM(角最优传输代价)和SFM(球面上的全黎曼流匹配)。据我们所知,SFM是将全流形生成框架成功应用于大规模自然图像的首个实例。
相似文章
面向图像生成的球形流匹配中的潜在几何对齐
本文提出对齐潜在几何以实现球形流匹配,将潜在变量投影到固定半径的球面上,并使用球形线性插值来提升图像生成质量,在类条件ImageNet上持续改进FID。
用于去噪高维结构化表示的测地线流匹配
本文提出测地线流匹配(Geodesic Flow Matching),一种在环面流形上对空间语义指针(SSP)进行去噪的黎曼传输方法,并在脉冲神经SLAM系统中实现了72%的跟踪误差降低和40%的效率提升。
MC-RFM:基于混合曲率黎曼流匹配的几何感知小样本自适应
MC-RFM提出了一种新颖的黎曼流匹配框架,用于小样本自适应,该框架在结合双曲空间和欧几里得空间的混合曲率流形上建模特征位移,在多个视觉识别基准上优于现有方法。
基于超球面流的语言建模
本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。
网格上三角化无关流匹配的Matérn噪声
本文介绍了一种三角化无关的流匹配方法,用于基于网格的信号生成,采用Matérn过程作为噪声,PoissonNet作为去噪器,在大型网格上实现了高质量结果。