面向图像生成的球形流匹配中的潜在几何对齐

Hugging Face Daily Papers 论文

摘要

本文提出对齐潜在几何以实现球形流匹配,将潜在变量投影到固定半径的球面上,并使用球形线性插值来提升图像生成质量,在类条件ImageNet上持续改进FID。

用于图像生成的潜在流匹配通常沿线性路径将高斯噪声传输到变分自编码器的潜在变量。然而,两个端点都集中在薄球壳上,即使预处理对齐它们的半径,欧几里得弦也会离开这些球壳。通过将每个潜在token分解为径向和角度分量,我们通过分量交换探针表明,解码后的感知和语义内容主要由方向携带,半径的贡献要小得多。因此,我们将数据潜在投影到固定的token半径上,使用高斯噪声的径向投影作为球形先验,在冻结编码器的情况下微调解码器,并用球形线性插值替换线性插值。得到的测地路径在每个时间步都保持在球面上,其速度目标按构造完全是角度的。在匹配训练下,该方法在不同图像分词器上一致改进类条件ImageNet-256 FID,保持扩散架构不变,且不需要辅助编码器或表征对齐目标。
查看原文
查看缓存全文

缓存时间: 2026/05/15 20:26

论文页面 - 对齐隐空间几何用于图像生成的球面流匹配

来源:https://huggingface.co/papers/2605.15193

摘要

测地流匹配通过将隐变量投影到固定半径的球面上,并使用球面线性插值替代线性路径,利用角度分量保留语义内容,从而改进图像生成。

用于图像生成的隐空间流匹配 (https://huggingface.co/papers?q=Latent%20flow%20matching)通常沿着线性路径将高斯噪声 (https://huggingface.co/papers?q=Gaussian%20noise)传输到变分自编码器 (https://huggingface.co/papers?q=variational%20autoencoder)的隐变量上。然而,两个端点都集中在薄球壳 (https://huggingface.co/papers?q=spherical%20shells)内,即使预处理对齐了它们的半径,欧几里得弦也会离开这些球壳。通过将每个隐空间token分解为径向分量和角度分量 (https://huggingface.co/papers?q=radial%20and%20angular%20components),我们通过分量交换探针实验证明,解码后的感知和语义内容主要由方向承载,半径贡献很小。因此,我们将数据隐变量投影到固定的token半径上,使用高斯噪声 (https://huggingface.co/papers?q=Gaussian%20noise)的径向投影作为球面先验,在冻结编码器的情况下微调解码器,并用球面线性插值 (https://huggingface.co/papers?q=spherical%20linear%20interpolation)替代线性插值。由此产生的测地路径 (https://huggingface.co/papers?q=geodesic%20paths)在每个时间步都保持在球面上,且其速度目标在结构上纯属角度分量。在匹配训练条件下,该方法在不同图像分词器 (https://huggingface.co/papers?q=image%20tokenizers)上一致地改善了类条件ImageNet-256的FID指标,无需改变扩散架构 (https://huggingface.co/papers?q=diffusion%20architecture),也不需要额外的编码器或表示对齐目标。

查看arXiv页面 (https://arxiv.org/abs/2605.15193)查看PDF (https://arxiv.org/pdf/2605.15193)项目页面 (https://aligning-latent-geometry.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15193)

在你的agent中获取这篇论文:

hf papers read 2605\.15193

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.15193以链接到此页面。

引用该论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.15193以链接到此页面。

引用该论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.15193以链接到此页面。

包含该论文的收藏0

没有收藏包含此论文

将这篇论文添加到收藏 (https://huggingface.co/new-collection)中以链接到此页面。

相似文章

几何感知的图像流匹配

Hugging Face Daily Papers

本文提出用于自然图像的几何感知流匹配方法,将图像视为超球面上的点,并提出了SOT-CFM和SFM方法,通过利用图像数据的球面结构来改进生成建模。

使用球面潜编码器的高效图像合成

Hugging Face Daily Papers

本文提出 Sphere Latent Encoder,一种高效的少步图像生成框架,该框架完全在球面潜空间中进行去噪,能够在 ImageNet-1K 上以显著降低的计算成本生成高质量 256×256 图像,并提升 FID 分数。

用于去噪高维结构化表示的测地线流匹配

arXiv cs.AI

本文提出测地线流匹配(Geodesic Flow Matching),一种在环面流形上对空间语义指针(SSP)进行去噪的黎曼传输方法,并在脉冲神经SLAM系统中实现了72%的跟踪误差降低和40%的效率提升。

基于超球面流的语言建模

arXiv cs.LG

本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。