面向图像生成的球形流匹配中的潜在几何对齐

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

本文提出对齐潜在几何以实现球形流匹配，将潜在变量投影到固定半径的球面上，并使用球形线性插值来提升图像生成质量，在类条件ImageNet上持续改进FID。

用于图像生成的潜在流匹配通常沿线性路径将高斯噪声传输到变分自编码器的潜在变量。然而，两个端点都集中在薄球壳上，即使预处理对齐它们的半径，欧几里得弦也会离开这些球壳。通过将每个潜在token分解为径向和角度分量，我们通过分量交换探针表明，解码后的感知和语义内容主要由方向携带，半径的贡献要小得多。因此，我们将数据潜在投影到固定的token半径上，使用高斯噪声的径向投影作为球形先验，在冻结编码器的情况下微调解码器，并用球形线性插值替换线性插值。得到的测地路径在每个时间步都保持在球面上，其速度目标按构造完全是角度的。在匹配训练下，该方法在不同图像分词器上一致改进类条件ImageNet-256 FID，保持扩散架构不变，且不需要辅助编码器或表征对齐目标。

查看原文

查看缓存全文

缓存时间: 2026/05/15 20:26

论文页面 - 对齐隐空间几何用于图像生成的球面流匹配

来源：https://huggingface.co/papers/2605.15193

摘要

测地流匹配通过将隐变量投影到固定半径的球面上，并使用球面线性插值替代线性路径，利用角度分量保留语义内容，从而改进图像生成。

用于图像生成的隐空间流匹配 (https://huggingface.co/papers?q=Latent%20flow%20matching)通常沿着线性路径将高斯噪声 (https://huggingface.co/papers?q=Gaussian%20noise)传输到变分自编码器 (https://huggingface.co/papers?q=variational%20autoencoder)的隐变量上。然而，两个端点都集中在薄球壳 (https://huggingface.co/papers?q=spherical%20shells)内，即使预处理对齐了它们的半径，欧几里得弦也会离开这些球壳。通过将每个隐空间token分解为径向分量和角度分量 (https://huggingface.co/papers?q=radial%20and%20angular%20components)，我们通过分量交换探针实验证明，解码后的感知和语义内容主要由方向承载，半径贡献很小。因此，我们将数据隐变量投影到固定的token半径上，使用高斯噪声 (https://huggingface.co/papers?q=Gaussian%20noise)的径向投影作为球面先验，在冻结编码器的情况下微调解码器，并用球面线性插值 (https://huggingface.co/papers?q=spherical%20linear%20interpolation)替代线性插值。由此产生的测地路径 (https://huggingface.co/papers?q=geodesic%20paths)在每个时间步都保持在球面上，且其速度目标在结构上纯属角度分量。在匹配训练条件下，该方法在不同图像分词器 (https://huggingface.co/papers?q=image%20tokenizers)上一致地改善了类条件ImageNet-256的FID指标，无需改变扩散架构 (https://huggingface.co/papers?q=diffusion%20architecture)，也不需要额外的编码器或表示对齐目标。

查看arXiv页面 (https://arxiv.org/abs/2605.15193)查看PDF (https://arxiv.org/pdf/2605.15193)项目页面 (https://aligning-latent-geometry.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15193)

在你的agent中获取这篇论文：

hf papers read 2605\.15193

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.15193以链接到此页面。

引用该论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.15193以链接到此页面。

引用该论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.15193以链接到此页面。

包含该论文的收藏0

没有收藏包含此论文

将这篇论文添加到收藏 (https://huggingface.co/new-collection)中以链接到此页面。

面向图像生成的球形流匹配中的潜在几何对齐

论文页面 - 对齐隐空间几何用于图像生成的球面流匹配

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的Space0

包含该论文的收藏0

相似文章

几何感知的图像流匹配

使用球面潜编码器的高效图像合成

用于去噪高维结构化表示的测地线流匹配

基于超球面流的语言建模

MC-RFM：基于混合曲率黎曼流匹配的几何感知小样本自适应

提交意见反馈