非对称流模型

Hugging Face Daily Papers 论文

摘要

非对称流建模(AsymFlow)将噪声预测限制在低秩子空间,以实现高效的高维流生成,通过从潜在流模型微调,在ImageNet和文本到图像任务上取得了最先进的结果。

在高维空间中进行基于流的生成是困难的,因为速度预测需要对高维噪声进行建模,即使数据具有强低秩结构。我们提出了非对称流建模(AsymFlow),一种秩非对称速度参数化方法,它将噪声预测限制在低秩子空间,同时保持数据预测为全维。通过这种非对称预测,AsymFlow可以解析地恢复全维速度,而无需改变网络架构或训练/采样过程。在ImageNet 256×256上,AsymFlow实现了领先的1.57 FID,大幅超越了之前的DiT/JiT类像素扩散模型。AsymFlow还首次提供了一条将预训练潜在流模型微调为像素空间模型的路径:将低秩像素子空间与潜在空间对齐,提供无缝初始化,保留潜在模型的高级语义和结构,因此微调主要改善低级不匹配,而不是重新学习像素生成。我们展示了从FLUX.2 klein 9B微调得到的像素AsymFlow模型在像素空间文本到图像生成中建立了新的最先进水平,在HPSv3、DPG-Bench和GenEval上击败了其潜在基础模型,同时在视觉真实感上有了质的提升。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - 非对称流模型

来源: https://huggingface.co/papers/2605.12964

摘要

非对称流建模能够通过将噪声预测限制在低秩子空间,同时保持全维数据预测,实现高效的高维基于流生成。通过对潜在模型进行有效微调,该方法在像素空间文生图任务中取得了卓越性能。

基于流的生成 高维空间中,速度预测 困难,因为即使数据具有强 低秩结构,它也需要建模 高维噪声。我们提出了非对称流建模 (AsymFlow),一种 秩非对称速度参数化 方法,将噪声预测限制在低秩子空间,同时保持数据预测为全维。基于这种非对称预测,AsymFlow 可在不改变网络架构或训练/采样过程的情况下,解析地恢复全维速度。在 ImageNet 256×256 上,AsymFlow 取得了领先的 1.57 FID,大幅超越了先前的 DiT/JiT 类 像素扩散模型。AsymFlow 还首次为将预训练的 潜在流模型 微调为像素空间模型提供了可行路径:将低秩像素子空间与 潜在空间 对齐,可实现无缝初始化,保留潜在模型的高级语义和结构,从而使微调主要改善低级不匹配问题,而非重新学习像素生成。我们展示了从 FLUX.2 klein 9B 微调得到的像素 AsymFlow 模型在像素空间 文生图生成 上建立了新的最先进水平,在 HPSv3、DPG-Bench 和 GenEval 上超越了其潜在基础模型,同时在定性上展现出显著提升的视觉真实感。

查看 arXiv 页面查看 PDF项目页面GitHub 290添加到收藏

在您的 agent 中获取本文:

hf papers read 2605\.12964

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型2

Lakonik/AsymFlow-ImageNet 更新于大约2小时前 (https://huggingface.co/Lakonik/AsymFlow-ImageNet)

Lakonik/AsymFLUX.2-klein-9B 文生图• 更新于大约2小时前 • 2 (https://huggingface.co/Lakonik/AsymFLUX.2-klein-9B)

引用该论文的数据集0

没有数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.12964,以便在此页面建立链接。

引用该论文的 Space1

包含该论文的收藏集0

没有包含本文的收藏集

将本文添加到一个 收藏集 中,以便在此页面建立链接。

相似文章

AsymFlow宣称通过超越潜在扩散,生成更逼真的AI图像

Reddit r/ArtificialInteligence

AsymFlow是斯坦福大学提出的一种新方法,它将潜在扩散模型转换为像素空间,通过避免压缩带来的信息损失,生成更逼真的图像。在基准测试中,它以更低的计算成本超越了FLUX.2 klein。

MeshFlow: 基于等变流匹配的网格生成

Hugging Face Daily Papers

MeshFlow 引入了一种等变最优传输流匹配模型,用于直接生成三角形网格,在达到最先进质量的同时,相比自回归方法提供了约18倍的推理加速。

基于超球面流的语言建模

arXiv cs.LG

本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。