非对称流模型
摘要
非对称流建模(AsymFlow)将噪声预测限制在低秩子空间,以实现高效的高维流生成,通过从潜在流模型微调,在ImageNet和文本到图像任务上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/14 04:17
论文页面 - 非对称流模型
来源: https://huggingface.co/papers/2605.12964
摘要
非对称流建模能够通过将噪声预测限制在低秩子空间,同时保持全维数据预测,实现高效的高维基于流生成。通过对潜在模型进行有效微调,该方法在像素空间文生图任务中取得了卓越性能。
在 基于流的生成 高维空间中,速度预测 困难,因为即使数据具有强 低秩结构,它也需要建模 高维噪声。我们提出了非对称流建模 (AsymFlow),一种 秩非对称速度参数化 方法,将噪声预测限制在低秩子空间,同时保持数据预测为全维。基于这种非对称预测,AsymFlow 可在不改变网络架构或训练/采样过程的情况下,解析地恢复全维速度。在 ImageNet 256×256 上,AsymFlow 取得了领先的 1.57 FID,大幅超越了先前的 DiT/JiT 类 像素扩散模型。AsymFlow 还首次为将预训练的 潜在流模型 微调为像素空间模型提供了可行路径:将低秩像素子空间与 潜在空间 对齐,可实现无缝初始化,保留潜在模型的高级语义和结构,从而使微调主要改善低级不匹配问题,而非重新学习像素生成。我们展示了从 FLUX.2 klein 9B 微调得到的像素 AsymFlow 模型在像素空间 文生图生成 上建立了新的最先进水平,在 HPSv3、DPG-Bench 和 GenEval 上超越了其潜在基础模型,同时在定性上展现出显著提升的视觉真实感。
查看 arXiv 页面查看 PDF项目页面GitHub 290添加到收藏
在您的 agent 中获取本文:
hf papers read 2605\.12964
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型2
Lakonik/AsymFlow-ImageNet 更新于大约2小时前 (https://huggingface.co/Lakonik/AsymFlow-ImageNet)
Lakonik/AsymFLUX.2-klein-9B 文生图• 更新于大约2小时前 • 2 (https://huggingface.co/Lakonik/AsymFLUX.2-klein-9B)
引用该论文的数据集0
没有数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.12964,以便在此页面建立链接。
引用该论文的 Space1
包含该论文的收藏集0
没有包含本文的收藏集
将本文添加到一个 收藏集 中,以便在此页面建立链接。
相似文章
AsymFlow宣称通过超越潜在扩散,生成更逼真的AI图像
AsymFlow是斯坦福大学提出的一种新方法,它将潜在扩散模型转换为像素空间,通过避免压缩带来的信息损失,生成更逼真的图像。在基准测试中,它以更低的计算成本超越了FLUX.2 klein。
MeshFlow: 基于等变流匹配的网格生成
MeshFlow 引入了一种等变最优传输流匹配模型,用于直接生成三角形网格,在达到最先进质量的同时,相比自回归方法提供了约18倍的推理加速。
基于超球面流的语言建模
本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。
多分辨率流匹配:基于分阶段采样的免训练扩散加速
MrFlow 是一种针对流匹配文本到图像模型的免训练多分辨率加速策略,它结合了低分辨率生成、像素空间超分辨率和噪声注入,无需训练或运行时修改即可实现高达25倍的端到端加速。
面向自回归视频生成的在线策略对抗流蒸馏
提出对抗流蒸馏(AFD),用于将异质黑盒视频生成模型蒸馏为自回归学生模型,采用在线策略反馈和前向过程流匹配更新。