MIMFlow: 集成掩码图像建模与归一化流的端到端图像生成
摘要
MIMFlow 集成了掩码图像建模与归一化流,用于端到端图像生成,在 ImageNet 256x256 上实现了 2.50 的 FID,且使用的 token 数量比标准模型少 50%。
查看缓存全文
缓存时间: 2026/06/30 03:33
Paper page - MIMFlow: 整合掩码图像建模与标准化流实现端到端图像生成
来源:https://huggingface.co/papers/2606.26016
摘要
MIMFlow 将标准化流与掩码图像建模相结合,通过解耦语义表示与像素级细节,用更少的 token 实现了更优的生成建模性能。
标准化流(Normalizing Flows,简称 NFs,https://huggingface.co/papers?q=Normalizing%20Flows)是能够进行精确密度估计和采样的强大生成模型。然而,其严格的逆变换性质常常迫使模型将其容量过多地消耗在低级像素细节上,从而阻碍了对高级语义结构的捕捉。尽管掩码图像建模(Masked Image Modeling,简称 MIM,https://huggingface.co/papers?q=Masked%20Image%20Modeling)在表示学习方面表现出色,但其在生成流程中的整合仍然很大程度上是模块化且脱节的。在本文中,我们提出了 MIMFlow,一个统一的端到端框架,共同优化潜在语义(https://huggingface.co/papers?q=latent%20semantics)、像素重建和生成流(https://huggingface.co/papers?q=generative%20flow)。通过使用 VAE 编码器(https://huggingface.co/papers?q=VAE%20encoder)从掩码图像中推断语义潜在表示,MIMFlow 实现了生成任务的原则性解耦:标准化流专注于建模简化后的低频语义流形(https://huggingface.co/papers?q=semantic%20manifold),而专门的解码器则负责高频合成(https://huggingface.co/papers?q=high-frequency%20synthesis)。这种设计有效解决了 NFs 固有的容量瓶颈,使模型能够优先关注全局结构连贯性而非冗余噪声。在 ImageNet 256×256 上的实验结果表明,MIMFlow-L 达到了 71.3% 的线性探测精度(https://huggingface.co/papers?q=linear%20probing%20accuracy)和 2.50 的 FID(https://huggingface.co/papers?q=FID)。尽管仅使用了 128 个 token(比标准模型少 50%),它仍比同规模 NF 基线获得了 32.8% 的性能提升。我们的代码已开源,地址为 https://github.com/MCG-NJU/MIMFlow。
查看 arXiv 页面 (https://arxiv.org/abs/2606.26016) 查看 PDF (https://arxiv.org/pdf/2606.26016) GitHub1 (https://github.com/MCG-NJU/MIMFlow) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26016)
在您的 agent 中获取本文:
hf papers read 2606.26016
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
没有模型链接到本文
请在模型 README.md 中引用 arxiv.org/abs/2606.26016,以便从此页面链接。
引用本文的数据集0
没有数据集链接到本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.26016,以便从此页面链接。
引用本文的 Spaces0
没有 Space 链接到本文
请在 Space README.md 中引用 arxiv.org/abs/2606.26016,以便从此页面链接。
包含本文的收藏集0
没有收藏集包含本文
请将本文添加到一个收藏集 (https://huggingface.co/new-collection) 中,以便从此页面链接。
相似文章
掩码语言流模型
本文介绍了掩码语言流模型(MLFMs),该模型将掩码机制引入基于流的语言模型,从而实现连续流进行条件生成,并允许转换预训练的掩码扩散模型。作者提出了一种新型采样器,交替进行连续去噪和离散去掩码,首次证明了基于流的语言模型可以扩展至下游推理和指令遵循任务。
STARFlow2:连接语言模型与归一化流以实现统一的多模态生成
STARFlow2 是一项新的研究论文,介绍了一种将语言模型与自回归归一化流相结合的架构,用于统一的多模态生成。它通过使用共享的因果掩码机制处理交错的文本-图像序列,解决了现有系统中的结构不匹配问题。
@jiqizhixin:如果只需要一步就能生成高质量图像,而不是数百步?斯坦福和字节跳动推出 W-Flow……
斯坦福和字节跳动推出 W-Flow,一种单步生成模型,利用 Wasserstein 梯度流实现了最先进的单步 ImageNet 256x256 生成(FID 1.29),采样速度比多步扩散模型快 100 倍。
多分辨率流匹配:基于分阶段采样的免训练扩散加速
MrFlow 是一种针对流匹配文本到图像模型的免训练多分辨率加速策略,它结合了低分辨率生成、像素空间超分辨率和噪声注入,无需训练或运行时修改即可实现高达25倍的端到端加速。
我构建了‘第一个’流匹配图像生成器,以下是我的心得 [P]
作者分享了构建一个小型流匹配图像生成模型的经历,该模型基于 Apple 表情符号图像进行训练,描述了最初失败的方法以及后来成功转向使用 RGB 通道、残差块和注意力的过程。