MIMFlow: 集成掩码图像建模与归一化流的端到端图像生成

Hugging Face Daily Papers 论文

摘要

MIMFlow 集成了掩码图像建模与归一化流,用于端到端图像生成,在 ImageNet 256x256 上实现了 2.50 的 FID,且使用的 token 数量比标准模型少 50%。

归一化流 (NFs) 是能够进行精确密度估计和采样的强大生成模型。然而,其严格的逆变性常常迫使模型将容量消耗在低层次像素细节上,从而阻碍了对高层次语义结构的捕捉。尽管掩码图像建模 (MIM) 在表示学习方面表现出色,但其在生成流程中的集成大多仍是模块化和分离的。在本文中,我们提出了 MIMFlow,这是一个统一的端到端框架,联合优化了潜在语义、像素重建和生成流。通过使用 VAE 编码器从掩码图像推断语义潜在变量,MIMFlow 实现了生成任务的原理性解耦:归一化流专注于建模简化的低频语义流形,而专门的解码器处理高频合成。这种设计有效解决了 NFs 固有的容量瓶颈,使模型能够优先关注全局结构一致性而非冗余噪声。在 ImageNet 256×256 上的实验结果表明,MIMFlow-L 达到了 71.3\% 的线性探测准确率和 2.50 的 FID。尽管仅使用了 128 个 token(比标准模型少 50\%),它相比同等规模的 NF 基线获得了 32.8\% 的性能提升。我们的代码可在 https://github.com/MCG-NJU/MIMFlow 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/30 03:33

Paper page - MIMFlow: 整合掩码图像建模与标准化流实现端到端图像生成

来源:https://huggingface.co/papers/2606.26016

摘要

MIMFlow 将标准化流与掩码图像建模相结合,通过解耦语义表示与像素级细节,用更少的 token 实现了更优的生成建模性能。

标准化流(Normalizing Flows,简称 NFs,https://huggingface.co/papers?q=Normalizing%20Flows)是能够进行精确密度估计和采样的强大生成模型。然而,其严格的逆变换性质常常迫使模型将其容量过多地消耗在低级像素细节上,从而阻碍了对高级语义结构的捕捉。尽管掩码图像建模(Masked Image Modeling,简称 MIM,https://huggingface.co/papers?q=Masked%20Image%20Modeling)在表示学习方面表现出色,但其在生成流程中的整合仍然很大程度上是模块化且脱节的。在本文中,我们提出了 MIMFlow,一个统一的端到端框架,共同优化潜在语义(https://huggingface.co/papers?q=latent%20semantics)、像素重建和生成流(https://huggingface.co/papers?q=generative%20flow)。通过使用 VAE 编码器(https://huggingface.co/papers?q=VAE%20encoder)从掩码图像中推断语义潜在表示,MIMFlow 实现了生成任务的原则性解耦:标准化流专注于建模简化后的低频语义流形(https://huggingface.co/papers?q=semantic%20manifold),而专门的解码器则负责高频合成(https://huggingface.co/papers?q=high-frequency%20synthesis)。这种设计有效解决了 NFs 固有的容量瓶颈,使模型能够优先关注全局结构连贯性而非冗余噪声。在 ImageNet 256×256 上的实验结果表明,MIMFlow-L 达到了 71.3% 的线性探测精度(https://huggingface.co/papers?q=linear%20probing%20accuracy)和 2.50 的 FID(https://huggingface.co/papers?q=FID)。尽管仅使用了 128 个 token(比标准模型少 50%),它仍比同规模 NF 基线获得了 32.8% 的性能提升。我们的代码已开源,地址为 https://github.com/MCG-NJU/MIMFlow。

查看 arXiv 页面 (https://arxiv.org/abs/2606.26016) 查看 PDF (https://arxiv.org/pdf/2606.26016) GitHub1 (https://github.com/MCG-NJU/MIMFlow) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26016)

在您的 agent 中获取本文:

hf papers read 2606.26016

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接到本文

请在模型 README.md 中引用 arxiv.org/abs/2606.26016,以便从此页面链接。

引用本文的数据集0

没有数据集链接到本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.26016,以便从此页面链接。

引用本文的 Spaces0

没有 Space 链接到本文

请在 Space README.md 中引用 arxiv.org/abs/2606.26016,以便从此页面链接。

包含本文的收藏集0

没有收藏集包含本文

请将本文添加到一个收藏集 (https://huggingface.co/new-collection) 中,以便从此页面链接。

相似文章

掩码语言流模型

arXiv cs.CL

本文介绍了掩码语言流模型(MLFMs),该模型将掩码机制引入基于流的语言模型,从而实现连续流进行条件生成,并允许转换预训练的掩码扩散模型。作者提出了一种新型采样器,交替进行连续去噪和离散去掩码,首次证明了基于流的语言模型可以扩展至下游推理和指令遵循任务。