MIMFlow: 集成掩码图像建模与归一化流的端到端图像生成

Hugging Face Daily Papers 2026/06/24 00:00 论文

摘要

MIMFlow 集成了掩码图像建模与归一化流，用于端到端图像生成，在 ImageNet 256x256 上实现了 2.50 的 FID，且使用的 token 数量比标准模型少 50%。

归一化流 (NFs) 是能够进行精确密度估计和采样的强大生成模型。然而，其严格的逆变性常常迫使模型将容量消耗在低层次像素细节上，从而阻碍了对高层次语义结构的捕捉。尽管掩码图像建模 (MIM) 在表示学习方面表现出色，但其在生成流程中的集成大多仍是模块化和分离的。在本文中，我们提出了 MIMFlow，这是一个统一的端到端框架，联合优化了潜在语义、像素重建和生成流。通过使用 VAE 编码器从掩码图像推断语义潜在变量，MIMFlow 实现了生成任务的原理性解耦：归一化流专注于建模简化的低频语义流形，而专门的解码器处理高频合成。这种设计有效解决了 NFs 固有的容量瓶颈，使模型能够优先关注全局结构一致性而非冗余噪声。在 ImageNet 256×256 上的实验结果表明，MIMFlow-L 达到了 71.3\% 的线性探测准确率和 2.50 的 FID。尽管仅使用了 128 个 token（比标准模型少 50\%），它相比同等规模的 NF 基线获得了 32.8\% 的性能提升。我们的代码可在 https://github.com/MCG-NJU/MIMFlow 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/30 03:33

Paper page - MIMFlow: 整合掩码图像建模与标准化流实现端到端图像生成

来源：https://huggingface.co/papers/2606.26016

摘要

MIMFlow 将标准化流与掩码图像建模相结合，通过解耦语义表示与像素级细节，用更少的 token 实现了更优的生成建模性能。

标准化流（Normalizing Flows，简称 NFs，https://huggingface.co/papers?q=Normalizing%20Flows）是能够进行精确密度估计和采样的强大生成模型。然而，其严格的逆变换性质常常迫使模型将其容量过多地消耗在低级像素细节上，从而阻碍了对高级语义结构的捕捉。尽管掩码图像建模（Masked Image Modeling，简称 MIM，https://huggingface.co/papers?q=Masked%20Image%20Modeling）在表示学习方面表现出色，但其在生成流程中的整合仍然很大程度上是模块化且脱节的。在本文中，我们提出了 MIMFlow，一个统一的端到端框架，共同优化潜在语义（https://huggingface.co/papers?q=latent%20semantics）、像素重建和生成流（https://huggingface.co/papers?q=generative%20flow）。通过使用 VAE 编码器（https://huggingface.co/papers?q=VAE%20encoder）从掩码图像中推断语义潜在表示，MIMFlow 实现了生成任务的原则性解耦：标准化流专注于建模简化后的低频语义流形（https://huggingface.co/papers?q=semantic%20manifold），而专门的解码器则负责高频合成（https://huggingface.co/papers?q=high-frequency%20synthesis）。这种设计有效解决了 NFs 固有的容量瓶颈，使模型能够优先关注全局结构连贯性而非冗余噪声。在 ImageNet 256×256 上的实验结果表明，MIMFlow-L 达到了 71.3% 的线性探测精度（https://huggingface.co/papers?q=linear%20probing%20accuracy）和 2.50 的 FID（https://huggingface.co/papers?q=FID）。尽管仅使用了 128 个 token（比标准模型少 50%），它仍比同规模 NF 基线获得了 32.8% 的性能提升。我们的代码已开源，地址为 https://github.com/MCG-NJU/MIMFlow。

查看 arXiv 页面 (https://arxiv.org/abs/2606.26016) 查看 PDF (https://arxiv.org/pdf/2606.26016) GitHub1 (https://github.com/MCG-NJU/MIMFlow) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26016)

在您的 agent 中获取本文：

hf papers read 2606.26016

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接到本文

请在模型 README.md 中引用 arxiv.org/abs/2606.26016，以便从此页面链接。

引用本文的数据集0

没有数据集链接到本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.26016，以便从此页面链接。

引用本文的 Spaces0

没有 Space 链接到本文

请在 Space README.md 中引用 arxiv.org/abs/2606.26016，以便从此页面链接。

包含本文的收藏集0

没有收藏集包含本文

请将本文添加到一个收藏集 (https://huggingface.co/new-collection) 中，以便从此页面链接。

MIMFlow: 集成掩码图像建模与归一化流的端到端图像生成

Paper page - MIMFlow: 整合掩码图像建模与标准化流实现端到端图像生成

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏集0

相似文章

掩码语言流模型

STARFlow2：连接语言模型与归一化流以实现统一的多模态生成

@jiqizhixin：如果只需要一步就能生成高质量图像，而不是数百步？斯坦福和字节跳动推出 W-Flow……

多分辨率流匹配：基于分阶段采样的免训练扩散加速

我构建了‘第一个’流匹配图像生成器，以下是我的心得 [P]

提交意见反馈