MRT:面向大规模分层图像生成与编辑的掩码区域Transformer

Hugging Face Daily Papers 论文

摘要

MRT是一个200亿参数的掩码区域扩散模型,统一了文本到层、图像到层以及层到层任务,用于可扩展的多层透明图像生成与编辑,达到了最先进的性能。

分层图像生成与编辑是一项基本能力,它支持对生成的视觉内容进行逐层复用、编辑和组合,类似于自然语言中的单词级编辑。尽管其重要,但这一领域在大规模应用中仍未被充分探索。为填补这一空白,我们提出了MRT,一个专为多层透明图像生成与编辑量身定制的200亿参数掩码区域扩散模型,该模型在超过1000万个多语言设计样本上进行了训练,这些样本涵盖了多种宽高比和文本提示。为充分利用这一规模,我们做出了两项关键技术贡献。首先,我们在一个共享的掩码区域扩散框架内统一了三个互补任务,包括文本到层、图像到层以及层到层,其中选择性令牌掩码实现了灵活的逐层生成与编辑。其次,为了实现溢出层生成,我们引入了一个感知溢出的画布层,该层处理边界不一致性并支持半透明背景合成,使得完整的可编辑层能够延伸到可见画布边界之外。此外,我们应用了扩散蒸馏技术,实现了8步实时多层生成,且质量下降极小。大量实验表明,我们的框架在所有三个任务上显著优于之前的最先进方法(包括各种商业系统),为多层透明图像生成设立了新的基准。值得注意的是,根据用户研究结果,我们的模型在图像到层质量上显著优于并行的Qwen-Image-Layered模型,同时实现了10-100倍的推理加速,并将图像到层推理过程中的激活GPU内存消耗降低了50-90%。
查看原文
查看缓存全文

缓存时间: 2026/05/27 02:47

Paper page - MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

来源:https://huggingface.co/papers/2605.27235

摘要

一个拥有200亿参数的掩码区域扩散模型,通过统一任务处理和高效的画布管理,实现了可扩展的多层透明图像生成与编辑。

分层图像生成与编辑是一项基础能力,它允许对生成的视觉内容进行逐层复用、编辑和组合,类似于自然语言中的单词级编辑。尽管其重要性不言而喻,但这一领域在规模化层面上仍未得到充分探索。为填补这一空白,我们提出了MRT——一个专为多层透明图像生成与编辑量身定制的200亿参数掩码区域扩散模型(https://huggingface.co/papers?q=masked%20region%20diffusion%20model),该模型在超过1000万个涵盖多种宽高比和文本提示的多语言设计样本上进行了训练。为充分利用这一规模,我们做出了两项关键的技术贡献。首先,我们将三种互补任务——文本到图层(https://huggingface.co/papers?q=text-to-layers)、图像到图层(https://huggingface.co/papers?q=image-to-layers)以及图层到图层(https://huggingface.co/papers?q=layers-to-layers)——统一到一个共享的掩码区域扩散框架中,其中选择性令牌掩码(https://huggingface.co/papers?q=selective%20token%20masking)实现了灵活的逐层生成与编辑。其次,为支持溢出图层的生成,我们引入了一个溢出感知画布层(https://huggingface.co/papers?q=overflow-aware%20canvas%20layer),用于处理边界不一致性问题并支持半透明背景合成,从而生成超出可见画布边界的完整可编辑图层。此外,我们应用了扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)技术,以仅需8步推理即可实现实时多层生成,同时质量损失极小。大量实验表明,我们的框架在所有三个任务上均大幅优于先前的最先进方法(包括多种商业系统),为多层透明图像生成(https://huggingface.co/papers?q=multi-layer%20transparent%20image%20generation)树立了新标杆。值得注意的是,根据用户研究结果,我们的模型在图像到图层(https://huggingface.co/papers?q=image-to-layers)质量上显著超越同期发布的Qwen-Image-Layered模型,同时实现了10-100倍的推理加速,并将图像到图层推理期间的激活GPU内存消耗降低了50-90%。

查看 arXiv 页面 (https://arxiv.org/abs/2605.27235)查看 PDF (https://arxiv.org/pdf/2605.27235)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27235)

在您的 Agent 中获取这篇论文:

hf papers read 2605\.27235

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。

引用此论文的数据集0

尚无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。

引用此论文的 Spaces0

尚无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

超越最后一层:用于视觉标记化的多层表示融合

Hugging Face Daily Papers

本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。