MRT：面向大规模分层图像生成与编辑的掩码区域Transformer

Hugging Face Daily Papers 2026/05/26 00:00 论文

摘要

MRT是一个200亿参数的掩码区域扩散模型，统一了文本到层、图像到层以及层到层任务，用于可扩展的多层透明图像生成与编辑，达到了最先进的性能。

分层图像生成与编辑是一项基本能力，它支持对生成的视觉内容进行逐层复用、编辑和组合，类似于自然语言中的单词级编辑。尽管其重要，但这一领域在大规模应用中仍未被充分探索。为填补这一空白，我们提出了MRT，一个专为多层透明图像生成与编辑量身定制的200亿参数掩码区域扩散模型，该模型在超过1000万个多语言设计样本上进行了训练，这些样本涵盖了多种宽高比和文本提示。为充分利用这一规模，我们做出了两项关键技术贡献。首先，我们在一个共享的掩码区域扩散框架内统一了三个互补任务，包括文本到层、图像到层以及层到层，其中选择性令牌掩码实现了灵活的逐层生成与编辑。其次，为了实现溢出层生成，我们引入了一个感知溢出的画布层，该层处理边界不一致性并支持半透明背景合成，使得完整的可编辑层能够延伸到可见画布边界之外。此外，我们应用了扩散蒸馏技术，实现了8步实时多层生成，且质量下降极小。大量实验表明，我们的框架在所有三个任务上显著优于之前的最先进方法（包括各种商业系统），为多层透明图像生成设立了新的基准。值得注意的是，根据用户研究结果，我们的模型在图像到层质量上显著优于并行的Qwen-Image-Layered模型，同时实现了10-100倍的推理加速，并将图像到层推理过程中的激活GPU内存消耗降低了50-90%。

查看原文

查看缓存全文

缓存时间: 2026/05/27 02:47

Paper page - MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

来源：https://huggingface.co/papers/2605.27235

摘要

一个拥有200亿参数的掩码区域扩散模型，通过统一任务处理和高效的画布管理，实现了可扩展的多层透明图像生成与编辑。

分层图像生成与编辑是一项基础能力，它允许对生成的视觉内容进行逐层复用、编辑和组合，类似于自然语言中的单词级编辑。尽管其重要性不言而喻，但这一领域在规模化层面上仍未得到充分探索。为填补这一空白，我们提出了MRT——一个专为多层透明图像生成与编辑量身定制的200亿参数掩码区域扩散模型（https://huggingface.co/papers?q=masked%20region%20diffusion%20model），该模型在超过1000万个涵盖多种宽高比和文本提示的多语言设计样本上进行了训练。为充分利用这一规模，我们做出了两项关键的技术贡献。首先，我们将三种互补任务——文本到图层（https://huggingface.co/papers?q=text-to-layers）、图像到图层（https://huggingface.co/papers?q=image-to-layers）以及图层到图层（https://huggingface.co/papers?q=layers-to-layers）——统一到一个共享的掩码区域扩散框架中，其中选择性令牌掩码（https://huggingface.co/papers?q=selective%20token%20masking）实现了灵活的逐层生成与编辑。其次，为支持溢出图层的生成，我们引入了一个溢出感知画布层（https://huggingface.co/papers?q=overflow-aware%20canvas%20layer），用于处理边界不一致性问题并支持半透明背景合成，从而生成超出可见画布边界的完整可编辑图层。此外，我们应用了扩散蒸馏（https://huggingface.co/papers?q=diffusion%20distillation）技术，以仅需8步推理即可实现实时多层生成，同时质量损失极小。大量实验表明，我们的框架在所有三个任务上均大幅优于先前的最先进方法（包括多种商业系统），为多层透明图像生成（https://huggingface.co/papers?q=multi-layer%20transparent%20image%20generation）树立了新标杆。值得注意的是，根据用户研究结果，我们的模型在图像到图层（https://huggingface.co/papers?q=image-to-layers）质量上显著超越同期发布的Qwen-Image-Layered模型，同时实现了10-100倍的推理加速，并将图像到图层推理期间的激活GPU内存消耗降低了50-90%。

查看 arXiv 页面 (https://arxiv.org/abs/2605.27235)查看 PDF (https://arxiv.org/pdf/2605.27235)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27235)

在您的 Agent 中获取这篇论文：

hf papers read 2605\.27235

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。

引用此论文的数据集0

尚无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。

引用此论文的 Spaces0

尚无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

MRT：面向大规模分层图像生成与编辑的掩码区域Transformer

Paper page - MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

Nemotron-Labs-Diffusion-Image：推进掩蔽离散扩散实现高分辨率图像合成

MMDiff: 扩展扩散变换器以实现多模态生成

MGDT：MLLM引导的扩散Transformer结合关系自适应混合专家模型用于多模态知识图谱补全

@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配：LLM…

从RGB生成到密集场读出：基于文本到图像模型的像素空间密集预测

提交意见反馈