MRT:面向大规模分层图像生成与编辑的掩码区域Transformer
摘要
MRT是一个200亿参数的掩码区域扩散模型,统一了文本到层、图像到层以及层到层任务,用于可扩展的多层透明图像生成与编辑,达到了最先进的性能。
查看缓存全文
缓存时间: 2026/05/27 02:47
Paper page - MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale
来源:https://huggingface.co/papers/2605.27235
摘要
一个拥有200亿参数的掩码区域扩散模型,通过统一任务处理和高效的画布管理,实现了可扩展的多层透明图像生成与编辑。
分层图像生成与编辑是一项基础能力,它允许对生成的视觉内容进行逐层复用、编辑和组合,类似于自然语言中的单词级编辑。尽管其重要性不言而喻,但这一领域在规模化层面上仍未得到充分探索。为填补这一空白,我们提出了MRT——一个专为多层透明图像生成与编辑量身定制的200亿参数掩码区域扩散模型(https://huggingface.co/papers?q=masked%20region%20diffusion%20model),该模型在超过1000万个涵盖多种宽高比和文本提示的多语言设计样本上进行了训练。为充分利用这一规模,我们做出了两项关键的技术贡献。首先,我们将三种互补任务——文本到图层(https://huggingface.co/papers?q=text-to-layers)、图像到图层(https://huggingface.co/papers?q=image-to-layers)以及图层到图层(https://huggingface.co/papers?q=layers-to-layers)——统一到一个共享的掩码区域扩散框架中,其中选择性令牌掩码(https://huggingface.co/papers?q=selective%20token%20masking)实现了灵活的逐层生成与编辑。其次,为支持溢出图层的生成,我们引入了一个溢出感知画布层(https://huggingface.co/papers?q=overflow-aware%20canvas%20layer),用于处理边界不一致性问题并支持半透明背景合成,从而生成超出可见画布边界的完整可编辑图层。此外,我们应用了扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)技术,以仅需8步推理即可实现实时多层生成,同时质量损失极小。大量实验表明,我们的框架在所有三个任务上均大幅优于先前的最先进方法(包括多种商业系统),为多层透明图像生成(https://huggingface.co/papers?q=multi-layer%20transparent%20image%20generation)树立了新标杆。值得注意的是,根据用户研究结果,我们的模型在图像到图层(https://huggingface.co/papers?q=image-to-layers)质量上显著超越同期发布的Qwen-Image-Layered模型,同时实现了10-100倍的推理加速,并将图像到图层推理期间的激活GPU内存消耗降低了50-90%。
查看 arXiv 页面 (https://arxiv.org/abs/2605.27235)查看 PDF (https://arxiv.org/pdf/2605.27235)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27235)
在您的 Agent 中获取这篇论文:
hf papers read 2605\.27235
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
尚无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。
引用此论文的数据集0
尚无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。
引用此论文的 Spaces0
尚无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.27235 以在此页面建立链接。
包含此论文的收藏集0
尚无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
重掩码,而非替换:掩码扩散语言模型中的 Token-to-Mask 精修
提出 Token-to-Mask(T2M)重掩码,在掩码扩散 LM 中通过将可疑 token 重置为掩码状态而非直接覆盖来修正生成错误,在 CMATH 上最高提升 5.92 准确率,无需额外训练或参数。
MMCORE:多模态连接与表征对齐的潜在嵌入
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。
M2Retinexformer: 多模态Retinexformer用于低光照图像增强
M2Retinexformer通过交叉注意力和自适应门控机制融合深度、亮度和语义线索,扩展了Retinexformer框架用于低光照图像增强,在多个基准上取得了最先进的结果。
RT-Lynx:以正确方式将GEMM稀疏性应用于扩散模型
RT-Lynx提出利用激活稀疏性而非权重稀疏性来加速扩散模型,在线性层上实现了高达1.55倍的加速,同时保持生成质量,并被ICML 2026接收。
超越最后一层:用于视觉标记化的多层表示融合
本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。