SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推

Hugging Face Daily Papers 论文

摘要

SEGA是一种无需训练的方法,通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力,改善高分辨率文本到图像生成。

扩散变换器(DiTs)已成为文本到图像生成的主流架构,但在生成超出其训练范围的分辨率时,其性能会下降。现有的无需训练的方法通过修改推理时的注意力行为来缓解这一问题,通常采用旋转位置嵌入(RoPE)外推结合注意力缩放。然而,这些策略对具有不同频率特征的RoPE组件施加统一的、与内容无关的缩放,导致在保持全局结构和恢复细节之间存在权衡。我们提出了SEGA,一种无需训练的方法,根据每个去噪步骤中潜变量的空间频率结构动态缩放RoPE组件的注意力。这种自适应缩放提高了结构一致性和细节保真度。实验表明,SEGA在多个目标分辨率上持续改善高分辨率合成,优于最先进的无需训练的基线方法。
查看原文
查看缓存全文

缓存时间: 2026/05/22 14:20

论文页面 - SEGA:基于谱-能量引导的注意力机制用于扩散 Transformer 的分辨率外推

来源:https://huggingface.co/papers/2605.22668

摘要

SEGA 通过根据去噪过程中潜变量的空间-频率结构,自适应地缩放各 RoPE 分量上的注意力,从而改善高分辨率文本到图像的生成效果。

扩散 Transformer (https://huggingface.co/papers?q=Diffusion%20transformers)(DiTs)已成为文本到图像生成 (https://huggingface.co/papers?q=text-to-image%20generation) 的主导架构,但在生成超出其训练范围的分辨率时,性能会下降。现有的免训练方法通过修改推理时的注意力行为来缓解这一问题,通常采用旋转位置编码 (https://huggingface.co/papers?q=Rotary%20Position%20Embeddings)(RoPE)外推结合注意力缩放 (https://huggingface.co/papers?q=attention%20scaling)。然而,这些策略对具有不同频率特征的 RoPE 分量应用了统一且与内容无关的缩放,导致在保留全局结构与恢复细节之间产生权衡。我们提出了 SEGA,一种免训练方法,它根据每个去噪步骤中潜变量的空间-频率结构 (https://huggingface.co/papers?q=spatial-frequency%20structure),动态地缩放各 RoPE 分量上的注意力。这种自适应缩放同时提升了结构连贯性和细节保真度。实验表明,SEGA 在多个目标分辨率上持续改进高分辨率合成 (https://huggingface.co/papers?q=high-resolution%20synthesis) 效果,优于当前最先进的免训练基线方法。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22668)查看 PDF (https://arxiv.org/pdf/2605.22668)项目页面 (https://rajabi2001.github.io/sega/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22668)

在您的智能体中获取本论文:

hf papers read 2605.22668

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

暂无模型引用本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.22668,以便在此页面建立链接。

引用本论文的数据集0

暂无数据集引用本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.22668,以便在此页面建立链接。

引用本论文的 Space0

暂无 Space 引用本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.22668,以便在此页面建立链接。

包含本论文的收藏集0

暂无包含本论文的收藏集

请将本论文添加到收藏集 (https://huggingface.co/new-collection),以便在此页面建立链接。

相似文章

通过自动分割和块蒸馏实现块注意力泛化

arXiv cs.CL

本文介绍了SemanticSeg,一个用于长文本语义分割的大规模数据集,以及块蒸馏(block distillation)训练框架,该框架使块注意力模型能够接近全注意力性能,从而在RAG和长上下文场景中改善KV缓存复用。

利用测试时训练线性化视觉Transformer

Hugging Face Daily Papers

本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。