SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推

Hugging Face Daily Papers 2026/05/21 00:00 论文

diffusion-transformers text-to-image attention resolution-extrapolation training-free rope spectral-energy

摘要

SEGA是一种无需训练的方法，通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力，改善高分辨率文本到图像生成。

扩散变换器（DiTs）已成为文本到图像生成的主流架构，但在生成超出其训练范围的分辨率时，其性能会下降。现有的无需训练的方法通过修改推理时的注意力行为来缓解这一问题，通常采用旋转位置嵌入（RoPE）外推结合注意力缩放。然而，这些策略对具有不同频率特征的RoPE组件施加统一的、与内容无关的缩放，导致在保持全局结构和恢复细节之间存在权衡。我们提出了SEGA，一种无需训练的方法，根据每个去噪步骤中潜变量的空间频率结构动态缩放RoPE组件的注意力。这种自适应缩放提高了结构一致性和细节保真度。实验表明，SEGA在多个目标分辨率上持续改善高分辨率合成，优于最先进的无需训练的基线方法。

查看原文

查看缓存全文

缓存时间: 2026/05/22 14:20

论文页面 - SEGA：基于谱-能量引导的注意力机制用于扩散 Transformer 的分辨率外推

来源：https://huggingface.co/papers/2605.22668

摘要

SEGA 通过根据去噪过程中潜变量的空间-频率结构，自适应地缩放各 RoPE 分量上的注意力，从而改善高分辨率文本到图像的生成效果。

扩散 Transformer (https://huggingface.co/papers?q=Diffusion%20transformers)（DiTs）已成为文本到图像生成 (https://huggingface.co/papers?q=text-to-image%20generation) 的主导架构，但在生成超出其训练范围的分辨率时，性能会下降。现有的免训练方法通过修改推理时的注意力行为来缓解这一问题，通常采用旋转位置编码 (https://huggingface.co/papers?q=Rotary%20Position%20Embeddings)（RoPE）外推结合注意力缩放 (https://huggingface.co/papers?q=attention%20scaling)。然而，这些策略对具有不同频率特征的 RoPE 分量应用了统一且与内容无关的缩放，导致在保留全局结构与恢复细节之间产生权衡。我们提出了 SEGA，一种免训练方法，它根据每个去噪步骤中潜变量的空间-频率结构 (https://huggingface.co/papers?q=spatial-frequency%20structure)，动态地缩放各 RoPE 分量上的注意力。这种自适应缩放同时提升了结构连贯性和细节保真度。实验表明，SEGA 在多个目标分辨率上持续改进高分辨率合成 (https://huggingface.co/papers?q=high-resolution%20synthesis) 效果，优于当前最先进的免训练基线方法。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22668)查看 PDF (https://arxiv.org/pdf/2605.22668)项目页面 (https://rajabi2001.github.io/sega/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22668)

在您的智能体中获取本论文：

hf papers read 2605.22668

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

暂无模型引用本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.22668，以便在此页面建立链接。

引用本论文的数据集0

暂无数据集引用本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.22668，以便在此页面建立链接。

引用本论文的 Space0

暂无 Space 引用本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.22668，以便在此页面建立链接。

包含本论文的收藏集0

暂无包含本论文的收藏集

请将本论文添加到收藏集 (https://huggingface.co/new-collection)，以便在此页面建立链接。

SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推

论文页面 - SEGA：基于谱-能量引导的注意力机制用于扩散 Transformer 的分辨率外推

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Space0

包含本论文的收藏集0

相似文章

Spectral Guidance：灵活高效的扩散模型控制方法

通过自动分割和块蒸馏实现块注意力泛化

能量门控注意力与Wavelet位置编码：Transformer注意力的互补归纳偏置

利用测试时训练线性化视觉Transformer

VGGT-Edit: 基于残差场预测的前馈原生3D场景编辑

提交意见反馈