Chiaroscuro Attention:在黑暗中运用计算
摘要
CHIAR-Former使用基于谱熵的路由,动态选择DCT、RBF和自注意力算子,在大规模文本数据集上实现了效率提升,同时通过混合注意力机制保持性能。
查看缓存全文
缓存时间: 2026/06/09 08:40
Paper page - Chiaroscuro Attention: Spending Compute in the Dark
来源:https://huggingface.co/papers/2606.08327
摘要
CHIAR-Former 使用基于谱熵的路由机制,在 DCT、RBF 和自注意力算子之间动态选择,通过混合注意力机制在大型文本数据集上提升效率的同时保持性能。
标准的Transformer(https://huggingface.co/papers?q=transformers)在每一层和每个 token 上统一应用自注意力(https://huggingface.co/papers?q=self-attention),无论输入是否需要动态跨 token 交互。我们提出 CHIAR-Former(明暗对照注意力),这是一个 4 层混合 Transformer(https://huggingface.co/papers?q=hybrid%20transformer),它基于每个 token 的谱熵(https://huggingface.co/papers?q=spectral%20entropy)(一种理论上有依据的复杂度信号)将每个 token 路由到三个算子之一——DCT 谱混合(https://huggingface.co/papers?q=DCT%20spectral%20mixing)、RBF 核混合(https://huggingface.co/papers?q=RBF%20kernel%20mixing)或全自注意力(https://huggingface.co/papers?q=full%20self-attention)。通过在 WikiText-103(https://huggingface.co/papers?q=WikiText-103)上进行系统的消融实验,我们发现了路由崩溃(https://huggingface.co/papers?q=routing%20collapse):路由器始终拒绝 RBF 而选择 DCT 和注意力,揭示出谱混合与动态注意力(https://huggingface.co/papers?q=dynamic%20attention)是互补且充分的。一种专门设计的仅 DCT+Attention 变体在 WikiText-103(https://huggingface.co/papers?q=WikiText-103)上实现了 Val PPL 36.54——相比全注意力基线(PPL 66.62)提升了 45%,同时减少了 62.5% 的注意力 FLOPs(https://huggingface.co/papers?q=attention%20FLOPs)。我们将评估扩展到 WikiText-2(https://huggingface.co/papers?q=WikiText-2)、IMDB 情感分类(https://huggingface.co/papers?q=IMDB%20sentiment%20classification)和合成 ListOps(https://huggingface.co/papers?q=ListOps)运算,确定了清晰的工作范围:CHIAR-Former 在大型自然文本上表现出色,此时 token 多样性支持谱特化,而全注意力在小数据集和合成模式匹配任务上仍保持优势。这些发现——无论是成功还是失败——共同定义了谱路由何时以及为何值得使用。
查看 arXiv 页面(https://arxiv.org/abs/2606.08327)查看 PDF(https://arxiv.org/pdf/2606.08327)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08327)
在你的 agent 中获取这篇论文:
hf papers read 2606.08327
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.08327,以便从此页面链接。
引用本论文的数据集 0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.08327,以便从此页面链接。
引用本论文的 Space 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.08327,以便从此页面链接。
包含本论文的收藏集 0
没有包含本论文的收藏集
请将此论文添加到收藏集(https://huggingface.co/new-collection)中,以便从此页面链接。
相似文章
注意力的路由与过滤结构
本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。
学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力
本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。
SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推
SEGA是一种无需训练的方法,通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力,改善高分辨率文本到图像生成。
Interdomain Attention: 超越令牌级键值记忆
提出了Interdomain Attention,一种通过核方法将状态空间模型集成到注意力中的新方法,实现了固定大小状态的高效长上下文建模,并在参数规模达13亿的语言建模实验中超越了SSM和softmax注意力。
用于可扩展视觉 Transformer 的弹性注意力核 [R]
本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。