Chiaroscuro Attention:在黑暗中运用计算

Hugging Face Daily Papers 论文

摘要

CHIAR-Former使用基于谱熵的路由,动态选择DCT、RBF和自注意力算子,在大规模文本数据集上实现了效率提升,同时通过混合注意力机制保持性能。

标准Transformer在每个层和每个token上均匀地应用自注意力,无论输入是否需要动态的跨token交互。我们提出CHIAR-Former(Chiaroscuro Attention),一个4层混合Transformer,它根据每个token的谱熵(一个理论上合理的复杂度信号)将每个token路由到三个算子之一——DCT谱混合、RBF核混合或全自注意力。通过在WikiText-103上的系统消融实验,我们发现了路由崩溃现象:路由器始终拒绝RBF而选择DCT和注意力,这表明谱混合和动态注意力是互补且足够的。一个专门设计的仅使用DCT+注意力的变体在WikiText-103上达到了Val PPL 36.54——相比全注意力基线(PPL 66.62)提升了45%,同时注意力FLOPs减少了62.5%。我们将评估扩展到WikiText-2、IMDB情感分类和合成ListOps操作,明确了适用范围:CHIAR-Former在大规模自然文本上表现出色,其中token多样性支持谱特化,而全注意力在小数据集和合成模式匹配任务上保持优势。这些发现——无论是成功还是失败——共同定义了谱路由在何时以及为何值得使用。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:40

Paper page - Chiaroscuro Attention: Spending Compute in the Dark

来源:https://huggingface.co/papers/2606.08327

摘要

CHIAR-Former 使用基于谱熵的路由机制,在 DCT、RBF 和自注意力算子之间动态选择,通过混合注意力机制在大型文本数据集上提升效率的同时保持性能。

标准的Transformer(https://huggingface.co/papers?q=transformers)在每一层和每个 token 上统一应用自注意力(https://huggingface.co/papers?q=self-attention),无论输入是否需要动态跨 token 交互。我们提出 CHIAR-Former(明暗对照注意力),这是一个 4 层混合 Transformer(https://huggingface.co/papers?q=hybrid%20transformer),它基于每个 token 的谱熵(https://huggingface.co/papers?q=spectral%20entropy)(一种理论上有依据的复杂度信号)将每个 token 路由到三个算子之一——DCT 谱混合(https://huggingface.co/papers?q=DCT%20spectral%20mixing)、RBF 核混合(https://huggingface.co/papers?q=RBF%20kernel%20mixing)或全自注意力(https://huggingface.co/papers?q=full%20self-attention)。通过在 WikiText-103(https://huggingface.co/papers?q=WikiText-103)上进行系统的消融实验,我们发现了路由崩溃(https://huggingface.co/papers?q=routing%20collapse):路由器始终拒绝 RBF 而选择 DCT 和注意力,揭示出谱混合与动态注意力(https://huggingface.co/papers?q=dynamic%20attention)是互补且充分的。一种专门设计的仅 DCT+Attention 变体在 WikiText-103(https://huggingface.co/papers?q=WikiText-103)上实现了 Val PPL 36.54——相比全注意力基线(PPL 66.62)提升了 45%,同时减少了 62.5% 的注意力 FLOPs(https://huggingface.co/papers?q=attention%20FLOPs)。我们将评估扩展到 WikiText-2(https://huggingface.co/papers?q=WikiText-2)、IMDB 情感分类(https://huggingface.co/papers?q=IMDB%20sentiment%20classification)和合成 ListOps(https://huggingface.co/papers?q=ListOps)运算,确定了清晰的工作范围:CHIAR-Former 在大型自然文本上表现出色,此时 token 多样性支持谱特化,而全注意力在小数据集和合成模式匹配任务上仍保持优势。这些发现——无论是成功还是失败——共同定义了谱路由何时以及为何值得使用。

查看 arXiv 页面(https://arxiv.org/abs/2606.08327)查看 PDF(https://arxiv.org/pdf/2606.08327)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08327)

在你的 agent 中获取这篇论文:

hf papers read 2606.08327

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.08327,以便从此页面链接。

引用本论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.08327,以便从此页面链接。

引用本论文的 Space 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.08327,以便从此页面链接。

包含本论文的收藏集 0

没有包含本论文的收藏集

请将此论文添加到收藏集(https://huggingface.co/new-collection)中,以便从此页面链接。

相似文章

注意力的路由与过滤结构

arXiv cs.LG

本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。

学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力

Reddit r/artificial

本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。

Interdomain Attention: 超越令牌级键值记忆

arXiv cs.LG

提出了Interdomain Attention,一种通过核方法将状态空间模型集成到注意力中的新方法,实现了固定大小状态的高效长上下文建模,并在参数规模达13亿的语言建模实验中超越了SSM和softmax注意力。

用于可扩展视觉 Transformer 的弹性注意力核 [R]

Reddit r/MachineLearning

本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。