Chiaroscuro Attention：在黑暗中运用计算

Hugging Face Daily Papers 2026/06/06 00:00 论文

spectral-entropy routing hybrid-attention transformer-efficiency dct rbf wikitext

摘要

CHIAR-Former使用基于谱熵的路由，动态选择DCT、RBF和自注意力算子，在大规模文本数据集上实现了效率提升，同时通过混合注意力机制保持性能。

标准Transformer在每个层和每个token上均匀地应用自注意力，无论输入是否需要动态的跨token交互。我们提出CHIAR-Former（Chiaroscuro Attention），一个4层混合Transformer，它根据每个token的谱熵（一个理论上合理的复杂度信号）将每个token路由到三个算子之一——DCT谱混合、RBF核混合或全自注意力。通过在WikiText-103上的系统消融实验，我们发现了路由崩溃现象：路由器始终拒绝RBF而选择DCT和注意力，这表明谱混合和动态注意力是互补且足够的。一个专门设计的仅使用DCT+注意力的变体在WikiText-103上达到了Val PPL 36.54——相比全注意力基线（PPL 66.62）提升了45%，同时注意力FLOPs减少了62.5%。我们将评估扩展到WikiText-2、IMDB情感分类和合成ListOps操作，明确了适用范围：CHIAR-Former在大规模自然文本上表现出色，其中token多样性支持谱特化，而全注意力在小数据集和合成模式匹配任务上保持优势。这些发现——无论是成功还是失败——共同定义了谱路由在何时以及为何值得使用。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:40

Paper page - Chiaroscuro Attention: Spending Compute in the Dark

来源：https://huggingface.co/papers/2606.08327

摘要

CHIAR-Former 使用基于谱熵的路由机制，在 DCT、RBF 和自注意力算子之间动态选择，通过混合注意力机制在大型文本数据集上提升效率的同时保持性能。

标准的Transformer（https://huggingface.co/papers?q=transformers）在每一层和每个 token 上统一应用自注意力（https://huggingface.co/papers?q=self-attention），无论输入是否需要动态跨 token 交互。我们提出 CHIAR-Former（明暗对照注意力），这是一个 4 层混合 Transformer（https://huggingface.co/papers?q=hybrid%20transformer），它基于每个 token 的谱熵（https://huggingface.co/papers?q=spectral%20entropy）（一种理论上有依据的复杂度信号）将每个 token 路由到三个算子之一——DCT 谱混合（https://huggingface.co/papers?q=DCT%20spectral%20mixing）、RBF 核混合（https://huggingface.co/papers?q=RBF%20kernel%20mixing）或全自注意力（https://huggingface.co/papers?q=full%20self-attention）。通过在 WikiText-103（https://huggingface.co/papers?q=WikiText-103）上进行系统的消融实验，我们发现了路由崩溃（https://huggingface.co/papers?q=routing%20collapse）：路由器始终拒绝 RBF 而选择 DCT 和注意力，揭示出谱混合与动态注意力（https://huggingface.co/papers?q=dynamic%20attention）是互补且充分的。一种专门设计的仅 DCT+Attention 变体在 WikiText-103（https://huggingface.co/papers?q=WikiText-103）上实现了 Val PPL 36.54——相比全注意力基线（PPL 66.62）提升了 45%，同时减少了 62.5% 的注意力 FLOPs（https://huggingface.co/papers?q=attention%20FLOPs）。我们将评估扩展到 WikiText-2（https://huggingface.co/papers?q=WikiText-2）、IMDB 情感分类（https://huggingface.co/papers?q=IMDB%20sentiment%20classification）和合成 ListOps（https://huggingface.co/papers?q=ListOps）运算，确定了清晰的工作范围：CHIAR-Former 在大型自然文本上表现出色，此时 token 多样性支持谱特化，而全注意力在小数据集和合成模式匹配任务上仍保持优势。这些发现——无论是成功还是失败——共同定义了谱路由何时以及为何值得使用。

查看 arXiv 页面（https://arxiv.org/abs/2606.08327）查看 PDF（https://arxiv.org/pdf/2606.08327）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.08327）

在你的 agent 中获取这篇论文：

hf papers read 2606.08327

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.08327，以便从此页面链接。

引用本论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.08327，以便从此页面链接。

引用本论文的 Space 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.08327，以便从此页面链接。

包含本论文的收藏集 0

没有包含本论文的收藏集

请将此论文添加到收藏集（https://huggingface.co/new-collection）中，以便从此页面链接。

Chiaroscuro Attention：在黑暗中运用计算

Paper page - Chiaroscuro Attention: Spending Compute in the Dark

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Space 0

包含本论文的收藏集 0

相似文章

Chimera：混合视觉扩散Transformer的设计与Chinchilla式缩放

注意力的路由与过滤结构

学习跳跃块：自我发现的超度量路由用于硬件加速稀疏注意力

SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推

面向块稀疏注意力的不确定性门控选择

提交意见反馈