HydraHead：从头部级功能异质性到专注意力混合

Hugging Face Daily Papers 2026/06/18 00:00 论文

摘要

HydraHead 是一种新颖的注意力混合架构，通过在头部层级结合完全注意力和线性注意力，利用可解释性驱动的选择和尺度归一化融合，实现长上下文性能卓越并减少训练开销。

注意力的二次复杂度对长上下文处理构成了关键瓶颈，激发了人们对混合注意力设计的兴趣。大多数开源混合模型采用逐层策略。然而，先前工作已注意到将线性注意力（LA）与完全注意力（FA）集成的固有困难，表明注意力混合的设计空间仍未得到充分探索。为了探究这一空间，我们进行了可解释性分析，观察到各层表现出块状功能相似性，而同一层内的各个头部尽管共享输入特征，却显示出独特的功能专业化。这种头部级别的异质性表明，头部维度为融合异构注意力信号提供了自然且有原则的粒度。基于这一洞察，我们引入了HydraHead，一种沿头部轴混合FA和LA的新型架构。HydraHead具有两个关键创新：（1）一种可解释性驱动的选择策略，用于识别检索关键头部并仅为其保留FA；（2）一个尺度归一化融合模块，用于调和FA和LA头部输出之间的分布差异。通过利用包含参数复用和蒸馏的三阶段迁移流水线，我们以最小的训练开销实现了高性能混合模型。在统一的训练设置下，HydraHead在长上下文任务中优于其他混合设计，同时保持较强的通用推理能力。借助可解释性驱动的头部选择，它以7:1的LA与FA比例达到了3:1逐层混合模型的长上下文性能。关键的是，HydraHead仅使用150亿个令牌进行训练，就在512K上下文长度上相对于基线实现了超过69%的改进，接近同尺寸原生上下文长度为256K的领先模型Qwen3.5。这突显了头部级混合的显著扩展潜力。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - HydraHead：从头部级功能异质性到专门化的注意力混合

来源：https://huggingface.co/papers/2606.20097

摘要

HydraHead 是一种新颖的注意力混合架构，在头部层级将全注意力（Full Attention）与线性注意力（Linear Attention）相结合，通过可解释性驱动的选择与尺度归一化融合，以更低的训练开销实现了卓越的长上下文性能。

注意力的二次复杂度构成了长上下文处理（https://huggingface.co/papers?q=long-context%20processing）的关键瓶颈，这激发了人们对混合注意力设计的兴趣。多数开源混合模型采用逐层策略。然而，先前的研究已注意到将线性注意力（https://huggingface.co/papers?q=Linear%20Attention）（LA）与全注意力（https://huggingface.co/papers?q=Full%20Attention）（FA）集成的固有困难，这表明注意力混合（https://huggingface.co/papers?q=attention%20hybridization）的设计空间仍有待探索。为探究这一空间，我们进行了可解释性分析，观察到各层表现出块状功能相似性，而同一层内的各个头部尽管共享输入特征，却显示出独特的功能专化。这种头部级异质性表明，头部维度为融合异质注意力信号提供了一种自然且有原则的粒度。基于这一洞见，我们提出了 HydraHead，一种沿头部轴混合 FA 与 LA 的新型架构。HydraHead 包含两项关键创新：（1）一种可解释性驱动的选择（https://huggingface.co/papers?q=interpretability-driven%20selection）策略，用于识别检索关键头部并仅为其保留 FA；（2）一个尺度归一化融合（https://huggingface.co/papers?q=scale-normalized%20fusion）模块，用于调和 FA 与 LA 头部输出之间的分布差异。通过利用包含参数重用（https://huggingface.co/papers?q=parameter%20reuse）与蒸馏（https://huggingface.co/papers?q=distillation）的三阶段迁移流水线，我们以极小的训练开销实现了高性能混合模型。在统一训练设置下，HydraHead 在长上下文任务中优于其他混合设计，同时保持强大的通用推理能力。凭借可解释性驱动的头部选择，它以 7:1 的 LA 与 FA 比例，达到了 3:1 逐层混合模型的长上下文性能。至关重要的是，HydraHead 仅使用 150 亿令牌进行训练，在 512K 上下文长度下相比基线实现了超过 69% 的提升，接近 Qwen3.5——一个同等规模、原生上下文长度为 256K 的领先模型。这突显了头部级混合（https://huggingface.co/papers?q=head-level%20hybridization）的巨大扩展潜力。

查看 arXiv 页面（https://arxiv.org/abs/2606.20097）查看 PDF（https://arxiv.org/pdf/2606.20097）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.20097）

在您的代理中获取此论文：

hf papers read 2606.20097

没有最新的命令行界面？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.20097 即可从本页关联。

引用此论文的数据集0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.20097 即可从本页关联。

引用此论文的 Space0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.20097 即可从本页关联。

包含此论文的收藏集0

无收藏集包含此论文

将本论文添加到一个收藏集（https://huggingface.co/new-collection）即可从本页关联。

HydraHead：从头部级功能异质性到专注意力混合

论文页面 - HydraHead：从头部级功能异质性到专门化的注意力混合

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

重新思考高效注意力在混合架构中的作用

HYDRA-X: 原生统一多模态模型与整体视觉分词器

基于领域分解的层次注意力

功能注意力：从成对亲和性到功能对应关系

动态线性注意力

提交意见反馈